Deduplizierung
Der Prozess des Erkennens und Entfernens doppelter E-Mail-Nachrichten aus einem Archiv, typischerweise durch Vergleich von Message-ID-Werten, um Redundanz beim Zusammenführen mehrerer MBOX-Dateien zu vermeiden.
Doppelte Nachrichten entstehen auf natürliche Weise bei der Verwaltung von E-Mail-Archiven im Laufe der Zeit. Führt man beispielsweise zwei Google-Takeout-Exporte im Abstand von sechs Monaten durch und kombiniert sie, erscheinen Nachrichten aus dem überlappenden Zeitraum in beiden MBOX-Dateien. Ein Zusammenführen ohne Deduplizierung verdoppelt diese Nachrichten im kombinierten Archiv und beeinträchtigt Thread-Zählungen sowie die Relevanz der Suchergebnisse.
Der zuverlässigste Deduplizierungsschlüssel ist der Message-ID-Header, der darauf ausgelegt ist, pro Nachricht global eindeutig zu sein. Zwei Nachrichten mit derselben Message-ID gelten als Duplikate. Ein Deduplizierungsdurchlauf über eine Gruppe von MBOX-Dateien kann diese Kollisionen erkennen und das Duplikat entweder beim Import überspringen oder aus der zusammengeführten Ausgabe entfernen.
Sonderfälle bei der Deduplizierung umfassen Nachrichten ohne Message-ID (bei sehr alten oder fehlerhaften E-Mails) und Nachrichten mit identischen Message-IDs, aber unterschiedlichem Inhalt (durch fehlerhafte Sendesoftware). Robuste Werkzeuge behandeln diese Fälle, indem sie Message-ID mit einem Hash der wichtigsten Kopfzeilen oder des vollständigen Nachrichtentextes als sekundären Fingerabdruck kombinieren. Mbox Viewer verwendet den Message-ID-Vergleich beim Zusammenführen von Archiven, um das Ergebnis sauber zu halten.
Verwandte Begriffe
Eine global eindeutige Kennung, die jeder E-Mail-Nachricht zugewiesen wird und im Message-ID-Header angegeben ist. Sie wird verwendet, um Nachrichten zu verfolgen, Konversations-Threads aufzubauen und Duplikate beim Zusammenführen von Archiven zu erkennen.
Ein Klartextdateiformat, das mehrere E-Mail-Nachrichten hintereinander speichert, wobei jede Nachricht mit einer "From "-Trennzeile beginnt. Es ist das Format, das Google Takeout beim Export eines Gmail-Archivs erzeugt.