Deduplikacja
Proces wykrywania i usuwania zduplikowanych wiadomości e-mail z archiwum, zazwyczaj poprzez porównywanie wartości Message-ID, aby uniknąć redundancji przy łączeniu wielu plików MBOX.
Zduplikowane wiadomości powstają naturalnie podczas zarządzania archiwami poczty e-mail w czasie. Na przykład, jeśli uruchomisz dwa eksporty Google Takeout w odstępie sześciu miesięcy i je połączysz, wiadomości z okresu nakładającego się pojawią się w obu plikach MBOX. Scalanie bez deduplikacji podwaja te wiadomości w połączonym archiwum, zaburzając liczby wątków i trafność wyników wyszukiwania.
Najbardziej niezawodnym kluczem deduplikacji jest nagłówek Message-ID, który jest zaprojektowany tak, aby był globalnie unikalny dla każdej wiadomości. Dwie wiadomości z tym samym Message-ID są uważane za duplikaty. Przebieg deduplikacji przez zestaw plików MBOX może identyfikować te kolizje i pomijać duplikat podczas importu lub usuwać go z połączonego wyjścia.
Przypadki brzegowe w deduplikacji obejmują wiadomości z brakującymi Message-ID (częste w bardzo starych lub zniekształconych wiadomościach) oraz wiadomości z identycznymi Message-ID, ale różną treścią (spowodowane błędnym oprogramowaniem wysyłającym). Solidne narzędzia obsługują je, łącząc Message-ID z hashem kluczowych nagłówków lub pełnej treści wiadomości jako dodatkowego odcisku palca. Mbox Viewer używa porównywania Message-ID podczas łączenia archiwów, aby zachować czysty wynik.
Powiązane pojęcia
Globalnie unikalny identyfikator przypisany do każdej wiadomości e-mail, określony w nagłówku Message-ID. Jest używany do śledzenia wiadomości, budowania wątków rozmów i wykrywania duplikatów przy łączeniu archiwów.
Format pliku tekstowego przechowujący wiele wiadomości e-mail połączonych w jeden plik, z każdą wiadomością poprzedzoną linią separatora "From ". Jest to format generowany przez Google Takeout podczas eksportu archiwum Gmail.