Skip to content
Mbox Viewer

Deduplicazione

Il processo di rilevamento e rimozione dei messaggi e-mail duplicati da un archivio, tipicamente confrontando i valori Message-ID, per evitare ridondanza durante l'unione di più file MBOX.

I messaggi duplicati emergono naturalmente quando si gestiscono archivi e-mail nel tempo. Ad esempio, se si eseguono due esportazioni Google Takeout a sei mesi di distanza e le si combinano, i messaggi del periodo sovrapposto appariranno in entrambi i file MBOX. L'unione senza deduplicazione raddoppia quei messaggi nell'archivio combinato, alterando i conteggi dei thread e la rilevanza dei risultati di ricerca.

La chiave di deduplicazione più affidabile è l'intestazione Message-ID, progettata per essere univoca globalmente per messaggio. Due messaggi con lo stesso Message-ID sono considerati duplicati. Un passaggio di deduplicazione su un insieme di file MBOX può identificare queste collisioni e saltare il duplicato durante l'importazione o rimuoverlo dall'output unito.

I casi limite nella deduplicazione includono messaggi con Message-ID mancanti (comuni nella posta molto vecchia o malformata) e messaggi con Message-ID identici ma contenuto diverso (causati da software di invio difettoso). Gli strumenti robusti gestiscono questi casi combinando Message-ID con un hash delle intestazioni chiave o del corpo completo del messaggio come impronta digitale secondaria. Mbox Viewer usa il confronto Message-ID quando unisce gli archivi per mantenere il risultato pulito.

Termini correlati

Leggi i tuoi file MBOX sul tuo Mac