Deduplicación
Proceso de detección y eliminación de mensajes de correo duplicados en un archivo, típicamente comparando los valores de Message-ID, para evitar redundancias al fusionar varios archivos MBOX.
Los mensajes duplicados surgen de forma natural al gestionar archivos de correo a lo largo del tiempo. Por ejemplo, si se ejecutan dos exportaciones de Google Takeout con seis meses de diferencia y se combinan, los mensajes del período de solapamiento aparecerán en ambos archivos MBOX. Fusionarlos sin deduplicación duplica esos mensajes en el archivo combinado, distorsionando los recuentos de hilos y la relevancia de los resultados de búsqueda.
La clave de deduplicación más fiable es la cabecera Message-ID, diseñada para ser globalmente única por mensaje. Dos mensajes con el mismo Message-ID se consideran duplicados. Un proceso de deduplicación sobre un conjunto de archivos MBOX puede identificar estas colisiones y omitir el duplicado durante la importación o eliminarlo de la salida fusionada.
Los casos extremos en la deduplicación incluyen mensajes sin Message-ID (habitual en correo muy antiguo o malformado) y mensajes con Message-IDs idénticos pero contenido diferente (causados por software de envío defectuoso). Las herramientas robustas los gestionan combinando el Message-ID con un hash de las cabeceras clave o del cuerpo completo del mensaje como huella digital secundaria. Mbox Viewer usa la comparación de Message-ID al fusionar archivos para mantener el resultado limpio.
Términos relacionados
Identificador globalmente único asignado a cada mensaje de correo, especificado en la cabecera Message-ID. Se usa para rastrear mensajes, construir hilos de conversación y detectar duplicados al fusionar archivos.
Formato de archivo de texto plano que almacena múltiples mensajes de correo concatenados, cada uno precedido por una línea separadora «From ». Es el formato que produce Google Takeout al exportar tu archivo de Gmail.