Skip to content
Mbox Viewer

Deduplication

複数の MBOX ファイルをマージする際の冗長性を回避するために、通常 Message-ID 値を比較することでアーカイブから重複したメールメッセージを検出・削除するプロセスです。

重複メッセージは時間をかけてメールアーカイブを管理する際に自然に発生します。たとえば6ヶ月間隔で2回 Google Takeout エクスポートを実行して結合すると、重複期間のメッセージが両方の MBOX ファイルに含まれます。重複排除なしでマージするとそれらのメッセージが結合アーカイブで2倍になり、スレッド数と検索結果の関連性が崩れます。

最も信頼性の高い重複排除キーは Message-ID ヘッダーで、これはメッセージごとにグローバルに一意であるよう設計されています。同じ Message-ID を持つ2つのメッセージは重複とみなされます。MBOX ファイルのセットに対して重複排除パスを実行すると、これらの衝突を識別し、インポート中に重複をスキップするか、マージされた出力から削除できます。

重複排除のエッジケースには、Message-ID が欠落しているメッセージ(非常に古いまたは不正な形式のメールに一般的)と、同一の Message-ID を持つが内容が異なるメッセージ(バグのある送信ソフトウェアによる)があります。堅牢なツールはこれらを、Message-ID が欠落または信頼できない場合にキーヘッダーまたは完全なメッセージ本文のハッシュとの組み合わせによる二次フィンガープリントを使用して処理します。Mbox Viewer はアーカイブをマージする際に Message-ID 比較を使用して結果をクリーンに保ちます。

関連用語

Mac で MBOX ファイルを開く