Skip to content
Mbox Viewer

Zestaw znaków

Kodowanie znaków określające sposób mapowania bajtów w części tekstowej na czytelne znaki. Popularne zestawy znaków to UTF-8, ISO-8859-1 i Shift_JIS; niezgodność powoduje zniekształcony tekst znany jako mojibake.

Każda część tekstowa wiadomości e-mail ma kodowanie znaków — regułę mapującą wartości bajtów na znaki. Zestaw znaków jest deklarowany w nagłówku Content-Type, na przykład: Content-Type: text/plain; charset="UTF-8". UTF-8 jest dominującym kodowaniem dziś, ponieważ może reprezentować każdy znak w Unicode, ale starsze wiadomości mogą używać regionalnych kodowań takich jak ISO-8859-1 (zachodnioeuropejski), ISO-2022-JP (japoński), GB2312 (chiński uproszczony) lub Windows-1252.

Gdy wiadomość e-mail jest wyświetlana z błędnym zestawem znaków, znaki spoza podstawowego zakresu ASCII są renderowane jako bezsensowne symbole — zjawisko znane jako mojibake (z japońskiego, w przybliżeniu "transformacja znaków"). Dzieje się to, gdy wiadomość deklaruje jeden zestaw znaków, ale czytnik używa innego, lub gdy nie jest zadeklarowany żaden zestaw znaków i czytnik zgaduje nieprawidłowo.

Mbox Viewer wykrywa deklarację zestawu znaków z nagłówków MIME i stosuje prawidłowy dekoder dla każdej części wiadomości. W przypadku wiadomości pomijających deklarację zestawu znaków, aplikacja stosuje heurystyczne wykrywanie w celu identyfikacji kodowania na podstawie wzorców bajtów, redukując mojibake w archiwach zawierających pocztę ze starszych lub niestandardowych klientów.

Powiązane pojęcia

Czytaj swoje pliki MBOX na Macu