Skip to content
Mbox Viewer

Codifica dei caratteri

La codifica dei caratteri che specifica come i byte di una parte di testo vengono mappati in caratteri leggibili. I charset comuni includono UTF-8, ISO-8859-1 e Shift_JIS; una mancata corrispondenza causa testo distorto noto come mojibake.

Ogni parte di testo di un'e-mail ha una codifica dei caratteri — una regola che mappa i valori dei byte ai caratteri. Il charset è dichiarato nell'intestazione Content-Type, ad esempio: Content-Type: text/plain; charset="UTF-8". UTF-8 è la codifica dominante oggi perché può rappresentare ogni carattere in Unicode, ma i messaggi più vecchi possono usare codifiche regionali come ISO-8859-1 (Europa occidentale), ISO-2022-JP (giapponese), GB2312 (cinese semplificato) o Windows-1252.

Quando un'e-mail viene visualizzata con il charset sbagliato, i caratteri al di fuori dell'intervallo ASCII di base vengono resi come simboli senza senso — un fenomeno noto come mojibake (dal giapponese, approssimativamente "trasformazione dei caratteri"). Ciò accade quando un messaggio dichiara un charset ma il lettore ne usa un altro, oppure quando nessun charset è dichiarato e il lettore indovina in modo errato.

Mbox Viewer rileva la dichiarazione del charset dalle intestazioni MIME e applica il decodificatore corretto per ogni parte del messaggio. Per i messaggi che omettono una dichiarazione di charset, l'app applica il rilevamento euristico per identificare la codifica dai pattern di byte, riducendo il mojibake negli archivi che contengono posta da client più vecchi o non standard.

Termini correlati

Leggi i tuoi file MBOX sul tuo Mac