Codifica dei caratteri
La codifica dei caratteri che specifica come i byte di una parte di testo vengono mappati in caratteri leggibili. I charset comuni includono UTF-8, ISO-8859-1 e Shift_JIS; una mancata corrispondenza causa testo distorto noto come mojibake.
Ogni parte di testo di un'e-mail ha una codifica dei caratteri — una regola che mappa i valori dei byte ai caratteri. Il charset è dichiarato nell'intestazione Content-Type, ad esempio: Content-Type: text/plain; charset="UTF-8". UTF-8 è la codifica dominante oggi perché può rappresentare ogni carattere in Unicode, ma i messaggi più vecchi possono usare codifiche regionali come ISO-8859-1 (Europa occidentale), ISO-2022-JP (giapponese), GB2312 (cinese semplificato) o Windows-1252.
Quando un'e-mail viene visualizzata con il charset sbagliato, i caratteri al di fuori dell'intervallo ASCII di base vengono resi come simboli senza senso — un fenomeno noto come mojibake (dal giapponese, approssimativamente "trasformazione dei caratteri"). Ciò accade quando un messaggio dichiara un charset ma il lettore ne usa un altro, oppure quando nessun charset è dichiarato e il lettore indovina in modo errato.
Mbox Viewer rileva la dichiarazione del charset dalle intestazioni MIME e applica il decodificatore corretto per ogni parte del messaggio. Per i messaggi che omettono una dichiarazione di charset, l'app applica il rilevamento euristico per identificare la codifica dai pattern di byte, riducendo il mojibake negli archivi che contengono posta da client più vecchi o non standard.
Termini correlati
Uno schema di codifica definito nell'RFC 2047 ("Encoded-Word") che consente caratteri non ASCII nei campi di intestazione delle e-mail come Subject e From, codificandoli come token =?charset?codifica?testo?=.
Multipurpose Internet Mail Extensions — lo standard che definisce come i messaggi e-mail codificano testo non ASCII, corpi HTML, allegati e altri contenuti binari all'interno della struttura in testo normale della posta elettronica.