Tekenset
De tekencodering die aangeeft hoe bytes in een tekstonderdeel worden omgezet naar leesbare tekens. Gangbare tekensets zijn UTF-8, ISO-8859-1 en Shift_JIS; een onjuiste tekenset veroorzaakt onleesbare tekens die bekendstaan als mojibake.
Elk tekstonderdeel van een e-mail heeft een tekencodering — een regel die bytewaarden aan tekens koppelt. De tekenset wordt gedeclareerd in de Content-Type-koptekst, bijvoorbeeld: Content-Type: text/plain; charset="UTF-8". UTF-8 is de dominante codering tegenwoordig, omdat het elk teken in Unicode kan weergeven, maar oudere berichten kunnen regionale coderingen gebruiken zoals ISO-8859-1 (West-Europees), ISO-2022-JP (Japans), GB2312 (Vereenvoudigd Chinees) of Windows-1252.
Wanneer een e-mail wordt weergegeven met de verkeerde tekenset, worden tekens buiten het standaard ASCII-bereik weergegeven als onzinnige symbolen — een verschijnsel dat bekend is als mojibake (uit het Japans, ruwweg "tekenomvorming"). Dit gebeurt wanneer een bericht één tekenset declareert maar de lezer een andere gebruikt, of wanneer er geen tekenset is gedeclareerd en de lezer een verkeerde gok maakt.
Mbox Viewer detecteert de tekensetdeclaratie uit de MIME-kopteksten en past de juiste decoder toe voor elk berichtonderdeel. Voor berichten zonder tekensetdeclaratie past de app heuristische detectie toe om de codering te identificeren op basis van de bytepatronen, waardoor mojibake wordt verminderd in archieven met mail van oudere of niet-standaard clients.
Verwante begrippen
Een coderingsschema gedefinieerd in RFC 2047 ("Encoded-Word") dat niet-ASCII-tekens in e-mailkoptekstvelden zoals Subject en From mogelijk maakt door ze te coderen als =?tekenset?codering?tekst?=-tokens.
Multipurpose Internet Mail Extensions — de standaard die definieert hoe e-mailberichten niet-ASCII-tekst, HTML-inhoud, bijlagen en andere binaire inhoud coderen binnen de tekststructuur van e-mail.