Encoded-word (RFC 2047)
RFC 2047Een coderingsschema gedefinieerd in RFC 2047 ("Encoded-Word") dat niet-ASCII-tekens in e-mailkoptekstvelden zoals Subject en From mogelijk maakt door ze te coderen als =?tekenset?codering?tekst?=-tokens.
E-mailkopteksten mogen volgens RFC 5322 alleen 7-bits ASCII-tekens bevatten. RFC 2047 biedt hiervoor een oplossing: niet-ASCII-tekst in kopteksten wordt weergegeven als een "gecodeerd woord" in de vorm =?tekenset?B?...?= (Base64) of =?tekenset?Q?...?= (quoted-printable). Een Japanse onderwerpregel kan in het onbewerkte bericht bijvoorbeeld verschijnen als =?ISO-2022-JP?B?...?= en moet worden gedecodeerd voordat hij kan worden weergegeven.
Zonder RFC 2047-decodering verschijnen onderwerpregels en afzendernamen met geaccentueerde tekens, CJK-tekens, Arabisch of een ander niet-ASCII-schrift als onbewerkte gecodeerde reeksen — volledig onleesbaar voor de eindgebruiker. Een correcte implementatie vereist het detecteren van gecodeerde-woord-tokens op alle plaatsen waar ze legaal in een koptekstwaarde kunnen voorkomen en het decoderen van elk token met de opgegeven tekenset en codering.
Mbox Viewer decodeert RFC 2047-gecodeerde woorden in alle koptekstvelden bij het opbouwen van zijn berichtenlijst en zoekindex. Dit betekent dat zoeken naar een naam in het oorspronkelijke schrift — bijvoorbeeld een Japanse afzendernaam — correct overeenkomt, ook al slaat het onderliggende MBOX-bestand de naam op in gecodeerde vorm.
Verwante begrippen
De tekencodering die aangeeft hoe bytes in een tekstonderdeel worden omgezet naar leesbare tekens. Gangbare tekensets zijn UTF-8, ISO-8859-1 en Shift_JIS; een onjuiste tekenset veroorzaakt onleesbare tekens die bekendstaan als mojibake.
Het gestructureerde metadatablok aan het begin van een e-mailbericht, met velden zoals From, To, Subject, Date en talrijke technische velden die beschrijven hoe het bericht is samengesteld, gerouteerd en gecodeerd.