Encoded-word (RFC 2047)
RFC 2047Ein in RFC 2047 definiertes Kodierungsverfahren ("Encoded-Word"), das Nicht-ASCII-Zeichen in E-Mail-Kopfzeilenfeldern wie Subject und From ermöglicht, indem sie als =?charset?kodierung?text?=-Token kodiert werden.
E-Mail-Kopfzeilen müssen gemäß RFC 5322 ausschließlich 7-Bit-ASCII-Zeichen enthalten. RFC 2047 bietet einen Workaround: Nicht-ASCII-Text in Kopfzeilen wird als "Encoded Word" in der Form =?charset?B?...?= (Base64) oder =?charset?Q?...?= (Quoted-Printable) dargestellt. Beispielsweise könnte eine japanische Betreffzeile in der Rohnachricht als =?ISO-2022-JP?B?...?= erscheinen und muss dekodiert werden, bevor sie angezeigt werden kann.
Ohne RFC 2047-Dekodierung erscheinen Betreffzeilen und Absendernamen mit Akzentzeichen, CJK-Schriftzeichen, Arabisch oder anderen Nicht-ASCII-Schriften als rohe kodierte Zeichenketten – für den Endbenutzer völlig unlesbar. Eine korrekte Implementierung erfordert das Erkennen von Encoded-Word-Token überall, wo sie legal in einem Kopfzeilenwert vorkommen können, und das Dekodieren jedes einzelnen mit dem angegebenen Zeichensatz und der Kodierung.
Mbox Viewer dekodiert RFC 2047-kodierte Wörter in allen Kopfzeilenfeldern beim Aufbau der Nachrichtenliste und des Suchindex. Das bedeutet, dass die Suche nach einem in seiner Originalschrift geschriebenen Namen – etwa einem japanischen Absendernamen – korrekt funktioniert, auch wenn die zugrundeliegende MBOX-Datei den Namen in kodierter Form speichert.
Verwandte Begriffe
Die Zeichenkodierung, die festlegt, wie Bytes in einem Textteil auf lesbare Zeichen abgebildet werden. Gängige Zeichensätze sind UTF-8, ISO-8859-1 und Shift_JIS; ein Missmatch verursacht unlesbaren Text, der als Mojibake bekannt ist.
Der strukturierte Metadatenblock am Anfang einer E-Mail-Nachricht, der Felder wie From, To, Subject, Date und zahlreiche technische Felder enthält, die beschreiben, wie die Nachricht verfasst, weitergeleitet und kodiert wurde.