Skip to content
Mbox Viewer

Conjunto de caracteres

A codificação de caracteres que especifica como os bytes em uma parte de texto são mapeados para caracteres legíveis. Conjuntos de caracteres comuns incluem UTF-8, ISO-8859-1 e Shift_JIS; uma incompatibilidade causa texto ilegível conhecido como mojibake.

Cada parte de texto de um e-mail tem uma codificação de caracteres — uma regra que mapeia valores de bytes para caracteres. O charset é declarado no cabeçalho Content-Type, por exemplo: Content-Type: text/plain; charset="UTF-8". O UTF-8 é a codificação dominante hoje porque pode representar todos os caracteres do Unicode, mas mensagens mais antigas podem usar codificações regionais como ISO-8859-1 (Europa Ocidental), ISO-2022-JP (japonês), GB2312 (chinês simplificado) ou Windows-1252.

Quando um e-mail é exibido com o charset errado, os caracteres fora do intervalo ASCII básico são renderizados como símbolos sem sentido — um fenômeno conhecido como mojibake (do japonês, aproximadamente "transformação de caracteres"). Isso acontece quando uma mensagem declara um charset mas o leitor usa outro, ou quando nenhum charset é declarado e o leitor adivinha incorretamente.

O Mbox Viewer detecta a declaração de charset nos cabeçalhos MIME e aplica o decodificador correto para cada parte da mensagem. Para mensagens que omitem uma declaração de charset, o aplicativo aplica detecção heurística para identificar a codificação a partir dos padrões de bytes, reduzindo o mojibake em arquivos que contêm e-mail de clientes mais antigos ou não padrão.

Termos relacionados

Leia seus arquivos MBOX no seu Mac