Guia de campo dos formatos de armazenamento de e-mail: história, anatomia e comparação
Como o e-mail é realmente armazenado em disco — MBOX, Maildir, EML, PST, OST, OLM, MSG, NSF e formatos históricos como o Eudora. Sua história, como são construídos, para que serve cada um e uma comparação lado a lado.
David Carrero ·
Todo programa de e-mail precisa responder à mesma pergunta: para onde vão de verdade as mensagens no disco? Meio século de respostas produziu um pequeno zoológico de formatos — alguns abertos e lindamente simples, outros bancos de dados proprietários que você não consegue ler sem o aplicativo que os criou. Este é um passeio pelos que você vai encontrar, como são construídos, de onde vieram e como se comparam entre si.
De modo geral, eles se dividem em três famílias:
- Contêineres abertos baseados em texto — um arquivo guarda muitas mensagens (MBOX), ou um arquivo por mensagem dentro de uma pasta (Maildir). Legíveis por humanos e independentes de fabricante.
- Uma mensagem por arquivo — uma única mensagem como arquivo autônomo (EML, MSG).
- Bancos de dados proprietários — um armazenamento binário que guarda e-mail mais calendário, contatos e estado (PST, OST, OLM, NSF). Compactos dentro de seu aplicativo, opacos fora dele.
Os formatos abertos baseados em texto
MBOX — a língua franca
MBOX remonta aos primeiros sistemas de e-mail do Unix nos anos 1970. A ideia é desarmantemente simples: concatenar todas as mensagens de uma caixa de correio em um único arquivo de texto simples e marcar onde cada uma começa com uma linha que inicia com From (a “linha From_”, com um espaço, não o cabeçalho From:). Cabeçalhos, corpo e anexos — codificados como texto — vivem todos inline.
Essa simplicidade esconde uma peculiaridade famosa: o que acontece quando o corpo de uma mensagem contém uma linha que começa com “From ”? Respostas diferentes deram origem a variantes — mboxo, mboxrd, mboxcl e mboxcl2 — que escapam (ou não) essa sequência de maneiras diferentes. Na prática, as ferramentas modernas leem todas elas. MBOX é o que Google Takeout, Apple Mail, Thunderbird e a maioria dos clientes clássicos exportam, o que faz dele o que o e-mail tem de mais próximo de um formato de arquivo universal.
Maildir — um arquivo por mensagem
Criado para o servidor qmail em 1995, o Maildir adota a abordagem oposta: cada mensagem é seu próprio arquivo dentro de uma pasta, distribuído entre os subdiretórios tmp/, new/ e cur/. Sua grande virtude é a segurança sem travamento — dois processos podem entregar e-mails ao mesmo tempo sem corromper um arquivo compartilhado, o risco clássico do MBOX. É o formato nativo de servidores como Dovecot e Courier. O custo são milhões de arquivos minúsculos, algo de que alguns sistemas de arquivos não gostam.
EML — uma única mensagem, do jeito que a internet define
EML é uma mensagem salva exatamente como ela viaja: a estrutura MIME bruta definida pelos RFCs de e-mail (822 → 2822 → 5322). Cabeçalhos no topo, depois o corpo e os anexos codificados em partes MIME. Por ser o formato que circula na rede, quase tudo consegue produzi-lo e lê-lo — Outlook, Thunderbird, sistemas de tickets, scanners e servidores de e-mail. Uma pasta de arquivos .eml é o arquivo mais simples possível.
Os bancos de dados proprietários
PST — o armazenamento pessoal do Outlook no Windows
PST (Personal Storage Table) é o banco de dados em disco do Microsoft Outlook no Windows, construído sobre o modelo MAPI. Ele guarda muito mais do que e-mail — calendário, contatos, tarefas, notas — em um único arquivo binário. O PST ANSI original (Outlook 97–2002) tinha um limite de 2 GB e era propenso à corrupção perto desse limite; o PST Unicode (Outlook 2003+) elevou esse limite para 20–50 GB. Rápido e compacto dentro do Outlook, mas inútil para outros aplicativos sem conversão.
OST — o cache offline
OST (Offline Storage Table) é o irmão do PST: uma cópia em cache de uma caixa de correio que reside em um servidor Exchange ou Microsoft 365. Existe para que o Outlook funcione offline e sincronize novamente mais tarde. Fundamentalmente, um OST está vinculado à sua conta e ao seu perfil — não é um arquivo portátil, e arquivos OST órfãos podem ser difíceis de abrir.
OLM — Outlook para Mac
OLM é o formato de exportação/arquivamento do Outlook para Mac. Mesma intenção do PST, contêiner diferente — um pacote proprietário que, como o PST, precisa ser convertido antes que algo além do Outlook consiga lê-lo.
MSG — uma única mensagem do Outlook
MSG é uma mensagem exportada do Outlook, armazenada como um “arquivo composto” OLE (um minissistema de arquivos dentro de um arquivo) que carrega propriedades MAPI. É o equivalente do EML no Windows, mas binário e específico da Microsoft.
NSF — Lotus Notes / HCL Domino
NSF (Notes Storage Facility) é o banco de dados por trás do IBM/Lotus Notes (hoje HCL Domino) — uma plataforma de aplicações inteira, não apenas e-mail. Arquivos NSF ainda aparecem em empresas de longa data e, como os outros aqui, exigem ferramentas dedicadas para a extração.
Os históricos
- Eudora (1988–2006) foi o cliente dominante dos primeiros tempos da internet. Ele armazenava e-mails em arquivos de caixa de correio
.mbx— essencialmente MBOX — acompanhados de um índice de sumário.toc. Como o corpo é texto no estilo MBOX, os arquivos do Eudora costumam ser recuperáveis hoje. - Outlook Express usava arquivos
.dbx(um por pasta) no Windows ao longo do fim dos anos 1990 e dos anos 2000; seu sucessor Windows Mail / Live Mail migrou para arquivos.emlindividuais. - O e-mail do Netscape/Mozilla, o Evolution, o Claws Mail, o Entourage e outros armazenavam ou exportavam MBOX — que é exatamente o motivo pelo qual o MBOX continua tão amplamente legível.
Lado a lado
| Formato | Estrutura | Aberto? | Arquivo portátil? | Origem |
|---|---|---|---|---|
| MBOX | Um arquivo de texto, muitas mensagens | ✅ Aberto | ✅ Excelente | Unix, anos 1970 |
| Maildir | Um arquivo por mensagem, em pastas | ✅ Aberto | ✅ Bom | qmail, 1995 |
| EML | Uma mensagem, MIME bruto | ✅ Aberto | ✅ Excelente | RFCs da internet |
| MSG | Uma mensagem, composto OLE | ❌ Proprietário | ⚠️ Limitado | Microsoft |
| PST | Banco de dados binário (e-mail + PIM) | ❌ Proprietário | ⚠️ Converter antes | Outlook (Win) |
| OST | Caixa de correio do servidor em cache | ❌ Proprietário | ❌ Vinculado à conta | Outlook/Exchange |
| OLM | Pacote proprietário | ❌ Proprietário | ⚠️ Converter antes | Outlook (Mac) |
| NSF | Banco de dados de aplicação | ❌ Proprietário | ⚠️ Converter antes | Lotus Notes |
O que escolher para o longo prazo
Para arquivar — manter o e-mail legível por décadas — os formatos abertos baseados em texto vencem sempre. MBOX e EML não têm fabricante, nem licença, nem motor de banco de dados que possa ficar obsoleto: daqui a vinte anos ainda serão texto simples que qualquer ferramenta consegue abrir. É por isso que, se você algum dia puder escolher um formato de exportação, MBOX (ou uma pasta de arquivos EML) é a opção segura, e por isso converter PST/OLM para MBOX torna um arquivo do Outlook à prova de futuro.
Depois que seu e-mail estiver em MBOX ou EML, o Mbox Viewer o abre no Mac e no Windows — qualquer tamanho, somente leitura, totalmente offline. Para a versão prática “qual arquivo posso abrir e como” deste guia, veja MBOX, EML, PST, OLM: os formatos de arquivo de e-mail explicados; para transformar um arquivo do Outlook em MBOX, veja como converter PST/OLM para MBOX.
Abra seu arquivo com o Mbox Viewer
App nativo para Mac e Windows. Processa arquivos MBOX e EML de qualquer tamanho, totalmente offline.