Blog
9 min readMoreFreeTools Team

Como os Arquivos PDF Realmente Funcionam: O Formato que Revolucionou o Compartilhamento de Documentos

Descubra os mecanismos internos do formato PDF: estrutura, modelo de objetos, fontes, tabela xref e por que alguns PDFs nao sao pesquisaveis.

como funcionam arquivos PDFformato PDF explicadounir arquivos PDFestrutura arquivo PDFcomo mesclar PDFs

Mesclar e Dividir PDF

A ferramenta gratuita citada neste artigo — experimente diretamente no seu navegador.

Abrir a ferramenta

Como os Arquivos PDF Realmente Funcionam: O Formato que Revolucionou o Compartilhamento de Documentos

Voce abre um PDF no Windows, em um Mac, em um telefone Android e em um servidor Linux, e ele tem exatamente a mesma aparencia em todos os quatro. Essa reprodutibilidade foi outrora uma conquista de engenharia notavel, e nao e acidental. O Portable Document Format foi projetado desde o inicio para que os documentos tenham aparencia identica em qualquer dispositivo. Mas o que e realmente um PDF? Este artigo revela os mecanismos internos: o banco de dados de objetos, os fluxos de conteudo, a tabela de referencias cruzadas, as razoes pelas quais alguns PDFs nao sao pesquisaveis, e por que mesclar dois PDFs as vezes pode dobrar o tamanho do arquivo.

Uma Breve Historia: De Camelot ao Padrao ISO

Em 1991, John Warnock, cofundador da Adobe Systems, escreveu um memorando interno chamado "O Projeto Camelot." Seu objetivo era ambicioso: criar um formato de arquivo universal que permitisse a qualquer pessoa enviar qualquer documento para qualquer computador e imprimi-lo exatamente como pretendido, independentemente do software ou fontes instaladas.

A primeira versao publica do PDF apareceu em 1993 junto com o Adobe Acrobat 1.0. A adocao inicial foi lenta porque o Acrobat Reader ainda nao era gratuito. A Adobe tornou o Reader gratuito em 1994, e a adocao comecou a acelerar.

Por seus primeiros 15 anos, o PDF era um formato proprietario da Adobe. Isso mudou em 1 de julho de 2008, quando o PDF 1.7 foi publicado como ISO 32000-1, um padrao internacional aberto. Uma segunda edicao, ISO 32000-2 (PDF 2.0), seguiu em 2017. Hoje, qualquer desenvolvedor pode implementar suporte completo a PDF sem pagar a Adobe.

Ferramenta relacionada

Mesclar e Dividir PDF

Use diretamente no seu navegador. Sem registro, sem download, sem dados armazenados.

Usar a ferramenta

O que Realmente e um PDF: Um Banco de Dados de Objetos Hierarquico

A maioria das pessoas pensa em um PDF como um documento ou uma imagem sofisticada. Nenhum dos dois esta completamente correto. Um arquivo PDF e um banco de dados de objetos hierarquico armazenado em um arquivo de texto (ou binario) plano. O arquivo contem uma arvore de objetos numerados, e o documento e montado seguindo as referencias entre esses objetos.

Tipos de objetos em um PDF:

Tipo de objeto Proposito
Dicionario Pares chave-valor, o bloco de construcao da maioria das estruturas
Array Lista ordenada de objetos
Fluxo Bloco de dados binarios ou comprimidos (imagens, fontes, conteudo)
String Dados de texto, literais ou codificados em hexadecimal
Numero Valores inteiros ou reais para coordenadas, tamanhos
Booleano Indicadores verdadeiro/falso
Nome Identificadores simbolicos como /Font ou /Page
Nulo Marcador de posicao para valores ausentes

As Quatro Secoes de Todo Arquivo PDF

Todo arquivo PDF valido tem quatro secoes, nesta ordem:

%PDF-1.7              <- Cabecalho
1 0 obj ... endobj    <- Corpo (muitos objetos)
xref                  <- Tabela de referencias cruzadas
trailer               <- Rodape
%%EOF                 <- Marcador de fim de arquivo

Cabecalho: A primeira linha de qualquer PDF e %PDF-x.y, onde x.y e o numero da versao.

Corpo: O corpo e uma sequencia de objetos numerados. Cada objeto comeca com N G obj e termina com endobj.

Tabela de referencias cruzadas (xref): A tabela xref e um indice de deslocamentos de bytes de tamanho fixo de cada objeto no arquivo. Como os deslocamentos de bytes tem largura fixa, um leitor de PDF pode saltar diretamente para qualquer objeto em microssegundos, mesmo em um arquivo de 500 MB. E por isso que grandes PDFs abrem rapidamente.

Rodape: O dicionario de rodape aponta para a tabela xref e para o objeto catalogo do documento, que e a raiz da arvore de objetos.

Por que PDFs Parecem Iguais em Todo Lugar: Heranca do PostScript e Fontes Incorporadas

O PDF e um descendente direto do PostScript, a linguagem de descricao de paginas da Adobe de 1982. Quando um leitor de PDF renderiza texto, ele nao depende das fontes instaladas no seu computador. Em vez disso, o proprio arquivo PDF contem um descritor de fonte e, geralmente, uma copia completa ou parcialmente incorporada dos dados da fonte.

O texto em um fluxo de conteudo PDF se parece com isto:

BT
  /F1 12 Tf
  100 700 Td
  (Ola, mundo) Tj
ET

BT inicia um bloco de texto. /F1 12 Tf seleciona a fonte F1 a 12 pontos. 100 700 Td move o cursor de texto para as coordenadas (100, 700). (Ola, mundo) Tj desenha a string. ET encerra o bloco de texto. Todas as coordenadas sao em pontos (1/72 de polegada), medidos a partir do canto inferior esquerdo da pagina.

Por que Alguns PDFs nao Sao Pesquisaveis: Documentos Digitalizados e OCR

Um scanner nao produz texto. Ele produz uma imagem de uma pagina. Quando essa imagem e envolta em um container PDF, o arquivo resultante contem zero dados de texto. Cada "palavra" que voce ve e apenas uma colecao de pixels escuros em uma imagem raster.

Para tornar um PDF digitalizado pesquisavel, voce precisa de Reconhecimento Optico de Caracteres (OCR). O software de OCR analisa os padroes de pixels na imagem, infere formas de caracteres e produz uma camada de texto oculta. O resultado e um "PDF pesquisavel": visualmente parece o scan, mas a camada de texto permite selecao e pesquisa.

Versoes do PDF e Marcos Importantes

Versao Ano Adicao Principal
PDF 1.0 1993 Lancamento inicial com Acrobat 1.0
PDF 1.2 1996 Formularios interativos (AcroForms)
PDF 1.4 2001 Transparencia e canal alfa
PDF 1.5 2003 Fluxos de objetos (melhor compressao)
PDF 1.7 2006 Tornou-se ISO 32000-1 em 2008
PDF 2.0 2017 ISO 32000-2: acessibilidade aprimorada, nova criptografia

PDFs Linearizados: Visualizacao Web Rapida

Um PDF padrao deve ser totalmente baixado antes que um navegador possa exibir qualquer pagina. Os PDFs linearizados (tambem chamados de "Visualizacao Web Rapida" no Adobe Acrobat) resolvem isso reestruturando o arquivo para que todos os objetos necessarios para exibir a primeira pagina aparecem logo no inicio. Um servidor web pode comecar a transmitir o arquivo, e o navegador pode renderizar a pagina 1 antes de o restante do arquivo chegar.

Atualizacoes Incrementais: Como Funciona a Edicao de PDF

Quando voce abre um PDF, adiciona um comentario e o salva, os PDFs usam um modelo de atualizacao incremental. Objetos novos e modificados sao adicionados ao final do arquivo, seguidos de uma nova secao xref. O corpo do arquivo original nao e tocado. Isso significa que um documento que foi anotado e re-salvo muitas vezes pode conter dezenas de versoes de objetos obsoletas.

Por que Mesclar PDFs Pode Alterar o Tamanho do Arquivo Inesperadamente

Quando voce mescla dois arquivos PDF, pode esperar que a saida seja aproximadamente a soma dos dois tamanhos de entrada. Na pratica, o resultado pode ser maior ou menor.

Maior do que o esperado e comum quando ambos os PDFs de origem incorporam a mesma fonte. Uma fonte de 500 KB no arquivo A e a mesma fonte de 500 KB no arquivo B aparecera em ambas na saida mesclada se o mesclador nao desduplicar os recursos de fonte.

Menor do que o esperado pode ocorrer quando ambos os PDFs compartilham grandes recursos comuns que podem ser desduplicados.

Perguntas Frequentes

Por que alguns PDFs sao tao grandes?

O tamanho do PDF depende de fontes incorporadas, resolucao de imagem, numero de paginas e se a compressao de fluxo de objetos e usada. Uma unica fotografia de alta resolucao a 300 DPI pode ter de 5 a 10 MB por si so.

Por que nao consigo copiar texto de alguns PDFs?

Ha duas razoes. Primeiro, o PDF pode ser um documento digitalizado contendo apenas imagens raster sem camada de texto. OCR e necessario. Segundo, o autor do PDF pode ter definido uma senha de permissoes que restringe a copia.

O que e um PDF/A?

PDF/A e um padrao ISO (ISO 19005) projetado para arquivamento de longo prazo. Um arquivo PDF/A deve incorporar todas as fontes, nao pode referenciar recursos externos, nao pode usar criptografia ou JavaScript. O objetivo e que um arquivo PDF/A seja totalmente independente e renderizavel por software escrito decadas no futuro.

Por que meu PDF parece diferente em computadores diferentes?

A causa mais comum sao fontes ausentes ou substituidas. Se um PDF nao incorporar suas fontes, o visualizador substitui a fonte mais proxima disponivel. Incorporar fontes completamente elimina esse problema.


Agora que voce entende como os arquivos PDF sao construidos, voce pode trabalhar com eles com mais confianca. Seja para combinar capitulos em um unico relatorio ou dividir um arquivo grande em secoes menores, a ferramenta Mesclar e Dividir PDF no MoreFreeTools lida com ambas as operacoes de forma limpa.

Ferramenta relacionada

Mesclar e Dividir PDF

Use diretamente no seu navegador. Sem registro, sem download, sem dados armazenados.

Usar a ferramenta