Como Funcionan los Archivos PDF: El Formato que Cambio el Intercambio de Documentos

Abres un PDF en Windows, en un Mac, en un telefono Android y en un servidor Linux, y se ve exactamente igual en los cuatro. Esta reproducibilidad fue una vez un logro ingenieril notable, y no es accidental. El Portable Document Format fue disenado desde cero para que los documentos se vean identicos en cualquier dispositivo. Pero, que es realmente un PDF? Este articulo descorre el velo sobre los mecanismos internos: la base de datos de objetos, los flujos de contenido, la tabla de referencias cruzadas, las razones por las que algunos PDFs no son buscables, y por que fusionar dos PDFs puede a veces duplicar el tamano del archivo.

Una Breve Historia: De Camelot a Norma ISO

En 1991, John Warnock, cofundador de Adobe Systems, escribio una nota interna llamada "El Proyecto Camelot." Su objetivo era ambicioso: crear un formato de archivo universal que permitiera a cualquiera enviar cualquier documento a cualquier computadora y que se imprimiera exactamente como se pretendia, independientemente del software o las fuentes instaladas.

La primera version publica del PDF aparecio en 1993 junto con Adobe Acrobat 1.0. La adopcion inicial fue lenta porque Acrobat Reader aun no era gratuito. Adobe hizo Reader gratuito en 1994, y la adopcion comenzo a acelerarse.

Durante sus primeros 15 anos, el PDF era un formato propietario de Adobe. Eso cambio el 1 de julio de 2008, cuando PDF 1.7 se publico como ISO 32000-1, un estandar internacional abierto. Una segunda edicion, ISO 32000-2 (PDF 2.0), siguio en 2017. Hoy, cualquier desarrollador puede implementar soporte completo de PDF sin pagar a Adobe.

Lo que Realmente es un PDF: Una Base de Datos de Objetos Jerarquica

La mayoria de las personas piensa en un PDF como un documento o una imagen sofisticada. Ninguno es del todo correcto. Un archivo PDF es una base de datos de objetos jerarquica almacenada en un archivo de texto (o binario) plano. El archivo contiene un arbol de objetos numerados, y el documento se ensambla siguiendo las referencias entre esos objetos.

Tipos de objetos en un PDF:

Tipo de objeto	Proposito
Diccionario	Pares clave-valor, el bloque de construccion de la mayoria de las estructuras
Array	Lista ordenada de objetos
Flujo	Bloque de datos binarios o comprimidos (imagenes, fuentes, contenido)
Cadena	Datos de texto, literales o codificados en hexadecimal
Numero	Valores enteros o reales para coordenadas, tamanos
Booleano	Indicadores verdadero/falso
Nombre	Identificadores simbolicos como `/Font` o `/Page`
Nulo	Marcador de posicion para valores ausentes

Las Cuatro Secciones de Todo Archivo PDF

Cada archivo PDF valido tiene cuatro secciones, en este orden:

%PDF-1.7              <- Cabecera
1 0 obj ... endobj    <- Cuerpo (muchos objetos)
xref                  <- Tabla de referencias cruzadas
trailer               <- Pie de archivo
%%EOF                 <- Marcador de fin de archivo

Cabecera: La primera linea de cualquier PDF es %PDF-x.y, donde x.y es el numero de version.

Cuerpo: El cuerpo es una secuencia de objetos numerados. Cada objeto comienza con N G obj y termina con endobj.

Tabla de referencias cruzadas (xref): La tabla xref es un indice de desplazamientos de bytes de tamano fijo de cada objeto en el archivo. Debido a que los desplazamientos de bytes tienen un ancho fijo, un lector de PDF puede saltar directamente a cualquier objeto en microsegundos, incluso en un archivo de 500 MB. Por eso los PDFs grandes se abren rapidamente.

Pie de archivo: El diccionario de pie apunta a la tabla xref y al objeto catalogo del documento, que es la raiz del arbol de objetos.

Por Que los PDFs se Ven Igual en Todos Lados: Herencia PostScript y Fuentes Incrustadas

El PDF es un descendiente directo de PostScript, el lenguaje de descripcion de paginas de Adobe de 1982. Cuando un lector de PDF muestra texto, no depende de las fuentes instaladas en tu computadora. En cambio, el propio archivo PDF contiene un descriptor de fuente y, generalmente, una copia completa o parcialmente incrustada de los datos de la fuente.

El texto en un flujo de contenido PDF se ve asi:

BT
  /F1 12 Tf
  100 700 Td
  (Hola, mundo) Tj
ET

BT comienza un bloque de texto. /F1 12 Tf selecciona la fuente F1 a 12 puntos. 100 700 Td mueve el cursor de texto a las coordenadas (100, 700). (Hola, mundo) Tj dibuja la cadena. ET termina el bloque de texto. Todas las coordenadas son en puntos (1/72 de pulgada), medidas desde la esquina inferior izquierda de la pagina.

Por Que Algunos PDFs no Son Buscables: Documentos Escaneados y OCR

Un escaner no produce texto. Produce una imagen de una pagina. Cuando esa imagen se envuelve en un contenedor PDF, el archivo resultante contiene cero datos de texto. Cada "palabra" que ves es solo una coleccion de pixeles oscuros en una imagen raster.

Para hacer un PDF escaneado buscable, necesitas Reconocimiento Optico de Caracteres (OCR). El software OCR analiza los patrones de pixeles en la imagen, infiere las formas de los caracteres y produce una capa de texto oculta. El resultado es un "PDF buscable": visualmente parece el escaneo, pero la capa de texto permite la seleccion y busqueda.

Versiones PDF y Hitos Clave

Version	Ano	Addition Principal
PDF 1.0	1993	Lanzamiento inicial con Acrobat 1.0
PDF 1.2	1996	Formularios interactivos (AcroForms)
PDF 1.4	2001	Transparencia y canal alfa
PDF 1.5	2003	Flujos de objetos (mejor compresion)
PDF 1.7	2006	Se convirtio en ISO 32000-1 en 2008
PDF 2.0	2017	ISO 32000-2: accesibilidad mejorada, nuevo cifrado

PDFs Linealizados: Vista Web Rapida

Un PDF estandar debe descargarse completamente antes de que un navegador pueda mostrar cualquier pagina. Los PDFs linealizados (llamados "Vista Web Rapida" en Adobe Acrobat) resuelven esto reestructurando el archivo para que todos los objetos necesarios para mostrar la primera pagina aparezcan al principio. Un servidor web puede comenzar a transmitir el archivo, y el navegador puede renderizar la pagina 1 antes de que llegue el resto del archivo.

Actualizaciones Incrementales: Como Funciona la Edicion de PDF

Cuando abres un PDF, agregas un comentario y lo guardas, los PDFs usan un modelo de actualizacion incremental. Los objetos nuevos y modificados se agregan al final del archivo, seguidos de una nueva seccion xref. El cuerpo del archivo original no se toca. Esto significa que un documento que ha sido anotado y vuelto a guardar muchas veces puede contener docenas de versiones de objetos obsoletas.

Por Que la Fusion de PDFs Puede Cambiar el Tamano del Archivo Inesperadamente

Cuando fusionas dos archivos PDF, podrías esperar que la salida sea aproximadamente la suma de los dos tamanos de entrada. En la practica, el resultado puede ser mas grande o mas pequeno.

Mas grande de lo esperado es comun cuando ambos PDFs de origen incrustan la misma fuente. Una fuente de 500 KB en el archivo A y la misma fuente de 500 KB en el archivo B apareceran ambas en la salida fusionada si el fusionador no deduplica los recursos de fuentes.

Mas pequeno de lo esperado puede ocurrir cuando ambos PDFs comparten grandes recursos comunes que pueden deduplicarse.

Preguntas Frecuentes

Por que algunos PDFs son tan grandes?

El tamano del PDF depende de las fuentes incrustadas, la resolucion de las imagenes, el numero de paginas y si se usa compresion de flujo de objetos. Una sola fotografia de alta resolucion a 300 DPI puede pesar de 5 a 10 MB por si sola.

Por que no puedo copiar texto de algunos PDFs?

Hay dos razones. Primero, el PDF puede ser un documento escaneado que contiene solo imagenes raster sin capa de texto. Se requiere OCR. Segundo, el autor del PDF puede haber establecido una contrasena de permisos que restringe la copia.

Que es un PDF/A?

PDF/A es una norma ISO (ISO 19005) disenada para el archivado a largo plazo. Un archivo PDF/A debe incrustar todas las fuentes, no puede referenciar recursos externos, no puede usar cifrado ni JavaScript. El objetivo es que un archivo PDF/A sea completamente independiente y renderizable por software escrito decadas en el futuro.

Por que mi PDF se ve diferente en diferentes computadoras?

La causa mas comun son las fuentes faltantes o sustituidas. Si un PDF no incrusta sus fuentes, el lector sustituye la fuente mas cercana disponible. Incrustar completamente las fuentes elimina este problema.

Ahora que entiendes como se construyen los archivos PDF, puedes trabajar con ellos con mas confianza. Ya sea que necesites combinar capitulos en un solo informe o dividir un archivo grande en secciones mas pequenas, la herramienta Unir y Dividir PDF en MoreFreeTools maneja ambas operaciones limpiamente.