Wie PDF-Dateien Wirklich Funktionieren: Das Format das die Dokumentenweitergabe Veraendert Hat

Du oeffnest ein PDF unter Windows, auf einem Mac, einem Android-Telefon und einem Linux-Server, und es sieht auf allen vier Geraeten genau gleich aus. Diese Reproduzierbarkeit war einst eine bemerkenswerte ingenieurtechnische Leistung, und sie ist kein Zufall. Das Portable Document Format wurde von Grund auf so entworfen, dass Dokumente auf jedem Geraet identisch aussehen. Aber was ist ein PDF eigentlich? Dieser Artikel zeigt die technischen Interna: die Objektdatenbank, die Inhaltsstroeme, die Querverweis-Tabelle, die Gruende, warum manche PDFs nicht durchsuchbar sind, und warum das Zusammenfuehren von zwei PDFs manchmal die Dateigroe verdoppeln kann.

Eine Kurze Geschichte: Von Camelot zum ISO-Standard

Im Jahr 1991 schrieb John Warnock, Mitgruender von Adobe Systems, ein internes Memo namens "Das Camelot-Projekt." Sein Ziel war ambitioes: ein universelles Dateiformat zu erstellen, das es jedem ermoeglicht, ein beliebiges Dokument an einen beliebigen Computer zu senden und es genau wie beabsichtigt auszudrucken, unabhaengig davon, welche Software oder Schriftarten auf dem Empfaengercomputer installiert sind.

Die erste oeffentliche Version von PDF erschien 1993 zusammen mit Adobe Acrobat 1.0. Die Akzeptanz war anfangs langsam, weil Acrobat Reader noch nicht kostenlos war. Adobe machte Reader 1994 kostenlos, und die Verbreitung begann sich zu beschleunigen.

15 Jahre lang war PDF ein proprietaeres Adobe-Format. Das aenderte sich am 1. Juli 2008, als PDF 1.7 als ISO 32000-1 veroeffentlicht wurde. Eine zweite Ausgabe, ISO 32000-2 (PDF 2.0), folgte 2017. Heute kann jeder Entwickler vollstaendige PDF-Unterstuetzung implementieren, ohne Adobe zu bezahlen.

Was ein PDF Wirklich Ist: Eine Hierarchische Objektdatenbank

Die meisten Menschen denken bei einem PDF an ein Dokument oder ein ausgeklugeltes Bild. Beides ist nicht ganz richtig. Eine PDF-Datei ist eine hierarchische Objektdatenbank, die in einer flachen Text- (oder Binaer-)Datei gespeichert ist. Die Datei enthaelt einen Baum nummerierter Objekte, und das Dokument wird durch das Verfolgen der Verweise zwischen diesen Objekten zusammengesetzt.

Objekttypen in einem PDF:

Objekttyp	Zweck
Woerterbuch	Schluessel-Wert-Paare, der Baustein der meisten Strukturen
Array	Geordnete Liste von Objekten
Strom	Binaerer oder komprimierter Datenblock (Bilder, Schriftarten, Inhalt)
Zeichenkette	Textdaten, entweder woertlich oder hex-kodiert
Zahl	Ganzzahlige oder reelle Werte fuer Koordinaten, Groessen
Boolescher Wert	Wahr/Falsch-Kennzeichen
Name	Symbolische Bezeichner wie `/Font` oder `/Page`
Null	Platzhalter fuer fehlende Werte

Die Vier Abschnitte Jeder PDF-Datei

Jede gueltige PDF-Datei hat vier Abschnitte, in dieser Reihenfolge:

%PDF-1.7              <- Kopfzeile
1 0 obj ... endobj    <- Koerper (viele Objekte)
xref                  <- Querverweis-Tabelle
trailer               <- Fusszeile
%%EOF                 <- Dateiende-Markierung

Kopfzeile: Die erste Zeile jedes PDFs ist %PDF-x.y, wobei x.y die Versionsnummer ist.

Koerper: Der Koerper ist eine Sequenz nummerierter Objekte. Jedes Objekt beginnt mit N G obj und endet mit endobj.

Querverweis-Tabelle (xref): Die xref-Tabelle ist ein Byteoffset-Index fester Groesse aller Objekte in der Datei. Weil Byteoffsets eine feste Breite haben, kann ein PDF-Betrachter direkt zu jedem Objekt in Mikrosekunden springen, selbst in einer 500-MB-Datei. Deshalb oeffnen grosse PDFs schnell.

Fusszeile: Das Fusszeile-Woerterbuch zeigt auf die xref-Tabelle und auf das Dokumentkatalog-Objekt, das die Wurzel des Objektbaums ist.

Warum PDFs Ueberall Gleich Aussehen: PostScript-Erbe und Eingebettete Schriftarten

PDF ist ein direkter Nachkomme von PostScript, Adobes Seitenbeschreibungssprache von 1982. Wenn ein PDF-Betrachter Text rendert, verlasst er sich nicht auf Schriftarten, die auf deinem Computer installiert sind. Stattdessen enthaelt die PDF-Datei selbst einen Schriftartdeskriptor und ueblicherweise eine vollstaendig oder teilweise eingebettete Kopie der Schriftartdaten.

Text in einem PDF-Inhaltsstrom sieht so aus:

BT
  /F1 12 Tf
  100 700 Td
  (Hallo, Welt) Tj
ET

BT beginnt einen Textblock. /F1 12 Tf waehlt Schriftart F1 bei 12 Punkt. 100 700 Td bewegt den Textcursor zu den Koordinaten (100, 700). (Hallo, Welt) Tj zeichnet die Zeichenkette. ET beendet den Textblock. Alle Koordinaten sind in Punkten (1/72 Zoll), gemessen von der unteren linken Ecke der Seite.

Warum Manche PDFs Nicht Durchsuchbar Sind: Gescannte Dokumente und OCR

Ein Scanner erzeugt keinen Text. Er erzeugt ein Bild einer Seite. Wenn dieses Bild in einem PDF-Container eingeschlossen wird, enthaelt die resultierende Datei null Textdaten. Jedes "Wort", das du siehst, ist nur eine Sammlung dunkler Pixel in einem Rasterbild.

Um ein gescanntes PDF durchsuchbar zu machen, benotigst du Optische Zeichenerkennung (OCR). OCR-Software analysiert die Pixelmuster im Bild, schliesst auf Zeichenformen und erzeugt eine versteckte Textschicht. Das Ergebnis ist ein "durchsuchbares PDF": optisch sieht es wie der Scan aus, aber die Textschicht ermoeglicht Auswahl und Suche.

PDF-Versionen und Wichtige Merkmale

Version	Jahr	Wichtige Ergaenzung
PDF 1.0	1993	Erstveroeffentlichung mit Acrobat 1.0
PDF 1.2	1996	Interaktive Formulare (AcroForms)
PDF 1.4	2001	Transparenz und Alpha-Kanal
PDF 1.5	2003	Objektstroeme (bessere Komprimierung)
PDF 1.7	2006	Wurde 2008 zu ISO 32000-1
PDF 2.0	2017	ISO 32000-2: verbesserte Barrierefreiheit, neue Verschluesselung

Linearisierte PDFs: Schnelle Webansicht

Ein Standard-PDF muss vollstaendig heruntergeladen werden, bevor ein Browser eine Seite anzeigen kann. Linearisierte PDFs (auch "Schnelle Webansicht" in Adobe Acrobat genannt) losen dies, indem die Datei so umstrukturiert wird, dass alle Objekte, die zum Anzeigen der ersten Seite benoetigt werden, ganz am Anfang stehen. Ein Webserver kann dann mit dem Streamen beginnen, und der Browser kann Seite 1 rendern, bevor der Rest der Datei angekommen ist.

Inkrementelle Aktualisierungen: Wie PDF-Bearbeitung Funktioniert

Wenn du ein PDF oefffnest, einen Kommentar hinzufuegst und speicherst, verwenden PDFs ein inkrementelles Aktualisierungsmodell. Neue und geaenderte Objekte werden an das Ende der Datei angehaengt, gefolgt von einem neuen xref-Abschnitt. Der urspruengliche Dateikoerper bleibt unveraendert. Das bedeutet, dass eine Datei, die viele Male kommentiert und erneut gespeichert wurde, Dutzende veralteter Objektversionen enthalten kann.

Warum das Zusammenfuehren von PDFs die Dateigroesse Unerwartet Veraendern Kann

Wenn du zwei PDF-Dateien zusammenfuehrst, erwartest du moeglicherweise, dass die Ausgabe ungefaehr der Summe der beiden Eingroessen entspricht. In der Praxis kann das Ergebnis groesser oder kleiner sein.

Groesser als erwartet tritt haeufig auf, wenn beide Quell-PDFs dieselbe Schriftart einbetten. Eine 500-KB-Schriftart in Datei A und dieselbe 500-KB-Schriftart in Datei B erscheinen beide in der zusammengefuehrten Ausgabe, wenn der Zusammenfuehrer keine Schriftartressourcen dedupliziert.

Kleiner als erwartet kann auftreten, wenn beide PDFs grosse gemeinsame Ressourcen (wie ein Hintergrundbild) teilen, die dedupliziert werden koennen.

Haufig Gestellte Fragen

Warum sind manche PDFs so grosse?

Die PDF-Groesse haengt von eingebetteten Schriftarten, der Bildauflosung, der Seitenanzahl und der Verwendung von Objektstromkomprimierung ab. Ein einzelnes hochaufgeloestes Foto bei 300 DPI kann selbst 5 bis 10 MB gross sein.

Warum kann ich in manchen PDFs keinen Text kopieren?

Es gibt zwei Gruende. Erstens kann das PDF ein gescanntes Dokument sein, das nur Rasterbilder ohne Textschicht enthaelt. OCR ist erforderlich. Zweitens hat der PDF-Autor moeglicherweise ein Berechtigungskennwort gesetzt, das das Kopieren einschraenkt.

Was ist PDF/A?

PDF/A ist eine ISO-Norm (ISO 19005) fuer die Langzeitarchivierung. Eine PDF/A-Datei muss alle Schriftarten einbetten, darf keine externen Ressourcen referenzieren, darf keine Verschluesselung oder JavaScript verwenden. Das Ziel ist, dass eine PDF/A-Datei vollstaendig in sich geschlossen und durch Software renderbar ist, die Jahrzehnte in der Zukunft geschrieben wurde.

Warum sieht mein PDF auf verschiedenen Computern anders aus?

Die haeufigste Ursache sind fehlende oder ersetzte Schriftarten. Wenn ein PDF seine Schriftarten nicht einbettet, ersetzt der Betrachter die naechste verfuegbare Schriftart. Das vollstaendige Einbetten von Schriftarten beseitigt dieses Problem.

Jetzt, da du verstehst, wie PDF-Dateien aufgebaut sind, kannst du sicherer mit ihnen arbeiten. Ob du Kapitel zu einem einzigen Bericht kombinieren oder eine grosse Datei in kleinere Abschnitte aufteilen musst, das Tool PDF Zusammenfuehren und Teilen auf MoreFreeTools bewaeltigt beide Operationen sauber.