Blog
9 min readMoreFreeTools Team

Comment Fonctionnent les Fichiers PDF: Le Format Qui a Revolutionne le Partage de Documents

Decouvrez les mecanismes internes du format PDF: structure, modele objet, polices, table xref, et pourquoi certains PDF ne sont pas cherchables. Plus de 900 mots.

comment fonctionne un PDFformat PDF expliquefusionner des fichiers PDFstructure fichier PDFcomment fusionner des PDF

Fusion et Division PDF

L'outil gratuit mentionné dans cet article — essayez-le directement dans votre navigateur.

Ouvrir l'outil

Comment Fonctionnent les Fichiers PDF: Le Format Qui a Revolutionne le Partage de Documents

Vous ouvrez un PDF sur Windows, un Mac, un telephone Android et un serveur Linux, et il s'affiche exactement de la meme facon sur les quatre. Cette reproductibilite etait autrefois un exploit d'ingenierie remarquable, et elle n'est pas accidentelle. Le Portable Document Format a ete concu depuis le debut pour que les documents aient un aspect identique sur n'importe quel appareil. Mais qu'est-ce qu'un PDF, exactement? Cet article leve le voile sur les mecanismes internes: la base de donnees d'objets, les flux de contenu, la table de references croisees, les raisons pour lesquelles certains PDF ne sont pas cherchables, et pourquoi la fusion de deux PDF peut parfois doubler la taille du fichier.

Une Breve Histoire: De Camelot a la Norme ISO

En 1991, John Warnock, co-fondateur d'Adobe Systems, a redige une note interne intitulee "Le Projet Camelot." Son objectif etait ambitieux: creer un format de fichier universel permettant a quiconque d'envoyer n'importe quel document a n'importe quel ordinateur et de le voir s'imprimer exactement comme prevu, quels que soient les logiciels ou les polices installes.

La premiere version publique du PDF est apparue en 1993 avec Adobe Acrobat 1.0. L'adoption initiale etait lente car Acrobat Reader n'etait pas encore gratuit. Adobe a rendu Reader gratuit en 1994, et l'adoption a commence a s'accelerer.

Pendant ses 15 premieres annees, le PDF etait un format proprietaire Adobe. Cela a change le 1er juillet 2008, lorsque PDF 1.7 a ete publie sous le nom d'ISO 32000-1, une norme internationale ouverte. Une deuxieme edition, ISO 32000-2 (PDF 2.0), a suivi en 2017 avec de nouvelles fonctionnalites. Aujourd'hui, tout developpeur peut implementer une prise en charge complete du PDF sans payer Adobe.

Outil associé

Fusion et Division PDF

Utilisez-le directement dans votre navigateur. Sans inscription, sans téléchargement, sans données enregistrées.

Utiliser l'outil

Ce Qu'est Reellement un PDF: Une Base de Donnees d'Objets Hierarchique

La plupart des gens pensent qu'un PDF est un document ou une image sophistiquee. Ni l'un ni l'autre n'est tout a fait exact. Un fichier PDF est une base de donnees d'objets hierarchique stockee dans un fichier texte (ou binaire) plat. Le fichier contient un arbre d'objets numerotes, et le document est assemble en suivant les references entre ces objets.

Types d'objets dans un PDF:

Type d'objet Utilisation
Dictionnaire Paires cle-valeur, element de base de la plupart des structures
Tableau Liste ordonnee d'objets
Flux Bloc de donnees binaires ou compressees (images, polices, contenu)
Chaine Donnees textuelles, litterales ou encodees en hexadecimal
Nombre Valeurs entieres ou reelles pour les coordonnees, les tailles
Booleen Indicateurs vrai/faux
Nom Identifiants symboliques comme /Font ou /Page
Null Espace reserve pour les valeurs absentes

Les Quatre Sections de Tout Fichier PDF

Tout fichier PDF valide comporte quatre sections, dans cet ordre:

%PDF-1.7              <- En-tete
1 0 obj ... endobj    <- Corps (nombreux objets)
xref                  <- Table de references croisees
trailer               <- Pied de fichier
%%EOF                 <- Marqueur de fin de fichier

En-tete: La premiere ligne de tout PDF est %PDF-x.y, ou x.y est le numero de version.

Corps: Le corps est une sequence d'objets numerotes. Chaque objet commence par N G obj et se termine par endobj.

Table de references croisees (xref): La table xref est un index a taille fixe des decalages en octets de chaque objet dans le fichier. Parce que les decalages en octets ont une largeur fixe, un lecteur PDF peut acceder directement a n'importe quel objet en microsecondes, meme dans un fichier de 500 Mo. C'est pourquoi les grands PDF s'ouvrent rapidement.

Pied de fichier: Le dictionnaire pied pointe vers la table xref et vers l'objet catalogue du document, qui est la racine de l'arbre d'objets.

Pourquoi les PDF ont le Meme Aspect Partout: Heritage PostScript et Polices Integrees

Le PDF est un descendant direct de PostScript, le langage de description de page d'Adobe de 1982. Quand un lecteur PDF affiche du texte, il ne s'appuie pas sur les polices installees sur votre ordinateur. Au lieu de cela, le fichier PDF lui-meme contient un descripteur de police et, generalement, une copie integree complete ou partielle des donnees de police.

Le texte dans un flux de contenu PDF ressemble a ceci:

BT
  /F1 12 Tf
  100 700 Td
  (Bonjour, monde) Tj
ET

BT commence un bloc de texte. /F1 12 Tf selectionne la police F1 a 12 points. 100 700 Td deplace le curseur aux coordonnees (100, 700). (Bonjour, monde) Tj dessine la chaine. ET termine le bloc de texte. Toutes les coordonnees sont en points (1/72 de pouce), mesurees depuis le coin inferieur gauche de la page.

Pourquoi Certains PDF ne Sont pas Cherchables: Documents Scannes et ROC

Un scanner ne produit pas de texte. Il produit une image d'une page. Lorsque cette image est enveloppee dans un conteneur PDF, le fichier resultant est un PDF qui ressemble a un document mais ne contient aucune donnee textuelle.

Pour rendre un PDF scanne cherchable, vous avez besoin de la Reconnaissance Optique de Caracteres (ROC). Le logiciel de ROC analyse les motifs de pixels dans l'image, deduit les formes des caracteres et produit une couche de texte cachee. Le resultat est un "PDF cherchable": visuellement il ressemble au scan, mais la couche de texte permet la selection et la recherche.

Versions PDF et Etapes Cles

Version Annee Addition Principale
PDF 1.0 1993 Version initiale avec Acrobat 1.0
PDF 1.2 1996 Formulaires interactifs (AcroForms)
PDF 1.4 2001 Transparence et canal alpha
PDF 1.5 2003 Flux d'objets (meilleure compression)
PDF 1.7 2006 Devenu ISO 32000-1 en 2008
PDF 2.0 2017 ISO 32000-2: accessibilite amelioree, nouveau chiffrement

PDF Linearises: Affichage Web Rapide

Un PDF standard doit etre entierement telecharge avant qu'un navigateur puisse afficher une page. Les PDF linearises (aussi appeles "Affichage Web Rapide" dans Adobe Acrobat) resolvent ce probleme en restructurant le fichier de sorte que tous les objets necessaires pour afficher la premiere page apparaissent au tout debut.

Mises a Jour Incrementielles: Comment Fonctionne l'Edition de PDF

Quand vous ouvrez un PDF, ajoutez un commentaire et l'enregistrez, les PDF utilisent un modele de mise a jour incrementielle. Les objets nouveaux et modifies sont ajoutes a la fin du fichier, suivis d'une nouvelle section xref et d'un nouveau pied pointant vers ces changements. Le corps du fichier original n'est pas modifie.

Pourquoi la Fusion de PDF Peut Modifier la Taille du Fichier de Maniere Inattendue

Quand vous fusionnez deux fichiers PDF, vous pourriez vous attendre a ce que la sortie soit approximativement la somme des deux tailles d'entree. En pratique, le resultat peut etre plus grand ou plus petit.

Plus grand que prevu est courant quand les deux PDF source incorporent la meme police. Une police de 500 Ko dans le fichier A et la meme police de 500 Ko dans le fichier B apparaitront toutes les deux dans la sortie fusionnee si le fusionneur ne duplique pas les ressources de polices.

Plus petit que prevu peut se produire quand les deux PDF partagent de grandes ressources communes (comme une image d'arriere-plan) qui peuvent etre dedupliquees.

Questions Frequemment Posees

Pourquoi certains PDF sont-ils si volumineux?

La taille du PDF depend des polices integrees, de la resolution des images, du nombre de pages et de l'utilisation de la compression. Une seule photographie haute resolution a 300 PPP peut peser de 5 a 10 Mo par elle-meme. Les PDF sauvegardes depuis Microsoft Word incluent parfois de grandes images de previsualisation non compressees.

Pourquoi ne puis-je pas copier du texte dans certains PDF?

Il y a deux raisons. Premierement, le PDF peut etre un document scanne ne contenant que des images raster sans couche de texte. La ROC est necessaire pour extraire le texte. Deuxiemement, l'auteur du PDF peut avoir defini un mot de passe de permissions qui restreint la copie.

Qu'est-ce qu'un PDF/A?

PDF/A est une norme ISO (ISO 19005) concue pour l'archivage a long terme. Un fichier PDF/A doit integrer toutes les polices, ne pas referencer de ressources externes, ne pas utiliser de chiffrement et ne pas utiliser JavaScript. L'objectif est qu'un fichier PDF/A soit entierement autonome et rendu par un logiciel ecrit des decennies dans le futur.

Pourquoi mon PDF s'affiche-t-il differemment sur differents ordinateurs?

La cause la plus courante est les polices manquantes ou substituees. Si un PDF n'integre pas ses polices, le lecteur substitue la police la plus proche disponible. Integrer completement les polices elimine ce probleme.


Maintenant que vous comprenez comment les fichiers PDF sont construits, vous pouvez travailler avec eux de maniere plus confiante. Que vous ayez besoin de combiner des chapitres en un seul rapport ou de diviser un grand fichier en sections plus petites, l'outil Fusion et Division PDF sur MoreFreeTools gere les deux operations proprement.

Outil associé

Fusion et Division PDF

Utilisez-le directement dans votre navigateur. Sans inscription, sans téléchargement, sans données enregistrées.

Utiliser l'outil