Wizards of FOSS Blog


Tag : PDF

Eingebettete Schriften im PDF anzeigen

PDF-Dokumente kommen heute plattformübergreifend und weltweit zum Einsatz. Das Dokumentenformat wurde mit dem Ziel entwickelt, daß das Dokument sowohl beim Ersteller, als auch beim Empfänger bzw. Leser in identischer Form dargestellt werden kann. Neben Bildern und Anhängen zählen dazu insbesondere die verwendeten Schriften (Fonts).

In der Vergangenheit wurden Bilder und Schriften oftmals nur als externe Ressourcen im Dokument referenziert und nicht in das PDF-Dokument eingebettet. Sind diese Daten nicht auf dem System des Betrachters verfügbar, können diese nicht dargestellt werden. Viele PDF-Anzeigeprogramme verwenden in dem Fall einen alternativen Font, der der eigentlichen Schriftart meist ...


PDF in einzelne Seiten zerlegen

Mehrseitige PDF-Dokumente in die jeweiligen Einzelseiten zu zerlegen, gelingt mit dem PDF Toolkit, kurz: pdftk. Es steht als stabiles Paket für Debian und Ubuntu bereit.

Das Kommandozeilenwerkzeug pdftk kennt dazu die Option burst. Nacholgender Aufruf zerlegt ein PDF vollständig:

pdftk datei.pdf burst

Die Ausgabedateien benennt pdftk mit pg_0001.pdf, pg_0002.pdf etc. Dabei steht pg als Abkürzung für Seite (engl. page). Die Nummerierung entspricht der Seitennummer im ursprünglichen PDF-Dokument, beginnend mit 1. Bereits bestehende Dateien überschreibt pdftk bei der Zerlegung ohne Rückfrage.

Um den Namen der Ausgabedateien zu beeinflussen, kennt pdftk die Option ...


Metadaten für PDF im LaTeX-Dokument

Jedes PDF-Dokument verfügt im Dokumentheader über Felder für Metadaten. Diese Informationen werden von Indexierungsprogrammen und Suchmaschinen ausgewertet, um Dokumente zu klassifizieren und bei Suchergebnissen deren Relevanz als Suchtreffer zu bestimmen. Sind diese Felder im Dokument leer, versagen diese Automatismen und die Dokumente bleiben ohne Beachtung.

Wer Dokumente mit dem Textsatzprogramm LaTeX erstellt, kann mit wenigen Zeilen diese Metadaten setzen. Dafür wird das Paket hyperref benötigt. Über das LaTeX-Kommando \usepackage{hyperref} wird zunächst das Paket eingebunden. Danach müssen noch die einzelnen Felder für die Metadaten ausgefüllt werden.

  • pdftitle: Titel des Dokuments
  • pdfauthor: Autor ...

Seiten in einem PDF-Dokument drehen

Zur Korrektur und Manipulation von PDF-Dokumenten stehen auf der UNIX/Linux-Kommandozeile eine Reihe schicker Werkzeuge mit einem umfangreichen Funktionsspektrum bereit, bspw. das PDF-Toolkit (pdftk) und pdfjam. Zur Drehung einzelner Seiten um 90, 180 und 270 Grad im Uhrzeigersinn bringt pdfjam die drei Werkzeuge pdf90, pdf180 und pdf270 mit. Der Aufruf zur Drehung um 90 Grad ist wie folgt:

pdf90 --outfile flyer-gedreht.pdf flyer.pdf 1-4

Die Ausgabedatei wird über die Option --outfile Dateiname benannt (hier benannt flyer-gedreht.pdf). Der zweite Parameter gibt das Originaldokument an. Die Ziffernkombination danach bezeichnet die Seiten, welche gedreht werden sollen — hier die Seiten 1 bis ...


PDF-Metadaten anzeigen

PDF-Dokumente verfügen über Metadaten, die im Header der PDF-Datei abgelegt sind. In den Metadaten sind enthalten:

  • bibliographische Informationen zum Dokument
    Dokumententitel, Thematik, Autor, Schlüsselworte
  • Erstellungsdaten
    Programm, Datum der Erstellung und der Modifikation
  • statisitische Daten
    Seitenanzahl und -größe, Verschlüsselung, Größe, PDF-Version

Diese Metadaten werden in der Regel von dem Programm gesetzt, mit dem das PDF-Dokument erzeugt wurde, bspw. Open Office/Libre Office, Scribus, Inkscape, Adobe Indesign, DocBook oder LaTeX. Mit den Programmen pdfinfo und pdftk lassen sich diese Metadaten auf einem Terminal ausgeben und sichtbar machen. Dazu genügt folgender Aufruf auf der Kommandozeile:

pdfinfo -box ...