Selvom vi allerede ved, hvordan du redigerer eksisterende PDF-filer i Ubuntu, er der tidspunkter, hvor kravet er at bruge alle eller nogle af billederne i en PDF-fil. Manuel kopiering er absolut en mulighed, men det er ikke en tidsbesparende, især når PDF-filen indeholder et stort antal billeder.

Et værktøj eksisterer, kaldet PDFImages, der gør billedudvinding fra PDF-filer en cakewalk. I denne artikel vil vi diskutere dette værktøj ved hjælp af letforståelige eksempler. Bemærk at alle de eksempler, der bruges i artiklen, testes på Ubuntu 14.04 LTS ved hjælp af version 0.24.5 af værktøjet.

Hvad er PDFImages?

Som allerede nævnt er PDFImages et kommandolinjeværktøj, som du kan bruge til at udtrække billeder fra en PDF-fil. Værktøjets man side siger, at den læser input PDF-filen, scanner den og producerer en Portable Pixmap (PPM), Portable Pixmap (PBM) eller JPEG-fil for hvert billede, det møder i PDF-filen.

Download og installer

Hvis værktøjet ikke allerede er installeret i din Ubuntu-boks, kan du downloade og installere det ved hjælp af følgende kommando:

 sudo apt-get install poppler-utils 

Udover PDFImages indeholder pakken "poppler-utils" også flere andre kommandolinjeværktøjer til at hente information fra PDF-dokumenter, konvertere dem til andre formater eller manipulere dem.

Anvendelse

Kommandolinjeværktøjet PDFImages kræver i sine mest grundlæggende form to argumenter: Indtast PDF-fil og stien til den mappe, hvor du vil have værktøjet til at gemme billederne. For eksempel har jeg forsøgt at udtrække billeder fra en PDF-fil med navnet "christmas_story.pdf" og gemme dem til en mappe med navnet "pdfimages".

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Downloads / pdfimages / 

Ovennævnte kommando producerede følgende filer i målmappen:

 ls / home / himanshu / Downloads / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm 

Som du kan se i udgangen ovenfor, begynder filnavnet med en bindestreg (-) efterfulgt af et nummer. For dem der undrer sig over, hvorfor navnet begynder med en bindestreg, giver værktøjet dig fleksibiliteten til at prefikse ethvert ord før bindestreg, så du kan oprette brugerdefinerede navne til outputbillederne. Du kan gøre dette ved at tilføje det pågældende ord til stien til destinationsmappen, mens du kører kommandoen.

For eksempel tilføjede jeg ordet "billede" til stien til destinationsmappen:

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Downloads / pdfimages / image 

Og de udgangsfiler, der blev produceret i denne sag, havde følgende navn:

 ls / home / himanshu / Downloads / pdfimages / image-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm 

Det er værd at nævne, at i modsætning til hvad værktøjets man side siger, produceres to billeder for hvert billede i PDF-filen, hvoraf den ene er tom, mens den anden er brugbar. I mine tilfælde var de ulige nummererede billeder blanke:

Hvis du fortsætter, kan du også ændre outputbilledformatet fra "ppm" til "jpeg", som du kan gøre ved at bruge -j indstillingen. Husk dog, at med denne indstilling gemmes kun billeder i DCT-format som JPEG-filer - alle ikke-DCT-billeder gemmes i PBM / PPM-format som normalt.

Du kan også angive hvilke sider, du vil have værktøjet til at scanne. På denne måde får du kun de billeder i output, der findes på disse sider. For at aktivere denne indstilling skal du bruge funktionen -f (efterfulgt af sidetal) og -l (efterfulgt af sidetal) for at angive start- og slutsiden.

Jeg ønskede for eksempel værktøjet til kun at udtrække billeder, der var til stede på den første side i PDF-filen, så jeg brugte følgende kommando:

 pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Downloads / pdfimages / 

Og i destinationsmappen blev der kun produceret to billeder (i alt fire inklusive de blinde):

 ls / home / himanshu / Downloads / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm 

Konklusion

PDFImages er absolut et praktisk værktøj, hvis dit arbejde indebærer at håndtere PDF-filer og de billeder, de indeholder, og som du måske har observeret nu, er det nemt at lære såvel som brugervenligt. For at lære mere om værktøjet, skal du gå til sin man side.