Selv om vi allerede vet hvordan du redigerer eksisterende PDF-filer i Ubuntu, er det tidspunkter når kravet er å bruke alle eller noen av bildene i en PDF-fil. Manuell kopiering er definitivt et alternativ, men det er ikke tidsbesparende, spesielt når PDF-filen inneholder et stort antall bilder.

Et verktøy eksisterer, kalt PDFImages, som gjør bildetekstraksjon fra PDF-filer en cakewalk. I denne artikkelen vil vi diskutere dette verktøyet ved hjelp av enkle å forstå eksempler. Merk at alle eksemplene som brukes i artikkelen er testet på Ubuntu 14.04 LTS ved hjelp av versjon 0.24.5 av verktøyet.

Hva er PDFImages?

Som allerede diskutert, er PDFImages et kommandolinjeverktøy som du kan bruke til å trekke ut bilder fra en PDF-fil. Verktøyets man side sier at den leser innspill PDF-filen, skanner den, og produserer en bærbar piktmap (PPM), Portable Pixmap (PBM) eller JPEG-fil for hvert bilde det møter i PDF-filen.

Last ned og installer

Hvis verktøyet ikke allerede er installert i Ubuntu-boksen, kan du laste ned og installere det ved hjelp av følgende kommando:

 sudo apt-get install poppler-utils 

I tillegg til PDFImages inneholder pakken "poppler-utils" også flere andre kommandolinjeverktøy for å få informasjon fra PDF-dokumenter, konvertere dem til andre formater, eller manipulere dem.

bruk

Kommandolinjeverktøyet PDFImages, i sin mest grunnleggende form, krever to argumenter: skriv inn PDF-fil og banen til katalogen der du vil at verktøyet skal lagre bildene. For eksempel, i mitt tilfelle prøvde jeg å pakke ut bilder fra en PDF-fil med navnet "christmas_story.pdf" og lagre dem i en katalog med navnet "pdfimages".

 pdfimages / home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Nedlastinger / pdfimages / 

Kommandoen ovenfor ga følgende filer i målkatalogen:

 ls / home / himanshu / Nedlastinger / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm 

Som du kan se i utgangen ovenfor, begynner filnavnet med en bindestrek (-) etterfulgt av et tall. For de som lurer på hvorfor navnet begynner med en bindestrek, gir verktøyet deg fleksibiliteten til å prefiks et hvilket som helst ord før bindestrek, slik at du kan lage egendefinerte navn for utgangsbildene. Du kan gjøre dette ved å legge det bestemte ordet til banen til målkatalogen mens du kjører kommandoen.

For eksempel har jeg lagt til ordet "bilde" til banen til målkatalogen:

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Nedlastninger / pdfimages / image 

Og utgangsfiler som ble produsert i dette tilfellet, hadde følgende navn:

 ls / home / himanshu / Nedlastninger / pdfimages / image-000.ppm image-001.ppm image-002.ppm bilde-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm 

Det er verdt å nevne at i motsetning til hva verktøyets man side sier, blir det produsert to bilder for hvert bilde i PDF-filen, hvorav den ene er tom, mens den andre er brukbar. I mitt tilfelle var de ulige nummererte bildene tomme:

Videre kan du også endre utdatafilfilformatet fra "ppm" til "jpeg", som du kan gjøre ved hjelp av -j alternativet. Vær imidlertid oppmerksom på at med dette alternativet lagres bare bilder i DCT-format som JPEG-filer. Alle ikke-DCT-bilder lagres i PBM / PPM-format som vanlig.

Du kan også spesifisere hvilke sider du vil at verktøyet skal skanne. På denne måten får du bare de bildene i produksjonen som finnes på disse sidene. For å aktivere dette alternativet må du bruke -f alternativet (etterfulgt av sidetallet) og -l (etterfulgt av sidetallet) for å angi start- og sluttider.

For eksempel ville jeg at verktøyet bare kunne hente bilder som var tilstede på første side av PDF-filen, så jeg brukte følgende kommando:

 pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Nedlastinger / pdfimages / 

Og i destinasjonsmappen ble det bare produsert to bilder (totalt fire inkludert de blanke):

 ls / home / himanshu / Nedlastinger / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm 

Konklusjon

PDFImages er definitivt et praktisk verktøy hvis arbeidet ditt innebærer å håndtere PDF-filer og bildene de inneholder, og som du kanskje har observert nå, er det lett å lære så vel som enkelt å bruke. For å lære mer om verktøyet, gå til sin mannsside.