Pura teksti PDF-tiedostosta Pythonilla

Pura teksti PDF-tiedostosta Pythonilla

Sinun kaikkien on tiedettävä, mitä PDF-tiedostot ovat. Itse asiassa ne ovat yksi tärkeimmistä ja laajimmin käytetyistä digitaalisista medioista. PDF tarkoittaa Kannettava asiakirjamuoto . Se käyttää .pdf laajennus. Sitä käytetään asiakirjojen esittämiseen ja vaihtamiseen luotettavasti ohjelmistosta, laitteistosta tai käyttöjärjestelmästä riippumatta.

Poimimme tekstiä pdf-tiedostoista käyttämällä kahta Python-kirjastoa, pypdf ja PyMuPDF , tässä artikkelissa.

Tekstin purkaminen PDF-tiedostosta pypdf-kirjaston avulla.

Python-paketti pypdf voidaan käyttää saavuttamaan haluamamme (tekstin purkaminen), vaikka se voi tehdä enemmän kuin mitä tarvitsemme. Tätä pakettia voidaan käyttää myös PDF-tiedostojen luomiseen, salauksen purkamiseen ja yhdistämiseen. Huomautus: Lisätietoja on kohdassa Työskentely PDF-tiedostojen kanssa Pythonissa

Asennus

Asenna tämä paketti kirjoittamalla alla oleva komento terminaaliin.

pip install pypdf 

Esimerkki: Syötä PDF: Pura-pdf-teksti-python

Python 3




# importing required modules> from> pypdf> import> PdfReader> > # creating a pdf reader object> reader> => PdfReader(> 'example.pdf'> )> > # printing number of pages in pdf file> print> (> len> (reader.pages))> > # getting a specific page from the pdf file> page> => reader.pages[> 0> ]> > # extracting text from page> text> => page.extract_text()> print> (text)>

Lähtö:

Pura-pdf-python

Yritetään ymmärtää yllä oleva koodi paloina:

reader = PdfReader('example.pdf') 
  • Loimme kohteen PdfReader luokasta alkaen pypdf moduuli.
  • The PdfReader luokka ottaa vaaditun sijaintiargumentin pdf-tiedoston polusta.
print(len(reader.pages)) 
  • sivuja omaisuus antaa luettelon Sivuobjektit . Joten tässä voimme käyttää sisäänrakennettua vain() python-funktiolla saadaksesi pdf-tiedoston sivumäärän.
page = reader.pages[0] 
  • Nyt, kuten lukija.sivut on luettelo Sivuobjektit , voimme saada tietyn Sivu pdf-tiedostosta napauttamalla sivun hakemistoa. Python-listassa indeksointi alkaa nollasta, joten reader.pages[0] antaa meille pdf-tiedoston ensimmäisen sivun.
text = page.extract_text() print(text) 
  • Sivuobjektilla on toiminto Pura_teksti() poimia tekstiä pdf-sivulta.

Tekstin purkaminen PDF-tiedostosta PyMuPDF-kirjaston avulla.

PyMuPDF on Python-kirjasto, joka tukee tiedostomuotoja, kuten XPS, PDF, CBR ja CBZ. Mutta toistaiseksi tässä artikkelissa aiomme keskittyä PDF-tiedostoihin (Portable Document Format).

Asennus

pip install pymupdf pip install fitz 

Poimiaksemme tekstin pdf-tiedostosta meidän on noudatettava seuraavia vaiheita:

  1. Kirjaston tuonti
  2. Asiakirjan avaaminen
  3. Tekstin purkaminen

Huomautus: Käytämme sample.pdf-tiedostoa tässä; saadaksesi pdf-tiedoston, käytä alla olevaa linkkiä.

sample.pdf – Linkki

1. Kirjaston tuonti

Python 3




import> fitz>

2. Asiakirjan avaaminen

Python 3




doc> => fitz.> open> (> 'sample.pdf'> )>

Täällä loimme objektin nimeltä doc , ja tiedostonimen tulee olla Python-merkkijono.

3. Tekstin purkaminen

Python 3




for> page> in> doc:> > text> => page.get_text()> > print> (text)>

Täällä iteroimme sivuja pdf-muodossa ja käytimme get_text() tapa purkaa jokainen sivu tiedostosta.

Kaikki koodi tekstin purkamiseksi

Python 3




import> fitz> doc> => fitz.> open> (> 'sample.pdf'> )> text> => ''> for> page> in> doc:> > text> +> => page.get_text()> print> (text)>

Lähtö:

Johtopäätös

Olemme nähneet kaksi Python-kirjastoa, pypdf ja PyMuPDF , joka voi poimia tekstiä PDF-tiedostosta. Kommentoi haluamaasi kirjastoa yllä olevista kahdesta kirjastosta.