Pura teksti PDF-tiedostosta Pythonilla
Sinun kaikkien on tiedettävä, mitä PDF-tiedostot ovat. Itse asiassa ne ovat yksi tärkeimmistä ja laajimmin käytetyistä digitaalisista medioista. PDF tarkoittaa Kannettava asiakirjamuoto . Se käyttää .pdf laajennus. Sitä käytetään asiakirjojen esittämiseen ja vaihtamiseen luotettavasti ohjelmistosta, laitteistosta tai käyttöjärjestelmästä riippumatta.
Poimimme tekstiä pdf-tiedostoista käyttämällä kahta Python-kirjastoa, pypdf ja PyMuPDF , tässä artikkelissa.
Tekstin purkaminen PDF-tiedostosta pypdf-kirjaston avulla.
Python-paketti pypdf voidaan käyttää saavuttamaan haluamamme (tekstin purkaminen), vaikka se voi tehdä enemmän kuin mitä tarvitsemme. Tätä pakettia voidaan käyttää myös PDF-tiedostojen luomiseen, salauksen purkamiseen ja yhdistämiseen. Huomautus: Lisätietoja on kohdassa Työskentely PDF-tiedostojen kanssa Pythonissa
Asennus
Asenna tämä paketti kirjoittamalla alla oleva komento terminaaliin.
pip install pypdf
Esimerkki: Syötä PDF:
Python 3
# importing required modules> from> pypdf> import> PdfReader> > # creating a pdf reader object> reader> => PdfReader(> 'example.pdf'> )> > # printing number of pages in pdf file> print> (> len> (reader.pages))> > # getting a specific page from the pdf file> page> => reader.pages[> 0> ]> > # extracting text from page> text> => page.extract_text()> print> (text)> |
Lähtö:
Yritetään ymmärtää yllä oleva koodi paloina:
reader = PdfReader('example.pdf') - Loimme kohteen PdfReader luokasta alkaen pypdf moduuli.
- The PdfReader luokka ottaa vaaditun sijaintiargumentin pdf-tiedoston polusta.
print(len(reader.pages))
- sivuja omaisuus antaa luettelon Sivuobjektit . Joten tässä voimme käyttää sisäänrakennettua vain() python-funktiolla saadaksesi pdf-tiedoston sivumäärän.
page = reader.pages[0]
- Nyt, kuten lukija.sivut on luettelo Sivuobjektit , voimme saada tietyn Sivu pdf-tiedostosta napauttamalla sivun hakemistoa. Python-listassa indeksointi alkaa nollasta, joten reader.pages[0] antaa meille pdf-tiedoston ensimmäisen sivun.
text = page.extract_text() print(text)
- Sivuobjektilla on toiminto Pura_teksti() poimia tekstiä pdf-sivulta.
Tekstin purkaminen PDF-tiedostosta PyMuPDF-kirjaston avulla.
PyMuPDF on Python-kirjasto, joka tukee tiedostomuotoja, kuten XPS, PDF, CBR ja CBZ. Mutta toistaiseksi tässä artikkelissa aiomme keskittyä PDF-tiedostoihin (Portable Document Format).
Asennus
pip install pymupdf pip install fitz
Poimiaksemme tekstin pdf-tiedostosta meidän on noudatettava seuraavia vaiheita:
- Kirjaston tuonti
- Asiakirjan avaaminen
- Tekstin purkaminen
Huomautus: Käytämme sample.pdf-tiedostoa tässä; saadaksesi pdf-tiedoston, käytä alla olevaa linkkiä.
sample.pdf – Linkki
1. Kirjaston tuonti
Python 3
import> fitz> |
2. Asiakirjan avaaminen
Python 3
doc> => fitz.> open> (> 'sample.pdf'> )> |
Täällä loimme objektin nimeltä doc , ja tiedostonimen tulee olla Python-merkkijono.
3. Tekstin purkaminen
Python 3
for> page> in> doc:> > text> => page.get_text()> > print> (text)> |
Täällä iteroimme sivuja pdf-muodossa ja käytimme get_text() tapa purkaa jokainen sivu tiedostosta.
Kaikki koodi tekstin purkamiseksi
Python 3
import> fitz> doc> => fitz.> open> (> 'sample.pdf'> )> text> => ''> for> page> in> doc:> > text> +> => page.get_text()> print> (text)> |
Lähtö:
Johtopäätös
Olemme nähneet kaksi Python-kirjastoa, pypdf ja PyMuPDF , joka voi poimia tekstiä PDF-tiedostosta. Kommentoi haluamaasi kirjastoa yllä olevista kahdesta kirjastosta.