XML-PARSERING IN PYTHON

Dit artikel richt zich op hoe je een bepaald XML-bestand kunt parseren en er op een gestructureerde manier nuttige gegevens uit kunt extraheren. XML: XML staat voor eXtensible Markup Language. Het is ontworpen om gegevens op te slaan en te transporteren. Het is ontworpen om zowel door mensen als door machines leesbaar te zijn. Daarom benadrukken de ontwerpdoelen van XML de nadruk op eenvoud, algemeenheid en bruikbaarheid op internet. Het XML-bestand dat in deze zelfstudie moet worden geparseerd, is eigenlijk een RSS-feed. RSS: RSS (Rich Site Summary, ook wel Real Simple Syndication genoemd) gebruikt een reeks standaard webfeedformaten om regelmatig bijgewerkte informatie te publiceren, zoals blogberichten, nieuwskoppen, audiovideo. RSS is XML-geformatteerde platte tekst.

Het RSS-formaat zelf is relatief eenvoudig te lezen, zowel door geautomatiseerde processen als door mensen.
De RSS die in deze tutorial wordt verwerkt, is de RSS-feed van de belangrijkste nieuwsverhalen van een populaire nieuwswebsite. Je kunt het bekijken hier . Ons doel is om deze RSS-feed (of XML-bestand) te verwerken en in een ander formaat op te slaan voor toekomstig gebruik.

Gebruikte Python-module: Dit artikel gaat over het gebruik van ingebouwde xml module in Python voor het parseren van XML en de nadruk zal liggen op de ElementTree XML-API van deze module. Uitvoering: Python

    #Python code to illustrate parsing of XML files   # importing the required modules   import   csv   import   requests   import   xml.etree.ElementTree   as   ET   def   loadRSS  ():   # url of rss feed   url   =   'http://www.hindustantimes.com/rss/topnews/rssfeed.xml'   # creating HTTP response object from given url   resp   =   requests  .  get  (  url  )   # saving the xml file   with   open  (  'topnewsfeed.xml'     'wb'  )   as   f  :   f  .  write  (  resp  .  content  )   def   parseXML  (  xmlfile  ):   # create element tree object   tree   =   ET  .  parse  (  xmlfile  )   # get root element   root   =   tree  .  getroot  ()   # create empty list for news items   newsitems   =   []   # iterate news items   for   item   in   root  .  findall  (  './channel/item'  ):   # empty news dictionary   news   =   {}   # iterate child elements of item   for   child   in   item  :   # special checking for namespace object content:media   if   child  .  tag   ==   '{https://video.search.yahoo.com/mrss'  :   news  [  'media'  ]   =   child  .  attrib  [  'url'  ]   else  :   news  [  child  .  tag  ]   =   child  .  text  .  encode  (  'utf8'  )   # append news dictionary to news items list   newsitems  .  append  (  news  )   # return news items list   return   newsitems   def   savetoCSV  (  newsitems     filename  ):   # specifying the fields for csv file   fields   =   [  'guid'     'title'     'pubDate'     'description'     'link'     'media'  ]   # writing to csv file   with   open  (  filename     'w'  )   as   csvfile  :   # creating a csv dict writer object   writer   =   csv  .  DictWriter  (  csvfile     fieldnames   =   fields  )   # writing headers (field names)   writer  .  writeheader  ()   # writing data rows   writer  .  writerows  (  newsitems  )   def   main  ():   # load rss from web to update existing xml file   loadRSS  ()   # parse xml file   newsitems   =   parseXML  (  'topnewsfeed.xml'  )   # store news items in a csv file   savetoCSV  (  newsitems     'topnews.csv'  )   if   __name__   ==   '__main__'  :   # calling main function   main  ()

Above code will:

Laad de RSS-feed van de opgegeven URL en sla deze op als een XML-bestand.
Parseer het XML-bestand om nieuws op te slaan als een lijst met woordenboeken, waarbij elk woordenboek één nieuwsitem is.
Sla de nieuwsberichten op in een CSV-bestand.

Laten we proberen de code in stukjes te begrijpen:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnieuwsfeed.xml

parseXML()

xml.etree.ElementTree

ElementBoom

Element

ElementBoom

Element

parseXML()

tree = ET.parse(xmlfile)

ElementBoom

xmlbestand.

root = tree.getroot()

getroot()

boom

Element

for item in root.findall('./channel/item'):

item

./kanaal/item

XPath

item

kanaal

wortel

hier

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

item

nieuws

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

kind.attrib

URL

media: inhoud

news[child.tag] = child.text.encode('utf8')

kindtag

kind.tekst

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

nieuwsitems

opslaannaarCSV()

Dus hier is hoe onze geformatteerde gegevens er nu uitzien:

Zoals u kunt zien zijn de hiërarchische XML-bestandsgegevens geconverteerd naar een eenvoudig CSV-bestand, zodat alle nieuwsverhalen in de vorm van een tabel worden opgeslagen. Dit maakt het ook eenvoudiger om de database uit te breiden. Ook kan men de JSON-achtige gegevens rechtstreeks in hun applicaties gebruiken! Dit is het beste alternatief voor het extraheren van gegevens van websites die geen openbare API bieden, maar wel enkele RSS-feeds. Alle code en bestanden die in het bovenstaande artikel worden gebruikt, zijn te vinden hier . Wat nu?

U kunt meer RSS-feeds bekijken van de nieuwswebsite die in het bovenstaande voorbeeld wordt gebruikt. U kunt proberen een uitgebreide versie van het bovenstaande voorbeeld te maken door ook andere RSS-feeds te parseren.
Ben je een cricketfan? Dan dit RSS-feed moet van uw interesse zijn! U kunt dit XML-bestand ontleden om informatie over de live cricketwedstrijden te verzamelen en te gebruiken om een desktopmelding te maken!

Quiz van HTML en XML Quiz maken