RAZČLENJEVANJE XML V PYTHONU

Ta članek se osredotoča na to, kako lahko razčlenimo dano datoteko XML in iz nje na strukturiran način izvlečemo nekaj uporabnih podatkov. XML: XML je kratica za eXtensible Markup Language. Zasnovan je bil za shranjevanje in prenos podatkov. Zasnovan je bil tako, da je berljiv za ljudi in stroje. Zato cilji oblikovanja XML poudarjajo preprostost, splošnost in uporabnost v internetu. Datoteka XML, ki bo razčlenjena v tej vadnici, je pravzaprav vir RSS. RSS: RSS (Rich Site Summary, ki se pogosto imenuje Really Simple Syndication) uporablja družino standardnih formatov spletnih virov za objavo pogosto posodobljenih informacij, kot so zapisi v spletnem dnevniku, naslovi novic, avdio video. RSS je golo besedilo v formatu XML.

Sam format RSS je razmeroma enostaven za branje tako z avtomatiziranimi procesi kot tudi s strani ljudi.
RSS, obdelan v tej vadnici, je vir RSS najpomembnejših novic s priljubljenega spletnega mesta z novicami. Lahko preverite tukaj . Naš cilj je obdelati ta vir RSS (ali datoteko XML) in ga shraniti v drugi obliki za prihodnjo uporabo.

Uporabljen modul Python: Ta članek se bo osredotočil na uporabo vgrajenih xml modul v pythonu za razčlenjevanje XML, glavni poudarek pa bo na ElementTree XML API tega modula. Izvedba: Python

    #Python code to illustrate parsing of XML files   # importing the required modules   import   csv   import   requests   import   xml.etree.ElementTree   as   ET   def   loadRSS  ():   # url of rss feed   url   =   'http://www.hindustantimes.com/rss/topnews/rssfeed.xml'   # creating HTTP response object from given url   resp   =   requests  .  get  (  url  )   # saving the xml file   with   open  (  'topnewsfeed.xml'     'wb'  )   as   f  :   f  .  write  (  resp  .  content  )   def   parseXML  (  xmlfile  ):   # create element tree object   tree   =   ET  .  parse  (  xmlfile  )   # get root element   root   =   tree  .  getroot  ()   # create empty list for news items   newsitems   =   []   # iterate news items   for   item   in   root  .  findall  (  './channel/item'  ):   # empty news dictionary   news   =   {}   # iterate child elements of item   for   child   in   item  :   # special checking for namespace object content:media   if   child  .  tag   ==   '{https://video.search.yahoo.com/mrss'  :   news  [  'media'  ]   =   child  .  attrib  [  'url'  ]   else  :   news  [  child  .  tag  ]   =   child  .  text  .  encode  (  'utf8'  )   # append news dictionary to news items list   newsitems  .  append  (  news  )   # return news items list   return   newsitems   def   savetoCSV  (  newsitems     filename  ):   # specifying the fields for csv file   fields   =   [  'guid'     'title'     'pubDate'     'description'     'link'     'media'  ]   # writing to csv file   with   open  (  filename     'w'  )   as   csvfile  :   # creating a csv dict writer object   writer   =   csv  .  DictWriter  (  csvfile     fieldnames   =   fields  )   # writing headers (field names)   writer  .  writeheader  ()   # writing data rows   writer  .  writerows  (  newsitems  )   def   main  ():   # load rss from web to update existing xml file   loadRSS  ()   # parse xml file   newsitems   =   parseXML  (  'topnewsfeed.xml'  )   # store news items in a csv file   savetoCSV  (  newsitems     'topnews.csv'  )   if   __name__   ==   '__main__'  :   # calling main function   main  ()

Above code will:

Naloži vir RSS z navedenega URL-ja in ga shrani kot datoteko XML.
Razčlenite datoteko XML, da shranite novice kot seznam slovarjev, kjer je vsak slovar ena sama novica.
Shranite novice v datoteko CSV.

Poskusimo razumeti kodo po delih:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

razčleniXML()

xml.etree.ElementTree

ElementTree

Element

ElementTree

Element

razčleniXML()

tree = ET.parse(xmlfile)

ElementTree

xmlfile.

root = tree.getroot()

getrooted()

drevo

Element

for item in root.findall('./channel/item'):

postavka

./kanal/postavka

XPath

postavka

kanal

korenina

tukaj

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

postavka

novice

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

otrok.attrib

url

mediji: vsebina

news[child.tag] = child.text.encode('utf8')

otrok.oznaka

otrok.besedilo

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

novice

savetoCSV()

Tukaj je torej, kako so zdaj videti naši oblikovani podatki:

Kot lahko vidite, so bili podatki hierarhične datoteke XML pretvorjeni v preprosto datoteko CSV, tako da so vse novice shranjene v obliki tabele. To olajša tudi razširitev baze podatkov. Podatke, podobne JSON, lahko uporabite tudi neposredno v svojih aplikacijah! To je najboljša alternativa za pridobivanje podatkov s spletnih mest, ki ne ponujajo javnega API-ja, vendar ponujajo nekaj virov RSS. Najdete lahko vso kodo in datoteke, uporabljene v zgornjem članku tukaj . Kaj pa potem?

Ogledate si lahko več virov rss spletnega mesta z novicami, uporabljenega v zgornjem primeru. Lahko poskusite ustvariti razširjeno različico zgornjega primera tako, da razčlenite tudi druge vire rss.
Ste ljubitelj kriketa? Potem to rss vir vas mora zanimati! To datoteko XML lahko razčlenite, da postrgate informacije o tekmah kriketa v živo in jih uporabite za izdelavo namiznega obvestila!

Kviz HTML in XML Ustvari kviz