PARSOWANIE XML W PYTHONIE

W tym artykule skupiono się na tym, jak można przeanalizować dany plik XML i wyodrębnić z niego przydatne dane w uporządkowany sposób. XML: XML oznacza eXtensible Markup Language. Został zaprojektowany do przechowywania i przesyłania danych. Został zaprojektowany tak, aby był czytelny zarówno dla ludzi, jak i maszyn. Dlatego też cele projektowe XML kładą nacisk na prostotę, ogólność i użyteczność w Internecie. Plik XML, który będzie analizowany w tym samouczku, jest w rzeczywistości kanałem RSS. RSS: RSS (Rich Site Summary, często nazywane naprawdę prostą syndykacją) wykorzystuje rodzinę standardowych formatów kanałów internetowych do publikowania często aktualizowanych informacji, takich jak wpisy na blogach, nagłówki wiadomości, audio wideo. RSS to zwykły tekst w formacie XML.

Sam format RSS jest stosunkowo łatwy do odczytania zarówno przez zautomatyzowane procesy, jak i przez ludzi.
Kanał RSS przetwarzany w tym samouczku to kanał RSS zawierający najważniejsze wiadomości z popularnej witryny z wiadomościami. Możesz to sprawdzić Tutaj . Naszym celem jest przetworzenie tego kanału RSS (lub pliku XML) i zapisanie go w innym formacie do wykorzystania w przyszłości.

Wykorzystany moduł Pythona: W tym artykule skupimy się na korzystaniu z wbudowanych xml moduł w Pythonie do analizowania XML, a główny nacisk zostanie położony na Interfejs API XML ElementTree tego modułu. Realizacja: Python

    #Python code to illustrate parsing of XML files   # importing the required modules   import   csv   import   requests   import   xml.etree.ElementTree   as   ET   def   loadRSS  ():   # url of rss feed   url   =   'http://www.hindustantimes.com/rss/topnews/rssfeed.xml'   # creating HTTP response object from given url   resp   =   requests  .  get  (  url  )   # saving the xml file   with   open  (  'topnewsfeed.xml'     'wb'  )   as   f  :   f  .  write  (  resp  .  content  )   def   parseXML  (  xmlfile  ):   # create element tree object   tree   =   ET  .  parse  (  xmlfile  )   # get root element   root   =   tree  .  getroot  ()   # create empty list for news items   newsitems   =   []   # iterate news items   for   item   in   root  .  findall  (  './channel/item'  ):   # empty news dictionary   news   =   {}   # iterate child elements of item   for   child   in   item  :   # special checking for namespace object content:media   if   child  .  tag   ==   '{https://video.search.yahoo.com/mrss'  :   news  [  'media'  ]   =   child  .  attrib  [  'url'  ]   else  :   news  [  child  .  tag  ]   =   child  .  text  .  encode  (  'utf8'  )   # append news dictionary to news items list   newsitems  .  append  (  news  )   # return news items list   return   newsitems   def   savetoCSV  (  newsitems     filename  ):   # specifying the fields for csv file   fields   =   [  'guid'     'title'     'pubDate'     'description'     'link'     'media'  ]   # writing to csv file   with   open  (  filename     'w'  )   as   csvfile  :   # creating a csv dict writer object   writer   =   csv  .  DictWriter  (  csvfile     fieldnames   =   fields  )   # writing headers (field names)   writer  .  writeheader  ()   # writing data rows   writer  .  writerows  (  newsitems  )   def   main  ():   # load rss from web to update existing xml file   loadRSS  ()   # parse xml file   newsitems   =   parseXML  (  'topnewsfeed.xml'  )   # store news items in a csv file   savetoCSV  (  newsitems     'topnews.csv'  )   if   __name__   ==   '__main__'  :   # calling main function   main  ()

Above code will:

Załaduj kanał RSS z określonego adresu URL i zapisz go jako plik XML.
Przeanalizuj plik XML, aby zapisać wiadomości jako listę słowników, gdzie każdy słownik to pojedynczy element wiadomości.
Zapisz wiadomości w pliku CSV.

Spróbujmy zrozumieć kod fragmentami:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

Drzewo Elementów

Element

Drzewo Elementów

Element

parseXML()

tree = ET.parse(xmlfile)

Drzewo Elementów

plik xml.

root = tree.getroot()

zrootowany()

drzewo

Element

for item in root.findall('./channel/item'):

przedmiot

./kanał/element

XPath

przedmiot

kanał

źródło

Tutaj

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

przedmiot

aktualności

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

atrybut.dziecko

adres URL

multimedia:treść

news[child.tag] = child.text.encode('utf8')

dziecko.tag

tekst.dziecka

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

nowestrony

zapisz w CSV()

Oto jak teraz wyglądają nasze sformatowane dane:

Jak widać, dane w hierarchicznym pliku XML zostały przekonwertowane do prostego pliku CSV, dzięki czemu wszystkie wiadomości są przechowywane w formie tabeli. Ułatwia to także rozbudowę bazy danych. Można także używać danych typu JSON bezpośrednio w swoich aplikacjach! Jest to najlepsza alternatywa do wydobywania danych ze stron internetowych, które nie udostępniają publicznego interfejsu API, ale udostępniają niektóre kanały RSS. Można znaleźć cały kod i pliki użyte w powyższym artykule Tutaj . Co dalej?

Możesz zobaczyć więcej kanałów rss serwisu informacyjnego użytych w powyższym przykładzie. Możesz spróbować utworzyć rozszerzoną wersję powyższego przykładu, analizując także inne kanały rss.
Czy jesteś fanem krykieta? Następnie Ten Kanał rss musi Cię zainteresować! Możesz przeanalizować ten plik XML, aby zebrać informacje o meczach krykieta na żywo i użyć go do utworzenia powiadomienia na pulpicie!

Quiz HTML i XML Utwórz quiz