PYTHON'DA XML AYRIŞTIRMA

Bu makale, belirli bir XML dosyasının nasıl ayrıştırılabileceğine ve ondan bazı yararlı verilerin yapılandırılmış bir şekilde nasıl çıkarılabileceğine odaklanmaktadır. XML: XML, Genişletilebilir İşaretleme Dili anlamına gelir. Verileri depolamak ve taşımak için tasarlandı. Hem insan hem de makine tarafından okunabilecek şekilde tasarlandı. Bu nedenle XML'in tasarım hedefleri basitliği, genelliği ve İnternet genelinde kullanılabilirliği vurgular. Bu eğitimde ayrıştırılacak XML dosyası aslında bir RSS beslemesidir. RSS: RSS (Genellikle Gerçekten Basit Dağıtım olarak adlandırılan Zengin Site Özeti), blog girişleri, haber başlıkları, sesli video gibi sık sık güncellenen bilgileri yayınlamak için standart web besleme formatlarından oluşan bir aileyi kullanır. RSS, XML formatlı düz metindir.

RSS formatının hem otomatik süreçler hem de insanlar tarafından okunması nispeten kolaydır.
Bu eğitimde işlenen RSS, popüler bir haber web sitesinden en önemli haberlerin RSS beslemesidir. Kontrol edebilirsin Burada . Amacımız bu RSS beslemesini (veya XML dosyasını) işleyip ileride kullanmak üzere başka bir formatta kaydetmektir.

Kullanılan Python Modülü: Bu makale yerleşik kullanıma odaklanacaktır xml XML'i ayrıştırmak için python'daki modül ve ana odak noktası ElementTree XML API'si bu modülün. Uygulama: Python

    #Python code to illustrate parsing of XML files   # importing the required modules   import   csv   import   requests   import   xml.etree.ElementTree   as   ET   def   loadRSS  ():   # url of rss feed   url   =   'http://www.hindustantimes.com/rss/topnews/rssfeed.xml'   # creating HTTP response object from given url   resp   =   requests  .  get  (  url  )   # saving the xml file   with   open  (  'topnewsfeed.xml'     'wb'  )   as   f  :   f  .  write  (  resp  .  content  )   def   parseXML  (  xmlfile  ):   # create element tree object   tree   =   ET  .  parse  (  xmlfile  )   # get root element   root   =   tree  .  getroot  ()   # create empty list for news items   newsitems   =   []   # iterate news items   for   item   in   root  .  findall  (  './channel/item'  ):   # empty news dictionary   news   =   {}   # iterate child elements of item   for   child   in   item  :   # special checking for namespace object content:media   if   child  .  tag   ==   '{https://video.search.yahoo.com/mrss'  :   news  [  'media'  ]   =   child  .  attrib  [  'url'  ]   else  :   news  [  child  .  tag  ]   =   child  .  text  .  encode  (  'utf8'  )   # append news dictionary to news items list   newsitems  .  append  (  news  )   # return news items list   return   newsitems   def   savetoCSV  (  newsitems     filename  ):   # specifying the fields for csv file   fields   =   [  'guid'     'title'     'pubDate'     'description'     'link'     'media'  ]   # writing to csv file   with   open  (  filename     'w'  )   as   csvfile  :   # creating a csv dict writer object   writer   =   csv  .  DictWriter  (  csvfile     fieldnames   =   fields  )   # writing headers (field names)   writer  .  writeheader  ()   # writing data rows   writer  .  writerows  (  newsitems  )   def   main  ():   # load rss from web to update existing xml file   loadRSS  ()   # parse xml file   newsitems   =   parseXML  (  'topnewsfeed.xml'  )   # store news items in a csv file   savetoCSV  (  newsitems     'topnews.csv'  )   if   __name__   ==   '__main__'  :   # calling main function   main  ()

Above code will:

Belirtilen URL'den RSS beslemesini yükleyin ve XML dosyası olarak kaydedin.
Haberleri, her sözlüğün tek bir haber öğesi olduğu bir sözlük listesi olarak kaydetmek için XML dosyasını ayrıştırın.
Haber öğelerini bir CSV dosyasına kaydedin.

Kodu parçalar halinde anlamaya çalışalım:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

ayrıştırmaXML()

xml.etree.ElementTree

Element Ağacı

Öğe

Element Ağacı

Öğe

ayrıştırmaXML()

tree = ET.parse(xmlfile)

Element Ağacı

xmlfile.xml dosyası

root = tree.getroot()

rootlanmış()

ağaç

Öğe

for item in root.findall('./channel/item'):

öğe

./kanal/öğe

XPath

öğe

kanal

kök

Burada

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

öğe

haberler

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

çocuk.attrib

URL

medya:içerik

news[child.tag] = child.text.encode('utf8')

çocuk.etiketi

çocuk.metin

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

yeni siteler

CSV'ye kaydet()

Şimdi biçimlendirilmiş verilerimizin şu anda nasıl göründüğü:

Gördüğünüz gibi hiyerarşik XML dosyası verileri basit bir CSV dosyasına dönüştürüldü, böylece tüm haberler bir tablo biçiminde saklandı. Bu, veritabanını genişletmeyi de kolaylaştırır. Ayrıca JSON benzeri veriler doğrudan uygulamalarında kullanılabilir! Bu, genel bir API sağlamayan ancak bazı RSS beslemeleri sağlayan web sitelerinden veri çıkarmak için en iyi alternatiftir. Yukarıdaki makalede kullanılan tüm kod ve dosyaları bulabilirsiniz Burada . Sırada ne var?

Yukarıdaki örnekte kullanılan haber sitesinin daha fazla rss beslemesine göz atabilirsiniz. Diğer rss akışlarını da ayrıştırarak yukarıdaki örneğin genişletilmiş bir sürümünü oluşturmayı deneyebilirsiniz.
Kriket hayranı mısınız? Daha sonra Bu rss beslemesi ilginizi çekmelidir! Canlı kriket maçları hakkındaki bilgileri almak için bu XML dosyasını ayrıştırabilir ve bir masaüstü bildirimi yapmak için kullanabilirsiniz!

HTML ve XML sınavı Test Oluştur