КСМЛ РАШЧЛАЊИВАЊЕ У ПИТХОН-У

Овај чланак се фокусира на то како се може рашчланити дата КСМЛ датотека и издвојити неке корисне податке из ње на структуриран начин. КСМЛ: КСМЛ је скраћеница од еКстенсибле Маркуп Лангуаге. Дизајниран је за складиштење и транспорт података. Дизајниран је да буде читљив и људима и машинама. Зато циљеви дизајна КСМЛ-а наглашавају једноставност, општост и употребљивост широм Интернета. КСМЛ датотека која ће бити рашчлањена у овом водичу је заправо РСС феед. РСС: РСС (Рицх Сите Суммари који се често назива Реалли Симпле Синдицатион) користи породицу стандардних формата веб фидова за објављивање информација које се често ажурирају као што су уноси у блог, наслови вести, аудио видео. РСС је обичан текст у КСМЛ формату.

Сам РСС формат је релативно лак за читање и аутоматизованим процесима и људима.
РСС обрађен у овом туторијалу је РСС феед најбољих вести са популарне веб странице вести. Можете то проверити овде . Наш циљ је да обрадимо овај РСС феед (или КСМЛ фајл) и сачувамо га у неком другом формату за будућу употребу.

Коришћен Питхон модул: Овај чланак ће се фокусирати на коришћење уграђеног кмл модул у Питхон-у за рашчлањивање КСМЛ-а и главни фокус ће бити на ЕлементТрее КСМЛ АПИ овог модула. Имплементација: Python

    #Python code to illustrate parsing of XML files   # importing the required modules   import   csv   import   requests   import   xml.etree.ElementTree   as   ET   def   loadRSS  ():   # url of rss feed   url   =   'http://www.hindustantimes.com/rss/topnews/rssfeed.xml'   # creating HTTP response object from given url   resp   =   requests  .  get  (  url  )   # saving the xml file   with   open  (  'topnewsfeed.xml'     'wb'  )   as   f  :   f  .  write  (  resp  .  content  )   def   parseXML  (  xmlfile  ):   # create element tree object   tree   =   ET  .  parse  (  xmlfile  )   # get root element   root   =   tree  .  getroot  ()   # create empty list for news items   newsitems   =   []   # iterate news items   for   item   in   root  .  findall  (  './channel/item'  ):   # empty news dictionary   news   =   {}   # iterate child elements of item   for   child   in   item  :   # special checking for namespace object content:media   if   child  .  tag   ==   '{https://video.search.yahoo.com/mrss'  :   news  [  'media'  ]   =   child  .  attrib  [  'url'  ]   else  :   news  [  child  .  tag  ]   =   child  .  text  .  encode  (  'utf8'  )   # append news dictionary to news items list   newsitems  .  append  (  news  )   # return news items list   return   newsitems   def   savetoCSV  (  newsitems     filename  ):   # specifying the fields for csv file   fields   =   [  'guid'     'title'     'pubDate'     'description'     'link'     'media'  ]   # writing to csv file   with   open  (  filename     'w'  )   as   csvfile  :   # creating a csv dict writer object   writer   =   csv  .  DictWriter  (  csvfile     fieldnames   =   fields  )   # writing headers (field names)   writer  .  writeheader  ()   # writing data rows   writer  .  writerows  (  newsitems  )   def   main  ():   # load rss from web to update existing xml file   loadRSS  ()   # parse xml file   newsitems   =   parseXML  (  'topnewsfeed.xml'  )   # store news items in a csv file   savetoCSV  (  newsitems     'topnews.csv'  )   if   __name__   ==   '__main__'  :   # calling main function   main  ()

Above code will:

Учитајте РСС феед са наведеног УРЛ-а и сачувајте га као КСМЛ датотеку.
Парсирајте КСМЛ датотеку да бисте вести сачували као листу речника где је сваки речник једна вест.
Сачувајте вести у ЦСВ датотеку.

Хајде да покушамо да разумемо код у деловима:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

топневсфеед.кмл

парсеКСМЛ()

кмл.етрее.ЕлементТрее

ЕлементТрее

Елемент

ЕлементТрее

Елемент

парсеКСМЛ()

tree = ET.parse(xmlfile)

ЕлементТрее

кмфиле.

root = tree.getroot()

гетроотед()

дрво

Елемент

for item in root.findall('./channel/item'):

предмет

./цханнел/итем

КСПатх

предмет

канал

корен

овде

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

предмет

вести

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

дете.аттрибут

урл

медији: садржај

news[child.tag] = child.text.encode('utf8')

дете.ознака

дете.текст

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

невситемс

саветоЦСВ()

Дакле, ево како сада изгледају наши форматирани подаци:

Као што видите, хијерархијски подаци КСМЛ датотеке су конвертовани у једноставну ЦСВ датотеку тако да се све вести чувају у облику табеле. Ово такође олакшава проширење базе података. Такође можете користити податке сличне ЈСОН-у директно у њиховим апликацијама! Ово је најбоља алтернатива за издвајање података са веб локација које не пружају јавни АПИ, али пружају неке РСС феедове. Сав код и датотеке коришћене у горњем чланку се могу пронаћи овде . Шта даље?

Можете погледати више рсс фидова веб локације вести која се користи у горњем примеру. Можете покушати да направите проширену верзију горњег примера тако што ћете анализирати и друге рсс феедове.
Да ли сте љубитељ крикета? Онда ово рсс феед мора да вас занима! Можете рашчланити ову КСМЛ датотеку да бисте извукли информације о утакмицама крикета уживо и да их користите да направите нотифиер за десктоп!

Квиз ХТМЛ и КСМЛ Креирај квиз