ANÁLISE XML EM PYTHON

Este artigo se concentra em como analisar um determinado arquivo XML e extrair dele alguns dados úteis de forma estruturada. XML: XML significa eXtensible Markup Language. Ele foi projetado para armazenar e transportar dados. Ele foi projetado para ser legível por humanos e por máquinas. É por isso que os objetivos de design do XML enfatizam a simplicidade, a generalidade e a usabilidade na Internet. O arquivo XML a ser analisado neste tutorial é na verdade um feed RSS. RSS: RSS (Rich Site Summary, muitas vezes chamado de Really Simple Syndication) usa uma família de formatos de feed da web padrão para publicar informações atualizadas com frequência, como entradas de blogs, manchetes de notícias, áudio e vídeo. RSS é texto simples formatado em XML.

O formato RSS em si é relativamente fácil de ler tanto por processos automatizados quanto por humanos.
O RSS processado neste tutorial é o feed RSS das principais notícias de um site de notícias popular. Você pode conferir aqui . Nosso objetivo é processar esse feed RSS (ou arquivo XML) e salvá-lo em algum outro formato para uso futuro.

Módulo Python usado: Este artigo se concentrará no uso de xml módulo em python para análise de XML e o foco principal estará no API XML ElementTree deste módulo. Implementação: Python

    #Python code to illustrate parsing of XML files   # importing the required modules   import   csv   import   requests   import   xml.etree.ElementTree   as   ET   def   loadRSS  ():   # url of rss feed   url   =   'http://www.hindustantimes.com/rss/topnews/rssfeed.xml'   # creating HTTP response object from given url   resp   =   requests  .  get  (  url  )   # saving the xml file   with   open  (  'topnewsfeed.xml'     'wb'  )   as   f  :   f  .  write  (  resp  .  content  )   def   parseXML  (  xmlfile  ):   # create element tree object   tree   =   ET  .  parse  (  xmlfile  )   # get root element   root   =   tree  .  getroot  ()   # create empty list for news items   newsitems   =   []   # iterate news items   for   item   in   root  .  findall  (  './channel/item'  ):   # empty news dictionary   news   =   {}   # iterate child elements of item   for   child   in   item  :   # special checking for namespace object content:media   if   child  .  tag   ==   '{https://video.search.yahoo.com/mrss'  :   news  [  'media'  ]   =   child  .  attrib  [  'url'  ]   else  :   news  [  child  .  tag  ]   =   child  .  text  .  encode  (  'utf8'  )   # append news dictionary to news items list   newsitems  .  append  (  news  )   # return news items list   return   newsitems   def   savetoCSV  (  newsitems     filename  ):   # specifying the fields for csv file   fields   =   [  'guid'     'title'     'pubDate'     'description'     'link'     'media'  ]   # writing to csv file   with   open  (  filename     'w'  )   as   csvfile  :   # creating a csv dict writer object   writer   =   csv  .  DictWriter  (  csvfile     fieldnames   =   fields  )   # writing headers (field names)   writer  .  writeheader  ()   # writing data rows   writer  .  writerows  (  newsitems  )   def   main  ():   # load rss from web to update existing xml file   loadRSS  ()   # parse xml file   newsitems   =   parseXML  (  'topnewsfeed.xml'  )   # store news items in a csv file   savetoCSV  (  newsitems     'topnews.csv'  )   if   __name__   ==   '__main__'  :   # calling main function   main  ()

Above code will:

Carregue o feed RSS do URL especificado e salve-o como um arquivo XML.
Analise o arquivo XML para salvar as notícias como uma lista de dicionários onde cada dicionário é uma única notícia.
Salve as notícias em um arquivo CSV.

Vamos tentar entender o código em partes:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

analisarXML()

xml.etree.ElementTree

ElementoÁrvore

Elemento

ElementoÁrvore

Elemento

analisarXML()

tree = ET.parse(xmlfile)

ElementoÁrvore

arquivoxml.

root = tree.getroot()

enraizar()

árvore

Elemento

for item in root.findall('./channel/item'):

item

./canal/item

XPath

item

canal

raiz

aqui

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

item

notícias

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

filho.attrib

url

mídia: conteúdo

news[child.tag] = child.text.encode('utf8')

filho.tag

filho.texto

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

notícias

salvar em CSV()

Então agora é assim que nossos dados formatados se parecem agora:

Como você pode ver, os dados do arquivo XML hierárquico foram convertidos em um arquivo CSV simples para que todas as notícias sejam armazenadas em forma de tabela. Isso também torna mais fácil estender o banco de dados. Também é possível usar dados do tipo JSON diretamente em seus aplicativos! Esta é a melhor alternativa para extrair dados de sites que não fornecem uma API pública, mas fornecem alguns feeds RSS. Todo o código e arquivos usados no artigo acima podem ser encontrados aqui . O que vem a seguir?

Você pode dar uma olhada em mais feeds RSS do site de notícias usado no exemplo acima. Você pode tentar criar uma versão estendida do exemplo acima analisando também outros feeds RSS.
Você é fã de críquete? Então esse O feed rss deve ser do seu interesse! Você pode analisar este arquivo XML para obter informações sobre as partidas de críquete ao vivo e usá-lo para criar um notificador de desktop!

Questionário de HTML e XML Criar questionário