ניתוח XML ב- PYTHON

מאמר זה מתמקד כיצד ניתן לנתח קובץ XML נתון ולחלץ ממנו כמה נתונים שימושיים בצורה מובנית. XML: XML ראשי תיבות של eXtensible Markup Language. הוא תוכנן לאחסן ולהעביר נתונים. הוא תוכנן כך שיהיה קריא גם לאדם וגם למכונה. לכן מטרות העיצוב של XML מדגישות פשטות כלליות ושימושיות ברחבי האינטרנט. קובץ ה-XML שיש לנתח במדריך זה הוא למעשה הזנת RSS. RSS: RSS (סיכום אתר עשיר שנקרא לעתים קרובות Really Simple Syndication) משתמש במשפחה של פורמטים סטנדרטיים של הזנת אינטרנט כדי לפרסם מידע מתעדכן לעתים קרובות כמו רשומות בלוג חדשות כותרות וידאו וידאו. RSS הוא טקסט רגיל בפורמט XML.

פורמט ה-RSS עצמו קל יחסית לקריאה הן על ידי תהליכים אוטומטיים והן על ידי בני אדם כאחד.
ה-RSS המעובד במדריך זה הוא הזנת RSS של כתבות חדשות מובילות מאתר חדשות פופולרי. אתה יכול לבדוק את זה כָּאן . המטרה שלנו היא לעבד את הזנת ה-RSS (או קובץ ה-XML) הזה ולשמור אותו בפורמט אחר לשימוש עתידי.

מודול Python בשימוש: מאמר זה יתמקד בשימוש המובנה xml מודול ב-python לניתוח XML וההתמקדות העיקרית תהיה ב- ElementTree XML API של מודול זה. יישום: Python

    #Python code to illustrate parsing of XML files   # importing the required modules   import   csv   import   requests   import   xml.etree.ElementTree   as   ET   def   loadRSS  ():   # url of rss feed   url   =   'http://www.hindustantimes.com/rss/topnews/rssfeed.xml'   # creating HTTP response object from given url   resp   =   requests  .  get  (  url  )   # saving the xml file   with   open  (  'topnewsfeed.xml'     'wb'  )   as   f  :   f  .  write  (  resp  .  content  )   def   parseXML  (  xmlfile  ):   # create element tree object   tree   =   ET  .  parse  (  xmlfile  )   # get root element   root   =   tree  .  getroot  ()   # create empty list for news items   newsitems   =   []   # iterate news items   for   item   in   root  .  findall  (  './channel/item'  ):   # empty news dictionary   news   =   {}   # iterate child elements of item   for   child   in   item  :   # special checking for namespace object content:media   if   child  .  tag   ==   '{https://video.search.yahoo.com/mrss'  :   news  [  'media'  ]   =   child  .  attrib  [  'url'  ]   else  :   news  [  child  .  tag  ]   =   child  .  text  .  encode  (  'utf8'  )   # append news dictionary to news items list   newsitems  .  append  (  news  )   # return news items list   return   newsitems   def   savetoCSV  (  newsitems     filename  ):   # specifying the fields for csv file   fields   =   [  'guid'     'title'     'pubDate'     'description'     'link'     'media'  ]   # writing to csv file   with   open  (  filename     'w'  )   as   csvfile  :   # creating a csv dict writer object   writer   =   csv  .  DictWriter  (  csvfile     fieldnames   =   fields  )   # writing headers (field names)   writer  .  writeheader  ()   # writing data rows   writer  .  writerows  (  newsitems  )   def   main  ():   # load rss from web to update existing xml file   loadRSS  ()   # parse xml file   newsitems   =   parseXML  (  'topnewsfeed.xml'  )   # store news items in a csv file   savetoCSV  (  newsitems     'topnews.csv'  )   if   __name__   ==   '__main__'  :   # calling main function   main  ()

Above code will:

טען הזנת RSS מכתובת האתר שצוינה ושמור אותה כקובץ XML.
נתח את קובץ ה-XML כדי לשמור חדשות כרשימה של מילונים כאשר כל מילון הוא פריט חדשות בודד.
שמור את החדשות בקובץ CSV.

הבה ננסה להבין את הקוד בחלקים:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

ElementTree

אֵלֵמֶנט

ElementTree

אֵלֵמֶנט

parseXML()

tree = ET.parse(xmlfile)

ElementTree

קובץ xml.

root = tree.getroot()

getrooted()

עֵץ

אֵלֵמֶנט

for item in root.findall('./channel/item'):

פָּרִיט

./ערוץ/פריט

XPath

פָּרִיט

עָרוּץ

שׁוֹרֶשׁ

כָּאן

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

פָּרִיט

חֲדָשׁוֹת

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

child.attrib

כתובת אתר

מדיה:תוכן

news[child.tag] = child.text.encode('utf8')

child.tag

ילד.טקסט

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

אתרי חדשות

savetoCSV()

אז עכשיו הנה איך הנתונים המעוצבים שלנו נראים עכשיו:

כפי שאתה יכול לראות, נתוני קובץ ה-XML ההיררכיים הומרו לקובץ CSV פשוט כך שכל כתבות החדשות מאוחסנות בצורה של טבלה. זה מקל גם על הרחבת מסד הנתונים. כמו כן ניתן להשתמש בנתונים דמויי JSON ישירות באפליקציות שלהם! זוהי האלטרנטיבה הטובה ביותר לחילוץ נתונים מאתרים שאינם מספקים API ציבורי אך מספקים עדכוני RSS מסוימים. ניתן למצוא את כל הקוד והקבצים המשמשים במאמר לעיל כָּאן . מה הלאה?

אתה יכול להסתכל על עדכוני rss נוספים של אתר החדשות המשמש בדוגמה לעיל. אתה יכול לנסות ליצור גרסה מורחבת של הדוגמה לעיל על ידי ניתוח עדכוני rss אחרים מדי.
האם אתה חובב קריקט? אָז זֶה הזנת rss חייבת לעניין אותך! אתה יכול לנתח את קובץ ה-XML הזה כדי לגרד מידע על משחקי הקריקט החיים ולהשתמש בו כדי להודיע על שולחן העבודה!

חידון של HTML ו-XML צור חידון