כיצד ליצור DataFrame ב-Python?

מסגרת נתונים היא אוסף דו מימדי של נתונים. זהו מבנה נתונים שבו הנתונים מאוחסנים בצורה טבלה. מערכי נתונים מסודרים בשורות ובעמודות; אנו יכולים לאחסן מערכי נתונים מרובים במסגרת הנתונים. נוכל לבצע פעולות חשבון שונות, כמו הוספת בחירת עמודות/שורות ועמודות/שורות במסגרת הנתונים.

ב-Python, DataFrame, מרכיב מרכזי בספריית Pandas, משמש כמיכל נתונים דו מימדי מקיף. בדומה לטבלה, הוא מקפל נתונים בבהירות, תוך שימוש בשורות ועמודות, שכל אחת מהן מצוידת באינדקס ייחודי. הרבגוניות שלו מאפשרת התאמה של סוגי נתונים מגוונים בתוך עמודות, ומאפשרת גמישות בטיפול במערכי נתונים מורכבים.

Pandas DataFrames מעצימים למשתמשים מגוון רחב של פונקציות. מיצירת נתונים מובנים באמצעות מילונים או מבני נתונים אחרים ועד לשימוש אינדקס חזק לגישה חלקה לנתונים, Pandas מאפשרת מניפולציה של נתונים ללא מאמץ. הספרייה מספקת ממשק אינטואיטיבי לביצוע פעולות כגון סינון שורות על סמך תנאים, קיבוץ נתונים לצבירה וביצוע ניתוחים סטטיסטיים בקלות.

אנו יכולים לייבא את ה-DataFrames מהאחסון החיצוני; ניתן להתייחס למחסנים אלה כאל SQL מסד נתונים, קובץ CSV וקובץ אקסל. אנחנו יכולים גם להשתמש ברשימות, במילון, ומתוך רשימה של מילונים וכו'.

במדריך זה, נלמד ליצור את מסגרת הנתונים במספר דרכים. בואו נבין את הדרכים השונות הללו.

ראשית, עלינו להתקין את ספריית הפנדות ב- פִּיתוֹן סביבה.

מסגרת נתונים ריקה

אנחנו יכולים ליצור Dataframe ריק בסיסי. יש לקרוא לבנאי ה-Dataframe כדי ליצור את ה-DataFrame. בואו נבין את הדוגמה הבאה.

דוגמא -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

תְפוּקָה:

 Empty DataFrame Columns: [] Index: []  

שיטה - 2: צור מסגרת נתונים באמצעות List

אנו יכולים ליצור מסגרת נתונים באמצעות רשימה בודדת או רשימה של רשימות. בואו נבין את הדוגמה הבאה.

דוגמא -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

תְפוּקָה:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

הֶסבֵּר:

  • ייבוא ​​פנדות: יבוא פנדות כ-pd מייבא את ספריית פנדות ומכנה אותה כ-pd בשביל הקמצנות.
  • צור רשימה: lst הוא תקציר המכילה ערכי מחרוזת הפונים לניבים תכנותיים.
  • פיתוח DataFrame: pd.DataFrame(lst) בונה DataFrame מהסקירה המפורטת של lst. כמובן, כאשר ניתנת סקירה בודדת, Pandas מייצרת DataFrame עם קטע בודד.
  • הדפסת DataFrame: print(dframe) מדפיס את ה-DataFrame הבא.

שיטה - 3: צור Dataframe מ-dict של ndarray/lists

ניתן להשתמש ב-dict of ndarray/lists כדי ליצור מסגרת נתונים, כל ndarray חייב להיות באותו אורך. האינדקס יהיה טווח(n) כברירת מחדל; כאשר n מציין את אורך המערך. בואו נבין את הדוגמה הבאה.

דוגמא -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

תְפוּקָה:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

הֶסבֵּר:

  • ייבוא ​​פנדות: יבוא פנדות כ-pd מייבא את ספריית פנדות ומכנה אותה כ-pd.
  • צור מילון: מידע הוא הפניה למילה שבה המפתחות הם שמות מקטעים ('שם' ו'גיל'), וערכים הם רשומות המכילות מידע קשור.
  • פיתוח DataFrame: pd.DataFrame(data) בונה DataFrame מהמילה reference. המפתחות הופכים לשמות מקטעים, והתקצירים הופכים למקטעים.
  • הדפסת DataFrame: print(df) מדפיס את ה-DataFrame הבא.

שיטה - 4: צור Dataframe אינדקס באמצעות מערכים

בואו נבין את הדוגמה הבאה ליצירת מסגרת הנתונים של האינדקסים באמצעות מערכים.

דוגמא -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

תְפוּקָה:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

הֶסבֵּר:

  • ייבוא ​​פנדות: יבוא פנדות כ-pd מייבא את ספריית פנדות ומכנה אותה כ-pd.
  • צור מילון: מידע הוא הפניה למילה שבה המפתחות הם שמות פלחים ('שם' ו'הערכות'), וערכים הם רשומות המכילות מידע קשור.
  • פיתוח DataFrame: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) בונה DataFrame מהמילה הפניה. הרשימה המוגדרת מראש מוקצית לקווים.
  • הדפסת DataFrame: print(df) מדפיס את ה-DataFrame הבא.

שיטה - 5: צור Dataframe מתוך רשימה של dicts

אנו יכולים להעביר את רשימות המילונים כנתוני קלט כדי ליצור את מסגרת הנתונים של Pandas. שמות העמודות נלקחים כמפתחות כברירת מחדל. בואו נבין את הדוגמה הבאה.

דוגמא -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

תְפוּקָה:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

בואו נבין דוגמה נוספת ליצירת מסגרת הנתונים של הפנדות מרשימת מילונים עם אינדקס שורה וגם אינדקס עמודות.

הֶסבֵּר:

  • ייבוא ​​פנדות: יבוא פנדות כ-pd מייבא את ספריית פנדות ומכנה אותה כ-pd.
  • צור רשימה ומילון: מידע הוא סיכום שבו כל רכיב הוא הפניה למילה הפונה לעמודה ב-DataFrame. המפתחות של הפניות למילה הופכים לשמות פלחים.
  • פיתוח DataFrame: pd.DataFrame(data) בונה DataFrame מתוך הסקירה של הפניות למילים. המפתחות של הפניות למילה הופכות למקטעים, והאיכויות הופכות למידע ב-DataFrame.
  • הדפסת DataFrame: print(df) מדפיס את ה-DataFrame הבא.

דוגמה - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

תְפוּקָה:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

הֶסבֵּר:

ספריית הפנדות משמשת ליצירת שני DataFrames שאין לטעות בהם, שנועדו כ-dframe1 ו-dframe2, החל מסקירה של הפניות למילים בשם מידע. הפניות למילים אלו פועלות כתיאור של שורות בודדות בתוך DataFrames, שבהן המפתחות מתייחסים לשמות פלחים והאיכויות הקשורות מתייחסות למידע הרלוונטי. ה-DataFrame הבסיסי, dframe1, מופעל עם קבצי שורה מפורשת ('ראשון' ו'שני') ורשומות מקטעים ('x' ו-'y'). לפיכך, DataFrame שני, dframe2, נוצר באמצעות איסוף מידע דומה אך עם הבדל בקבצי מקטעים, המסומנים במפורש כ-'x' ו-'y1'. הקוד נסגר על ידי הדפסת שני ה-DataFrames למרכז הבקרה, תוך הבהרת עיצובי החלקים הספציפיים של כל DataFrame. קוד זה מתמלא כמתווה נרחב של יצירה ושליטה ב-DataFrame בתוך ספריית הפנדות, ומציע חוויות כיצד ניתן לבצע זנים ברשומות מקטעים.

דוגמה - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

תְפוּקָה:

 x y z first 2 NaN 3 second 10 20.0 30  

הֶסבֵּר:

בקוד Python זה, מפתחת Pandas DataFrame תוך שימוש בספריית הפנדות על ידי מתן סידורים של הפניות למילים וקביעת רשומות עמודות. המחזור מתחיל בייבוא ​​של ספריית הפנדות, המוקצה בשם השגוי 'pd' לקיצור. לפיכך, מאופיינת סקירה של הפניות למילים בשם מידע, כאשר כל הפניה למילה פונה לשורה של ה-DataFrame. המפתחות בתוך הפניות למילים אלה מתכוונים לשמות הפלחים, בעוד שהערכים הקשורים מציינים את פיסות המידע החשובות.

ה-DataFrame, המסומן כ-dframe, נעשה לאחר מכן תוך שימוש בבנאי pd.DataFrame() , איחוד המידע שנתן ומגדיר במפורש את רשומות השורה ל'first' ו-'second'. ה-DataFrame שלאחר מכן מציג עיצוב אחיד עם קטעים בשם 'x', 'y' ו-'z'. כל תכונות חסרות מסומנות כ'NaN'.

שיטה - 6: צור Dataframe באמצעות הפונקציה zip()

הפונקציה zip() משמשת למיזוג שתי הרשימות. בואו נבין את הדוגמה הבאה.

דוגמא -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

תְפוּקָה:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

הֶסבֵּר:

קוד Python זה מראה את הייצור של Pandas DataFrame משתי רשומות, במיוחד 'שם' ו'חותמות', על ידי ניצול ספריית הפנדות ויכולת הדחיסה. לאחר הייבוא ​​של ספריית הפנדות, רשומות ה'שם' וה'צ'קים' מאופיינות, המתייחסות לקטעים האידיאליים של ה-DataFrame. יכולת ה-zip מנוצלת כדי לצרף השוואת רכיבים מהתקצירים אלה ל-tuples, תוך מסגור תקציר נוסף בשם list_tuples.

לאחר מכן, הקוד, בשלב זה, מדפיס את התקציר של tuples כדי לתת מבט קצר על המידע המצורף. כתוצאה מכך, Pandas DataFrame בשם dframe נעשה תוך שימוש בבנאי pd.DataFrame() שבו משתנה הרצף של tuples לתצורה אחידה מאורגנת. הפלחים 'שם' ו'חותמות' מוקצים באופן חד משמעי במהלך תהליך יצירת DataFrame זה.

שיטה - 7: יצירת Dataframe מ-Dicts of series

ניתן להעביר את המילון ליצירת מסגרת נתונים. אנו יכולים להשתמש ב-Dicts of series כאשר המדד העוקב הוא האיחוד של כל הסדרות של ערך המדד שעבר. בואו נבין את הדוגמה הבאה.

דוגמא -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

תְפוּקָה:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

הֶסבֵּר:

בקוד Python זה, Pandas DataFrame עשוי מהפניות למילים של סדרות המשתמשות בספריית הפנדות. שני נושאים, 'גאדג'טים' ו'משותף', מטופלים כחלקים, וציונים בודדים עם קבצים מפורשים מתואמים ל-DataFrame בשם dframe. המבנה הפשוט שלאחר מכן מודפס למרכז הבקרה, מראה טכניקה קומפקטית לתיאום וחקירה של מידע מסומן באמצעות פנדות.

במדריך זה, דנו בדרכים השונות ליצירת DataFrames.