كيفية إنشاء DataFrame في بايثون؟

إطار البيانات عبارة عن مجموعة ثنائية الأبعاد من البيانات. إنها بنية بيانات حيث يتم تخزين البيانات في شكل جدول. يتم ترتيب مجموعات البيانات في صفوف وأعمدة؛ يمكننا تخزين مجموعات بيانات متعددة في إطار البيانات. يمكننا إجراء عمليات حسابية مختلفة، مثل إضافة اختيار العمود/الصف والأعمدة/الصفوف في إطار البيانات.

في Python، يعمل DataFrame، وهو مكون محوري في مكتبة Pandas، بمثابة حاوية بيانات شاملة ثنائية الأبعاد. فهو يشبه الجدول، فهو يقوم بتغليف البيانات بوضوح، باستخدام صفوف وأعمدة، يتمتع كل منها بفهرس مميز. يتيح تعدد استخداماته استيعاب أنواع البيانات المتنوعة داخل الأعمدة، مما يوفر المرونة في التعامل مع مجموعات البيانات المعقدة.

تعمل Pandas DataFrames على تمكين المستخدمين من خلال مجموعة واسعة من الوظائف. بدءًا من إنشاء بيانات منظمة باستخدام القواميس أو هياكل البيانات الأخرى وحتى استخدام فهرسة قوية للوصول السلس إلى البيانات، تسهل Pandas معالجة البيانات دون عناء. توفر المكتبة واجهة بديهية لتنفيذ العمليات مثل تصفية الصفوف بناءً على الشروط، وتجميع البيانات للتجميع، وإجراء التحليلات الإحصائية بسهولة.

يمكننا استيراد DataFrames من وحدة التخزين الخارجية؛ يمكن الإشارة إلى هذه المخازن باسم SQL قاعدة البيانات وملف CSV وملف Excel. يمكننا أيضًا استخدام القوائم والقاموس ومن قائمة القاموس وما إلى ذلك.

في هذا البرنامج التعليمي، سوف نتعلم كيفية إنشاء إطار البيانات بطرق متعددة. دعونا نفهم هذه الطرق المختلفة.

أولاً، نحتاج إلى تثبيت مكتبة الباندا في ملف بايثون بيئة.

إطار بيانات فارغ

يمكننا إنشاء Dataframe فارغ أساسي. يجب استدعاء مُنشئ dataframe لإنشاء DataFrame. دعونا نفهم المثال التالي.

مثال -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

انتاج:

 Empty DataFrame Columns: [] Index: []  

الطريقة - 2: إنشاء إطار بيانات باستخدام القائمة

يمكننا إنشاء إطار بيانات باستخدام قائمة واحدة أو قائمة قوائم. دعونا نفهم المثال التالي.

مثال -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

انتاج:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

توضيح:

  • استيراد الباندا: استيراد الباندا كـ pd يستورد مكتبة Pandas ويطلق عليها ألقاب كـ pd للاقتضاب.
  • إنشاء قائمة: lst عبارة عن قائمة تحتوي على قيم سلسلة تتناول لهجات البرمجة.
  • تطوير DataFrame: يقوم pd.DataFrame(lst) بإنشاء DataFrame من قائمة lst المتهدمة. بالطبع، عند تقديم قائمة فردية، يقوم Pandas بإنشاء DataFrame بقسم واحد.
  • طباعة DataFrame: طباعة (dframe) تطبع DataFrame اللاحق.

الطريقة - 3: إنشاء Dataframe من dict of ndarray/lists

يمكن استخدام إملاء ndarray/lists لإنشاء إطار بيانات، كل ذلك ndarray يجب أن تكون بنفس الطول. سيكون الفهرس عبارة عن نطاق (n) افتراضيًا؛ حيث يشير n إلى طول المصفوفة. دعونا نفهم المثال التالي.

مثال -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

انتاج:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

توضيح:

  • استيراد الباندا: استيراد الباندا كـ pd يستورد مكتبة Pandas ويطلق عليها ألقابًا كـ pd.
  • إنشاء قاموس: المعلومات عبارة عن مرجع للكلمات حيث المفاتيح هي أسماء المقاطع ('الاسم' و'العمر')، والقيم هي سجلات تحتوي على معلومات ذات صلة.
  • تطوير DataFrame: يقوم pd.DataFrame(data) بإنشاء DataFrame من مرجع الكلمة. تصبح المفاتيح أسماء الأقسام، وتتحول الملخصات إلى المقاطع.
  • طباعة DataFrame: تقوم الطباعة (df) بطباعة DataFrame اللاحق.

الطريقة - 4: إنشاء إطار بيانات الفهارس باستخدام المصفوفات

دعونا نفهم المثال التالي لإنشاء إطار بيانات الفهارس باستخدام المصفوفات.

مثال -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

انتاج:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

توضيح:

  • استيراد الباندا: استيراد الباندا كـ pd يستورد مكتبة Pandas ويطلق عليها ألقابًا كـ pd.
  • إنشاء قاموس: المعلومات عبارة عن مرجع للكلمات حيث المفاتيح هي أسماء المقاطع ('الاسم' و'التقييمات')، والقيم هي سجلات تحتوي على معلومات ذات صلة.
  • تطوير DataFrame: يقوم pd.DataFrame(data, Index=['position1', 'position2', 'position3', 'position4']) بإنشاء DataFrame من مرجع الكلمة. يتم تخصيص القائمة المحددة مسبقًا للخطوط.
  • طباعة DataFrame: تقوم الطباعة (df) بطباعة DataFrame اللاحق.

الطريقة - 5: إنشاء Dataframe من قائمة الإملاءات

يمكننا تمرير قوائم القواميس كبيانات إدخال لإنشاء إطار بيانات Pandas. يتم أخذ أسماء الأعمدة كمفاتيح بشكل افتراضي. دعونا نفهم المثال التالي.

مثال -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

انتاج:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

دعونا نفهم مثالًا آخر لإنشاء إطار بيانات الباندا من قائمة القواميس التي تحتوي على فهرس الصفوف وكذلك فهرس العمود.

توضيح:

  • استيراد الباندا: استيراد الباندا كـ pd يستورد مكتبة Pandas ويطلق عليها ألقابًا كـ pd.
  • إنشاء قائمة وقاموس: المعلومات عبارة عن ملخص حيث يكون كل مكون عبارة عن مرجع كلمة يتناول عمودًا في DataFrame. تصبح مفاتيح مراجع الكلمات أسماء المقاطع.
  • تطوير DataFrame: يقوم pd.DataFrame(data) بإنشاء DataFrame من قائمة مراجع الكلمات. تصبح مفاتيح مراجع الكلمات أقسامًا، والصفات تصبح المعلومات الموجودة في DataFrame.
  • طباعة DataFrame: تقوم الطباعة (df) بطباعة DataFrame اللاحق.

مثال - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

انتاج:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

توضيح:

يتم استخدام مكتبة الباندا لإنشاء إطاري بيانات مميزين، يُقصد بهما dframe1 وdframe2، بدءًا من قائمة مراجع الكلمات المسماة بالمعلومات. تعمل مراجع الكلمات هذه بمثابة تصوير للخطوط الفردية داخل DataFrames، حيث ترتبط المفاتيح بأسماء المقاطع وتتناول الصفات ذات الصلة المعلومات ذات الصلة. يبدأ DataFrame الأساسي، dframe1، بملفات سطر صريحة ('الأول' و'الثاني') وسجلات الأقسام ('x' و'y'). وبالتالي، يتم إنشاء DataFrame ثانٍ، dframe2، باستخدام مجموعة معلومات مماثلة ولكن مع وجود تباين في ملفات الأقسام، والتي يُشار إليها صراحةً باسم 'x' و'y1'. يتم إغلاق الكود عن طريق طباعة كل من DataFrame إلى مركز التحكم، مع توضيح تصميمات القسم المعينة لكل DataFrame. يعمل هذا الكود كمخطط تفصيلي شامل لإنشاء DataFrame والتحكم فيه داخل مكتبة الباندا، مما يوفر تجارب حول كيفية تنفيذ التنوعات في سجلات الأقسام.

مثال - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

انتاج:

 x y z first 2 NaN 3 second 10 20.0 30  

توضيح:

في كود بايثون هذا، تم تطوير Pandas DataFrame باستخدام مكتبة الباندا من خلال توفير ترتيبات لمراجع الكلمات وتحديد سجلات الأعمدة. تبدأ الدورة باستيراد مكتبة الباندا، المعينة بالاسم الزائف 'pd' للإيجاز. ومن ثم، يتم تمييز قائمة مراجع الكلمات المسماة بالمعلومات، حيث يتناول كل مرجع كلمة سطرًا من DataFrame. المفاتيح الموجودة داخل مراجع الكلمات هذه تعني أسماء المقاطع، بينما تشير القيم ذات الصلة إلى أجزاء المعلومات المهمة.

يتم بعد ذلك إنشاء DataFrame، المشار إليه باسم dframe، باستخدام مُنشئ pd.DataFrame()، ودمج المعلومات المقدمة وتعيين سجلات السطر بشكل صريح على 'الأول' و'الثاني'. يعرض DataFrame اللاحق تصميمًا متساويًا يحتوي على أقسام تسمى 'x' و'y' و'z'. تتم الإشارة إلى أي صفات مفقودة باسم 'NaN'.

الطريقة - 6: إنشاء Dataframe باستخدام الدالة zip()

يتم استخدام الدالة zip() لدمج القائمتين. دعونا نفهم المثال التالي.

مثال -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

انتاج:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

توضيح:

يُظهر كود Python إنتاج Pandas DataFrame من سجلين، على وجه التحديد 'الاسم' و'الطوابع'، من خلال الاستفادة من مكتبة الباندا وإمكانية الضغط. بعد استيراد مكتبة الباندا، يتم تمييز سجلات 'الاسم' و'الشيكات'، والتي تتناول الأقسام المثالية في DataFrame. يتم استخدام القدرة المضغوطة لربط المكونات المقارنة من هذه الملخصات إلى صفوف، وتأطير قائمة أخرى تسمى list_tuples.

يقوم الكود بعد ذلك، عند هذه النقطة، بطباعة قائمة المجموعات لإلقاء نظرة سريعة على المعلومات المرتبطة. وبالتالي، يتم إنشاء Pandas DataFrame المسمى dframe باستخدام مُنشئ pd.DataFrame()، حيث يتم تغيير قائمة المجموعات إلى تكوين متساوٍ منظم. يتم تخصيص المقطعين 'الاسم' و'الطوابع' بشكل لا لبس فيه أثناء عملية إنشاء DataFrame هذه.

الطريقة - 7: إنشاء Dataframe من إملاءات السلسلة

يمكن تمرير القاموس لإنشاء إطار بيانات. يمكننا استخدام إملاءات السلسلة حيث يكون الفهرس التالي هو اتحاد كل سلاسل قيمة الفهرس التي تم تمريرها. دعونا نفهم المثال التالي.

مثال -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

انتاج:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

توضيح:

في كود Python هذا، يتم إنشاء Pandas DataFrame من مراجع الكلمات للسلسلة باستخدام مكتبة الباندا. تتم معالجة موضوعين، 'الأدوات' و'المشترك'، كأقسام، ويتم تنسيق الدرجات الفردية ذات الملفات الصريحة في DataFrame المسمى dframe. تتم طباعة البناء البسيط التالي على مركز التحكم، مما يوضح تقنية مدمجة لتنسيق المعلومات المميزة والتحقق منها باستخدام الباندا.

في هذا البرنامج التعليمي، ناقشنا الطرق المختلفة لإنشاء DataFrames.