Wie erstelle ich einen DataFrame in Python?

Ein Datenrahmen ist eine zweidimensionale Sammlung von Daten. Es handelt sich um eine Datenstruktur, in der Daten in Tabellenform gespeichert werden. Datensätze sind in Zeilen und Spalten angeordnet; Wir können mehrere Datensätze im Datenrahmen speichern. Wir können verschiedene arithmetische Operationen ausführen, z. B. das Hinzufügen einer Spalten-/Zeilenauswahl und von Spalten/Zeilen im Datenrahmen.

In Python dient ein DataFrame, eine zentrale Komponente der Pandas-Bibliothek, als umfassender zweidimensionaler Datencontainer. Es ähnelt einer Tabelle und fasst Daten klar zusammen, indem es Zeilen und Spalten verwendet, die jeweils mit einem eindeutigen Index ausgestattet sind. Seine Vielseitigkeit ermöglicht die Unterbringung verschiedener Datentypen in Spalten und bietet so Flexibilität bei der Handhabung komplexer Datensätze.

Pandas DataFrames bieten Benutzern eine umfangreiche Palette an Funktionen. Von der Erstellung strukturierter Daten mithilfe von Wörterbüchern oder anderen Datenstrukturen bis hin zur Verwendung einer robusten Indizierung für einen nahtlosen Datenzugriff ermöglicht Pandas eine mühelose Datenbearbeitung. Die Bibliothek bietet eine intuitive Schnittstelle zum einfachen Ausführen von Vorgängen wie dem Filtern von Zeilen basierend auf Bedingungen, dem Gruppieren von Daten für die Aggregation und dem Durchführen statistischer Analysen.

Wir können die DataFrames aus dem externen Speicher importieren; Diese Speicher können als bezeichnet werden SQL Datenbank, CSV-Datei und eine Excel-Datei. Wir können auch Listen, Wörterbücher, Wörterbücher aus Listen usw. verwenden.

In diesem Tutorial lernen wir, den Datenrahmen auf verschiedene Arten zu erstellen. Lassen Sie uns diese verschiedenen Möglichkeiten verstehen.

Zuerst müssen wir die Pandas-Bibliothek im installieren Python Umfeld.

Ein leerer Datenrahmen

Wir können einen einfachen leeren Datenrahmen erstellen. Der Datenrahmenkonstruktor muss aufgerufen werden, um den Datenrahmen zu erstellen. Lassen Sie uns das folgende Beispiel verstehen.

Beispiel -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Ausgabe:

 Empty DataFrame Columns: [] Index: []  

Methode – 2: Erstellen Sie einen Datenrahmen mit List

Wir können Datenrahmen mithilfe einer einzelnen Liste oder einer Liste von Listen erstellen. Lassen Sie uns das folgende Beispiel verstehen.

Beispiel -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Ausgabe:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Erläuterung:

  • Pandas importieren: „Pandas als PD importieren“ importiert die Pandas-Bibliothek und gibt ihr aus Gründen der Kürze den Spitznamen „pd“.
  • Liste erstellen: lst ist eine Übersicht mit Zeichenfolgewerten, die sich mit Programmierdialekten befassen.
  • DataFrame-Entwicklung: pd.DataFrame(lst) erstellt einen DataFrame aus dem heruntergekommenen lst. Wenn eine einzelne Übersicht gegeben wird, erstellt Pandas natürlich einen DataFrame mit einem einzelnen Abschnitt.
  • DataFrame drucken: print(dframe) druckt den nachfolgenden DataFrame.

Methode – 3: Erstellen Sie einen Datenrahmen aus dem Diktat von ndarray/lists

Das Diktat von ndarray/lists kann zum Erstellen eines Datenrahmens verwendet werden ndarray müssen gleich lang sein. Der Index ist standardmäßig ein Bereich(n). wobei n die Array-Länge bezeichnet. Lassen Sie uns das folgende Beispiel verstehen.

Beispiel -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Ausgabe:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Erläuterung:

  • Pandas importieren: „Pandas als PD importieren“ importiert die Pandas-Bibliothek und gibt ihr den Spitznamen „pd“.
  • Wörterbuch erstellen: Informationen sind eine Wortreferenz, bei der Schlüssel Segmentnamen („Name“ und „Alter“) und Werte Datensätze sind, die zugehörige Informationen enthalten.
  • DataFrame-Entwicklung: pd.DataFrame(data) erstellt einen DataFrame aus der Wortreferenz. Die Schlüssel werden zu Abschnittsnamen und die Zusammenfassungen zu den Segmenten.
  • DataFrame drucken: print(df) druckt den nachfolgenden DataFrame.

Methode – 4: Erstellen Sie einen Indexdatenrahmen mithilfe von Arrays

Lassen Sie uns das folgende Beispiel verstehen, um den Indexdatenrahmen mithilfe von Arrays zu erstellen.

Beispiel -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Ausgabe:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Erläuterung:

  • Pandas importieren: „Pandas als PD importieren“ importiert die Pandas-Bibliothek und gibt ihr den Spitznamen „pd“.
  • Wörterbuch erstellen: Informationen sind eine Wortreferenz, bei der Schlüssel Segmentnamen („Name“ und „Bewertungen“) und Werte Datensätze sind, die zugehörige Informationen enthalten.
  • DataFrame-Entwicklung: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) erstellt einen DataFrame aus der Wortreferenz. Den Zeilen ist die vordefinierte Liste zugeordnet.
  • DataFrame drucken: print(df) druckt den nachfolgenden DataFrame.

Methode – 5: Erstellen Sie einen Datenrahmen aus der Diktatliste

Wir können die Listen der Wörterbücher als Eingabedaten übergeben, um den Pandas-Datenrahmen zu erstellen. Die Spaltennamen werden standardmäßig als Schlüssel verwendet. Lassen Sie uns das folgende Beispiel verstehen.

Beispiel -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Ausgabe:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Sehen wir uns ein weiteres Beispiel an, um den Pandas-Datenrahmen aus einer Liste von Wörterbüchern mit Zeilenindex und Spaltenindex zu erstellen.

Erläuterung:

  • Pandas importieren: „Pandas als PD importieren“ importiert die Pandas-Bibliothek und gibt ihr den Spitznamen „pd“.
  • Liste und Wörterbuch erstellen: Informationen sind eine Übersicht, bei der jede Komponente eine Wortreferenz ist, die eine Spalte im DataFrame anspricht. Die Schlüssel der Wortreferenzen werden zu Segmentnamen.
  • DataFrame-Entwicklung: pd.DataFrame(data) erstellt einen DataFrame aus der Auflistung der Wortreferenzen. Die Schlüssel der Wortverweise werden zu Abschnitten und die Eigenschaften werden zu den Informationen im DataFrame.
  • DataFrame drucken: print(df) druckt den nachfolgenden DataFrame.

Beispiel – 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Ausgabe:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Erläuterung:

Die Pandas-Bibliothek wird verwendet, um zwei eindeutige DataFrames zu erstellen, die als dframe1 und dframe2 bezeichnet werden, ausgehend von einer Liste von Wortreferenzen mit dem Namen „Information“. Diese Wortverweise fungieren als Darstellungen einzelner Zeilen innerhalb der DataFrames, wobei sich die Schlüssel auf Segmentnamen beziehen und die zugehörigen Eigenschaften die relevanten Informationen ansprechen. Der zugrunde liegende DataFrame, dframe1, wird mit expliziten Zeilendateien („first“ und „second“) und Abschnittsdatensätzen („x“ und „y“) gestartet. Daher wird ein zweiter DataFrame, dframe2, erstellt, der eine ähnliche Informationssammlung verwendet, jedoch eine Ungleichheit in den Abschnittsdateien aufweist, die explizit als „x“ und „y1“ gekennzeichnet sind. Der Code schließt mit dem Drucken beider DataFrames im Kontrollzentrum und verdeutlicht so die jeweiligen Abschnittsdesigns jedes DataFrames. Dieser Code stellt einen ausführlichen Überblick über die Erstellung und Steuerung von DataFrames innerhalb der Pandas-Bibliothek dar und bietet Erfahrungen darüber, wie Varianten in Abschnittsdatensätzen ausgeführt werden können.

Beispiel - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Ausgabe:

 x y z first 2 NaN 3 second 10 20.0 30  

Erläuterung:

In diesem Python-Code wird ein Pandas-DataFrame unter Verwendung der Pandas-Bibliothek entwickelt, indem Wortreferenzen angeordnet und Spaltendatensätze festgelegt werden. Der Zyklus beginnt mit dem Import der Pandas-Bibliothek, der der Kürze halber der falsche Name „pd“ zugewiesen wurde. Daher wird eine Auflistung von Wortreferenzen mit dem Namen „Informationen“ charakterisiert, wobei jede Wortreferenz eine Zeile des DataFrame adressiert. Die Schlüssel in diesen Wortverweisen bedeuten die Segmentnamen, während die zugehörigen Werte die wichtigen Informationen angeben.

Der DataFrame, bezeichnet als dframe, wird dann mithilfe des pd.DataFrame()-Konstruktors erstellt, der die bereitgestellten Informationen konsolidiert und die Zeilendaten ausdrücklich auf „erster“ und „zweiter“ setzt. Der nachfolgende DataFrame zeigt ein gleichmäßiges Design mit Abschnitten mit den Namen „x“, „y“ und „z“. Alle fehlenden Eigenschaften werden mit „NaN“ gekennzeichnet.

Methode – 6: Erstellen Sie einen Datenrahmen mit der Funktion zip()

Die Funktion zip() wird verwendet, um die beiden Listen zusammenzuführen. Lassen Sie uns das folgende Beispiel verstehen.

Beispiel -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Ausgabe:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Erläuterung:

Dieser Python-Code zeigt die Erstellung eines Pandas-Datenrahmens aus zwei Datensätzen, insbesondere „Name“ und „Stamps“, unter Verwendung der Pandas-Bibliothek und der Komprimierungsfunktion. Nach dem Import der Pandas-Bibliothek werden die Datensätze „Name“ und „Checks“ charakterisiert und adressieren die idealen Abschnitte des DataFrame. Die Zip-Funktion wird verwendet, um vergleichende Komponenten aus diesen Übersichten zu Tupeln zusammenzufassen und so eine weitere Übersicht mit dem Namen „list_tuples“ zu bilden.

An diesem Punkt gibt der Code dann die Zusammenfassung der Tupel aus, um einen kurzen Einblick in die verknüpften Informationen zu geben. Folglich wird mithilfe des pd.DataFrame()-Konstruktors ein Pandas-DataFrame namens dframe erstellt, wobei die Auflistung der Tupel in eine organisierte, gerade Konfiguration geändert wird. Die Segmente „Name“ und „Stamps“ werden bei diesem DataFrame-Erstellungsprozess eindeutig zugeordnet.

Methode – 7: Erstellen Sie einen Datenrahmen aus Dicts of Series

Das Wörterbuch kann übergeben werden, um einen Datenrahmen zu erstellen. Wir können die Diktate von Reihen verwenden, bei denen der nachfolgende Index die Vereinigung aller Reihen der übergebenen Indexwerte ist. Lassen Sie uns das folgende Beispiel verstehen.

Beispiel -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Ausgabe:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Erläuterung:

In diesem Python-Code wird ein Pandas-DataFrame aus Wortverweisen von Serien unter Verwendung der Pandas-Bibliothek erstellt. Zwei Themen, „Gadgets“ und „Common“, werden als Abschnitte behandelt, und einzelne Partituren mit expliziten Dateien werden in einem DataFrame namens dframe koordiniert. Die anschließende einfache Konstruktion wird an das Kontrollzentrum gesendet und zeigt eine kompakte Technik zur Koordinierung und Untersuchung markierter Informationen mithilfe von Pandas.

In diesem Tutorial haben wir die verschiedenen Möglichkeiten zum Erstellen der DataFrames besprochen.