Comment créer un DataFrame en Python ?

Un Data Frame est une collection de données à deux dimensions. Il s'agit d'une structure de données dans laquelle les données sont stockées sous forme de tableau. Les ensembles de données sont organisés en lignes et en colonnes ; nous pouvons stocker plusieurs ensembles de données dans le bloc de données. Nous pouvons effectuer diverses opérations arithmétiques, telles que l'ajout d'une sélection de colonnes/lignes et de colonnes/lignes dans le bloc de données.

En Python, un DataFrame, un composant essentiel de la bibliothèque Pandas, sert de conteneur de données bidimensionnel complet. Ressemblant à un tableau, il encapsule les données avec clarté, en employant des lignes et des colonnes, chacune dotée d'un index distinctif. Sa polyvalence permet d'héberger divers types de données dans des colonnes, offrant ainsi une flexibilité dans la gestion d'ensembles de données complexes.

Les Pandas DataFrames offrent aux utilisateurs une large gamme de fonctionnalités. De la création de données structurées à l'aide de dictionnaires ou d'autres structures de données à l'utilisation d'une indexation robuste pour un accès transparent aux données, Pandas facilite la manipulation des données sans effort. La bibliothèque fournit une interface intuitive pour exécuter des opérations telles que le filtrage des lignes en fonction de conditions, le regroupement des données pour l'agrégation et la réalisation facile d'analyses statistiques.

Nous pouvons importer les DataFrames depuis le stockage externe ; ces stockages peuvent être appelés les SQL Base de données, fichier CSV et fichier Excel. On peut également utiliser les listes, le dictionnaire, et à partir d'une liste de dictionnaire, etc.

Dans ce didacticiel, nous apprendrons à créer le bloc de données de plusieurs manières. Comprenons ces différentes manières.

Tout d'abord, nous devons installer la bibliothèque pandas dans le Python environnement.

Une trame de données vide

Nous pouvons créer un Dataframe vide de base. Le constructeur dataframe doit être appelé pour créer le DataFrame. Comprenons l'exemple suivant.

Exemple -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Sortir:

 Empty DataFrame Columns: [] Index: []  

Méthode - 2 : Créer un dataframe à l'aide de List

Nous pouvons créer un dataframe en utilisant une seule liste ou une liste de listes. Comprenons l'exemple suivant.

Exemple -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Sortir:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Explication:

  • Import Pandas : importer des pandas en tant que pd importe la bibliothèque Pandas et la surnomme pd pour plus de brièveté.
  • Créer une liste : lst est un récapitulatif contenant des valeurs de chaîne traitant des dialectes de programmation.
  • Développement DataFrame : pd.DataFrame(lst) construit un DataFrame à partir du lst récapitulatif. Bien sûr, lorsqu'une seule liste est donnée, Pandas crée un DataFrame avec une seule section.
  • Impression du DataFrame : print(dframe) imprime le DataFrame suivant.

Méthode - 3 : Créer une trame de données à partir du dict de ndarray/lists

Le dict de ndarray/lists peut être utilisé pour créer un dataframe, tous les ndarray doit être de même longueur. L'index sera une plage (n) par défaut ; où n désigne la longueur du tableau. Comprenons l'exemple suivant.

Exemple -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Sortir:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Explication:

  • Importer Pandas : importer des pandas en tant que pd importe la bibliothèque Pandas et la surnomme pd.
  • Créer un dictionnaire : les informations sont une référence de mots où les clés sont des noms de segments ('Nom' et 'Âge') et les valeurs sont des enregistrements contenant des informations associées.
  • Développement DataFrame : pd.DataFrame(data) construit un DataFrame à partir de la référence du mot. Les clés deviennent des noms de section et les résumés deviennent des segments.
  • Impression du DataFrame : print(df) imprime le DataFrame suivant.

Méthode - 4 : Créer une trame de données d'index à l'aide de tableaux

Comprenons l'exemple suivant pour créer la trame de données des index à l'aide de tableaux.

Exemple -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Sortir:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Explication:

  • Importer Pandas : importer des pandas en tant que pd importe la bibliothèque Pandas et la surnomme pd.
  • Créer un dictionnaire : les informations sont une référence de mots où les clés sont des noms de segments ('Nom' et 'Évaluations') et les valeurs sont des enregistrements contenant des informations associées.
  • Développement DataFrame : pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) construit un DataFrame à partir de la référence du mot. La liste prédéfinie est attribuée aux lignes.
  • Impression du DataFrame : print(df) imprime le DataFrame suivant.

Méthode - 5 : Créer un Dataframe à partir d'une liste de dicts

Nous pouvons transmettre les listes de dictionnaires comme données d'entrée pour créer la trame de données Pandas. Les noms de colonnes sont pris comme clés par défaut. Comprenons l'exemple suivant.

Exemple -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Sortir:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Comprenons un autre exemple pour créer le dataframe pandas à partir d'une liste de dictionnaires avec à la fois un index de ligne et un index de colonne.

Explication:

  • Importer Pandas : importer des pandas en tant que pd importe la bibliothèque Pandas et la surnomme pd.
  • Créer une liste et un dictionnaire : les informations sont un aperçu où chaque composant est une référence de mot s'adressant à une colonne du DataFrame. Les clés des références de mots deviennent des noms de segments.
  • Développement DataFrame : pd.DataFrame(data) construit un DataFrame à partir de la liste des références de mots. Les clés des mots références deviennent des sections et les qualités deviennent les informations du DataFrame.
  • Impression du DataFrame : print(df) imprime le DataFrame suivant.

Exemple - 2 :

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Sortir:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Explication:

La bibliothèque pandas est utilisée pour créer deux DataFrames indubitables, appelés dframe1 et dframe2, à partir d'une liste de références de mots nommées informations. Ces références de mots agissent comme des représentations de lignes individuelles à l'intérieur des DataFrames, dans lesquelles les clés se rapportent aux noms de segments et les qualités associées concernent les informations pertinentes. Le DataFrame sous-jacent, dframe1, est démarré avec des fichiers de ligne explicites (« premier » et « deuxième ») et des enregistrements de section (« x » et « y »). Ainsi, un deuxième DataFrame, dframe2, est créé en utilisant une collection d'informations similaire mais avec une disparité dans les fichiers de section, explicitement signifiée par « x » et « y1 ». Le code se termine en imprimant les deux DataFrames sur le centre de contrôle, clarifiant les conceptions de section particulières de chaque DataFrame. Ce code constitue un aperçu détaillé de la création et du contrôle de DataFrame au sein de la bibliothèque pandas, offrant des expériences sur la façon dont les variétés dans les enregistrements de section peuvent être exécutées.

Exemple - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Sortir:

 x y z first 2 NaN 3 second 10 20.0 30  

Explication:

Dans ce code Python, un Pandas DataFrame est développé à l'aide de la bibliothèque pandas en donnant des arrangements de références de mots et en déterminant les enregistrements de colonnes. Le cycle commence par l'importation de la bibliothèque pandas, attribuée par le faux nom 'pd' par souci de concision. Par conséquent, un aperçu des références de mots nommés informations est caractérisé, où chaque référence de mot adresse une ligne du DataFrame. Les clés à l'intérieur de ces références de mots désignent les noms de segments, tandis que les valeurs correspondantes indiquent les informations importantes.

Le DataFrame, indiqué comme dframe, est ensuite créé à l'aide du constructeur pd.DataFrame(), consolidant les informations fournies et définissant expressément les enregistrements de ligne sur « premier » et « seconde ». Le DataFrame suivant affiche une conception uniforme avec des sections nommées « x », « y » et « z ». Toutes les qualités manquantes sont signifiées par « NaN ».

Méthode - 6 : Créer un Dataframe à l'aide de la fonction zip()

La fonction zip() permet de fusionner les deux listes. Comprenons l'exemple suivant.

Exemple -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Sortir:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Explication:

Ce code Python montre la production d'un Pandas DataFrame à partir de deux enregistrements, spécifiquement « Nom » et « Timbres », en utilisant la bibliothèque pandas et la capacité de compression. Suite à l'import de la bibliothèque pandas, les enregistrements 'Name' et 'Checks' sont caractérisés, abordant les sections idéales du DataFrame. La fonctionnalité zip est utilisée pour joindre les composants de comparaison de ces listes en tuples, encadrant une autre liste nommée list_tuples.

Le code imprime ensuite la liste des tuples pour donner un bref aperçu des informations jointes. Par conséquent, un Pandas DataFrame nommé dframe est créé à l'aide du constructeur pd.DataFrame(), dans lequel la liste des tuples est transformée en une configuration organisée et uniforme. Les segments 'Nom' et 'Stamps' sont attribués sans équivoque lors de ce processus de création de DataFrame.

Méthode - 7 : Créer une trame de données à partir de dicts de séries

Le dictionnaire peut être transmis pour créer un dataframe. Nous pouvons utiliser les Dicts de séries où l'index suivant est l'union de toutes les séries de valeur d'index passée. Comprenons l'exemple suivant.

Exemple -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Sortir:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Explication:

Dans ce code Python, un Pandas DataFrame est créé à partir de références de mots de séries utilisant la bibliothèque pandas. Deux sujets, « Gadgets » et « Commun », sont abordés sous forme de sections, et les scores individuels avec des fichiers explicites sont coordonnés dans un DataFrame nommé dframe. La structure simple suivante est imprimée au centre de contrôle, montrant une stratégie compacte pour coordonner et enquêter sur les informations marquées à l'aide de Pandas.

Dans ce tutoriel, nous avons abordé les différentes manières de créer les DataFrames.