Com crear un DataFrame a Python?
Un marc de dades és una col·lecció de dades en dues dimensions. És una estructura de dades on les dades s'emmagatzemen en forma tabular. Els conjunts de dades s'organitzen en files i columnes; podem emmagatzemar diversos conjunts de dades al marc de dades. Podem realitzar diverses operacions aritmètiques, com ara afegir una selecció de columnes/files i columnes/files al marc de dades.
A Python, un DataFrame, un component fonamental de la biblioteca Pandas, serveix com a contenidor complet de dades bidimensionals. S'assembla a una taula, encapsula les dades amb claredat, utilitzant files i columnes, cadascuna dotada d'un índex distintiu. La seva versatilitat permet l'allotjament de diversos tipus de dades dins de columnes, oferint flexibilitat en el maneig de conjunts de dades complexos.
Pandas DataFrames ofereix als usuaris una àmplia gamma de funcionalitats. Des de la creació de dades estructurades mitjançant diccionaris o altres estructures de dades fins a l'ús d'una indexació robusta per a un accés perfecte a les dades, Pandas facilita la manipulació de dades sense esforç. La biblioteca proporciona una interfície intuïtiva per executar operacions com ara filtrar files en funció de les condicions, agrupar dades per a l'agregació i realitzar anàlisis estadístiques amb facilitat.
Podem importar els DataFrames de l'emmagatzematge extern; aquests emmagatzematges es poden anomenar SQL Base de dades, fitxer CSV i un fitxer Excel. També podem utilitzar les llistes, el diccionari i una llista de diccionaris, etc.
En aquest tutorial, aprendrem a crear el marc de dades de múltiples maneres. Entenem aquestes diferents maneres.
Primer, hem d'instal·lar la biblioteca pandas al fitxer Python medi ambient.
Un marc de dades buit
Podem crear un marc de dades bàsic buit. Cal cridar el constructor del marc de dades per crear el marc de dades. Entenem l'exemple següent.
Exemple -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe
Sortida:
Empty DataFrame Columns: [] Index: []
Mètode - 2: creeu un marc de dades mitjançant List
Podem crear un marc de dades utilitzant una única llista o llista de llistes. Entenem l'exemple següent.
Exemple -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe
Sortida:
0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go
Explicació:
- Importa pandes: importa pandes com a pd importa la biblioteca Pandas i l'anomena com a pd per a la curta.
- Crear llista: lst és un resum que conté valors de cadena que s'adrecen als dialectes de programació.
- Desenvolupament de DataFrame: pd.DataFrame(lst) crea un DataFrame a partir del resum lst. Per descomptat, quan es dóna un resum solitari, Pandas fa un DataFrame amb una secció solitària.
- Impressió del DataFrame: print(dframe) imprimeix el DataFrame posterior.
Mètode - 3: creeu un marc de dades a partir de dict de ndarray/listes
El dictat de ndarray/lists es pot utilitzar per crear un marc de dades, tot ndarray ha de ser de la mateixa longitud. L'índex serà un rang(n) per defecte; on n indica la longitud de la matriu. Entenem l'exemple següent.
Exemple -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe Sortida:
Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18
Explicació:
- Importa pandes: importa pandes com a pd importa la biblioteca Pandas i l'anomena pd.
- Crea un diccionari: la informació és una referència de paraules on les claus són noms de segments ('Nom' i 'Edat') i els valors són registres que contenen informació relacionada.
- Desenvolupament de DataFrame: pd.DataFrame(data) crea un DataFrame a partir de la referència de la paraula. Les claus es converteixen en noms de secció i els resums es converteixen en segments.
- Impressió del DataFrame: print(df) imprimeix el DataFrame posterior.
Mètode 4: creeu un marc de dades d'índexs mitjançant matrius
Entenem l'exemple següent per crear el marc de dades dels índexs mitjançant matrius.
Exemple -
# Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df) Sortida:
Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0
Explicació:
- Importa pandes: importa pandes com a pd importa la biblioteca Pandas i l'anomena pd.
- Crea diccionari: la informació és una referència de paraules on les claus són noms de segment ('Nom' i 'Avaluacions') i els valors són registres que contenen informació relacionada.
- Desenvolupament de DataFrame: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) crea un DataFrame a partir de la referència de la paraula. La llista predefinida s'assigna a les línies.
- Impressió del DataFrame: print(df) imprimeix el DataFrame posterior.
Mètode 5: creeu un marc de dades a partir de la llista de dictats
Podem passar les llistes de diccionaris com a dades d'entrada per crear el marc de dades Pandas. Els noms de les columnes es prenen com a claus per defecte. Entenem l'exemple següent.
Exemple -
# Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df) Sortida:
A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0
Entendrem un altre exemple per crear el marc de dades pandas a partir de la llista de diccionaris tant amb un índex de fila com amb un índex de columnes.
Explicació:
- Importa pandes: importa pandes com a pd importa la biblioteca Pandas i l'anomena pd.
- Crea una llista i un diccionari: la informació és un resum on cada component és una referència de paraula que s'adreça a una columna del DataFrame. Les claus de les referències de paraules es converteixen en noms de segment.
- Desenvolupament de DataFrame: pd.DataFrame(data) crea un DataFrame a partir del resum de referències de paraules. Les claus de les referències de paraules es converteixen en seccions i les qualitats es converteixen en la informació del DataFrame.
- Impressió del DataFrame: print(df) imprimeix el DataFrame posterior.
Exemple - 2:
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2) Sortida:
x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN
Explicació:
La biblioteca pandas s'utilitza per crear dos DataFrames inconfusibles, anomenats dframe1 i dframe2, a partir d'un resum de referències de paraules anomenades informació. Aquestes referències de paraules actuen com a representacions de línies individuals dins dels DataFrames, on les claus es relacionen amb els noms dels segments i les qualitats relacionades aborden la informació rellevant. El DataFrame subjacent, dframe1, s'inicia amb fitxers de línia explícits ('primer' i 'segon') i registres de secció ('x' i 'y'). Així, es crea un segon DataFrame, dframe2, utilitzant una col·lecció d'informació similar però amb una disparitat en els fitxers de secció, expressament significats com 'x' i 'y1'. El codi es tanca imprimint tots dos DataFrame al centre de control, aclarint els dissenys de secció particulars de cada DataFrame. Aquest codi s'omple com un ampli esquema de creació i control de DataFrame dins de la biblioteca pandas, oferint experiències sobre com es poden executar varietats en registres de secció.
Exemple - 3
# The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe) Sortida:
x y z first 2 NaN 3 second 10 20.0 30
Explicació:
En aquest codi de Python, s'ha desenvolupat un Pandas DataFrame utilitzant la biblioteca pandas, donant arranjaments de referències de paraules i determinant registres de columnes. El cicle comença amb la importació de la biblioteca pandas, assignada amb el nom fals 'pd' per a la brevetat. Per tant, es caracteritza un resum de referències de paraules anomenades informació, on cada referència de paraula s'adreça a una línia del DataFrame. Les claus dins d'aquestes referències de paraules signifiquen els noms dels segments, mentre que els valors relacionats indiquen les dades importants.
El DataFrame, indicat com a dframe, es fa mitjançant el constructor pd.DataFrame(), consolidant la informació donada i establint expressament els registres de línia a 'primer' i 'segon'. El DataFrame posterior mostra un disseny parell amb seccions anomenades 'x', 'y' i 'z'. Qualsevol qualitat que falti es significa 'NaN'.
Mètode 6: creeu un marc de dades mitjançant la funció zip().
La funció zip() s'utilitza per combinar les dues llistes. Entenem l'exemple següent.
Exemple -
# The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)
Sortida:
[('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47
Explicació:
Aquest codi de Python mostra la producció d'un Pandas DataFrame a partir de dos registres, específicament 'Nom' i 'Segells', mitjançant la utilització de la biblioteca pandas i la capacitat de compressió. Després de la importació de la biblioteca pandas, es caracteritzen els registres 'Nom' i 'Comprovacions', adreçant-se a les seccions ideals del DataFrame. La capacitat de zip s'utilitza per unir components de comparació d'aquests resums en tuples, emmarcant un altre resum anomenat list_tuples.
Aleshores, el codi, en aquest moment, imprimeix el resum de tuples per donar un cop d'ull a la informació unida. En conseqüència, un Pandas DataFrame anomenat dframe es fa utilitzant el constructor pd.DataFrame(), on el resum de tuples es canvia a una configuració uniforme organitzada. Els segments 'Nom' i 'Segells' s'assignen de manera inequívoca durant aquest procés de creació de DataFrame.
Mètode - 7: crear un marc de dades a partir de Dicts de sèrie
El diccionari es pot passar per crear un marc de dades. Podem utilitzar els Dicts de sèrie on l'índex posterior és la unió de totes les sèries de valor d'índex passat. Entenem l'exemple següent.
Exemple -
# Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe) Sortida:
Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96
Explicació:
En aquest codi de Python, un Pandas DataFrame es fa a partir de referències de paraules de sèries que utilitzen la biblioteca pandas. Dos temes, 'Gadgets' i 'Comú', s'aborden com a seccions, i les puntuacions individuals amb fitxers explícits es coordinen en un DataFrame anomenat dframe. La construcció plana posterior s'imprimeix al centre de control, mostrant una tècnica compacta per coordinar i investigar la informació marcada utilitzant Pandas.
En aquest tutorial, hem parlat de les diferents maneres de crear els DataFrames.