Kako ustvariti DataFrame v Pythonu?

Podatkovni okvir je dvodimenzionalna zbirka podatkov. Je podatkovna struktura, kjer so podatki shranjeni v obliki tabele. Nabori podatkov so urejeni v vrsticah in stolpcih; v podatkovni okvir lahko shranimo več nizov podatkov. Izvajamo lahko različne aritmetične operacije, kot je dodajanje izbora stolpcev/vrstic in stolpcev/vrstic v podatkovnem okviru.

V Pythonu DataFrame, ključna komponenta knjižnice Pandas, služi kot obsežen vsebnik dvodimenzionalnih podatkov. Podoben tabeli jasno zajema podatke z uporabo vrstic in stolpcev, od katerih ima vsak poseben indeks. Njegova vsestranskost omogoča namestitev različnih vrst podatkov znotraj stolpcev, kar omogoča prilagodljivost pri ravnanju s kompleksnimi nizi podatkov.

Pandas DataFrames opolnomočijo uporabnike z obsežno paleto funkcionalnosti. Od ustvarjanja strukturiranih podatkov z uporabo slovarjev ali drugih podatkovnih struktur do uporabe robustnega indeksiranja za nemoten dostop do podatkov, Pandas omogoča preprosto manipulacijo podatkov. Knjižnica ponuja intuitiven vmesnik za izvajanje operacij, kot je filtriranje vrstic na podlagi pogojev, združevanje podatkov v skupine za združevanje in enostavno izvajanje statističnih analiz.

DataFrame lahko uvozimo iz zunanjega pomnilnika; ta skladišča lahko imenujemo SQL Baza podatkov, datoteka CSV in datoteka Excel. Uporabimo lahko tudi sezname, slovar in iz seznama slovarja itd.

V tej vadnici se bomo naučili ustvariti podatkovni okvir na več načinov. Razumejmo te različne načine.

Najprej moramo namestiti knjižnico pandas v Python okolju.

Prazen podatkovni okvir

Ustvarimo lahko osnovni prazen Dataframe. Za ustvarjanje DataFrame je treba poklicati konstruktor podatkovnega okvira. Razumejmo naslednji primer.

Primer -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Izhod:

 Empty DataFrame Columns: [] Index: []  

Metoda - 2: ustvarite podatkovni okvir s seznamom

Podatkovni okvir lahko ustvarimo z enim samim seznamom ali seznamom seznamov. Razumejmo naslednji primer.

Primer -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Izhod:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Pojasnilo:

  • Import Pandas: uvoz pand kot pd uvozi knjižnico Pandas in jo imenuje kot pd zaradi skromnosti.
  • Ustvari seznam: lst je povzetek, ki vsebuje vrednosti nizov, ki obravnavajo programska narečja.
  • Razvoj DataFrame: pd.DataFrame(lst) zgradi DataFrame iz povzetka lst. Seveda, ko je podan samoten povzetek, Pandas naredi DataFrame z osamljenim odsekom.
  • Tiskanje DataFrame: print(dframe) natisne naslednji DataFrame.

Metoda - 3: Ustvari podatkovni okvir iz dict ndarray/lists

Dikt ndarray/lists se lahko uporabi za ustvarjanje podatkovnega okvirja, vse ndarray morajo biti enake dolžine. Indeks bo privzeto obseg(n); kjer n označuje dolžino niza. Razumejmo naslednji primer.

Primer -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Izhod:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Pojasnilo:

  • Import Pandas: uvoz pand kot pd uvozi knjižnico Pandas in jo imenuje kot pd.
  • Ustvari slovar: informacija je referenca besed, kjer so ključi imena segmentov ('Ime' in 'Starost'), vrednosti pa so zapisi, ki vsebujejo povezane informacije.
  • Razvoj DataFrame: pd.DataFrame(data) zgradi DataFrame iz besede reference. Ključi postanejo imena razdelkov, povzetki pa segmenti.
  • Tiskanje DataFrame: print(df) natisne naslednji DataFrame.

4. način: ustvarite podatkovni okvir indeksov z uporabo nizov

Razumejmo naslednji primer za ustvarjanje podatkovnega okvira indeksov z uporabo nizov.

Primer -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Izhod:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Pojasnilo:

  • Import Pandas: uvoz pand kot pd uvozi knjižnico Pandas in jo imenuje kot pd.
  • Ustvari slovar: informacija je referenca besed, kjer so ključi imena segmentov ('Ime' in 'Ocene'), vrednosti pa so zapisi, ki vsebujejo povezane informacije.
  • Razvoj DataFrame: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) zgradi DataFrame iz besede reference. Vnaprej določen seznam je dodeljen linijam.
  • Tiskanje DataFrame: print(df) natisne naslednji DataFrame.

Metoda - 5: Ustvari Dataframe s seznama dikt

Sezname slovarjev lahko posredujemo kot vhodne podatke za ustvarjanje podatkovnega okvira Pandas. Imena stolpcev so privzeto vzeta kot ključi. Razumejmo naslednji primer.

Primer -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Izhod:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Oglejmo si še en primer za ustvarjanje podatkovnega okvira pandas iz seznama slovarjev z indeksom vrstic in stolpcev.

Pojasnilo:

  • Import Pandas: uvoz pand kot pd uvozi knjižnico Pandas in jo imenuje kot pd.
  • Ustvari seznam in slovar: informacije so povzetek, kjer je vsaka komponenta sklic na besedo, ki naslavlja stolpec v DataFrame. Ključi referenc besed postanejo imena segmentov.
  • Razvoj DataFrame: pd.DataFrame(data) zgradi DataFrame iz niza besednih referenc. Ključi referenc besed postanejo razdelki, kakovosti pa informacije v DataFrame.
  • Tiskanje DataFrame: print(df) natisne naslednji DataFrame.

Primer - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Izhod:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Pojasnilo:

Knjižnica pandas se uporablja za izdelavo dveh nezmotljivih podatkovnih okvirov, mišljenih kot dframe1 in dframe2, začenši s povzetkom besednih referenc, imenovanih informacije. Te besedne reference delujejo kot prikazi posameznih vrstic znotraj DataFrames, pri čemer se ključi nanašajo na imena segmentov, povezane lastnosti pa obravnavajo ustrezne informacije. Osnovni DataFrame, dframe1, se zažene z eksplicitnimi vrstičnimi datotekami ('prva' in 'druga') in zapisi razdelkov ('x' in 'y'). Tako je drugi DataFrame, dframe2, ustvarjen z uporabo podobne zbirke informacij, vendar z neskladjem v datotekah odsekov, izrecno označenih z 'x' in 'y1'. Koda se zapre tako, da natisne oba okvira DataFrame v nadzorni center, s čimer se razjasnijo posebne zasnove razdelkov vsakega okvira podatkov. Ta koda predstavlja obsežen oris ustvarjanja in nadzora DataFrame v knjižnici pandas, ki ponuja izkušnje o tem, kako je mogoče izvesti različice v zapisih razdelkov.

Primer - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Izhod:

 x y z first 2 NaN 3 second 10 20.0 30  

Pojasnilo:

V tej kodi Python je Pandas DataFrame razvit z uporabo knjižnice pandas z razporeditvijo besednih referenc in določanjem zapisov stolpcev. Cikel se začne z uvozom knjižnice pand, ki ji je zaradi kratkosti dodeljeno lažno ime 'pd'. Zato je značilen niz besednih sklicev z imenom informacije, kjer vsaka besedna referenca naslavlja vrstico DataFrame. Ključi znotraj teh besednih sklicev pomenijo imena segmentov, medtem ko ustrezne vrednosti označujejo pomembne dele informacij.

DataFrame, označen kot dframe, je nato narejen z uporabo konstruktorja pd.DataFrame(), ki združuje podane informacije in izrecno nastavi vrstične zapise na 'prvi' in 'drugi'. Naslednji DataFrame prikazuje enakomerno zasnovo z odseki z imenom 'x', 'y' in 'z'. Vse manjkajoče lastnosti so označene z 'NaN'.

Metoda - 6: Ustvarite Dataframe s funkcijo zip().

Funkcija zip() se uporablja za združitev dveh seznamov. Razumejmo naslednji primer.

Primer -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Izhod:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Pojasnilo:

Ta koda Python prikazuje izdelavo Pandas DataFrame iz dveh zapisov, zlasti 'Name' in 'Stamps', z uporabo knjižnice pandas in zmožnosti stiskanja. Po uvozu knjižnice pandas sta označena zapisa 'Ime' in 'Preverjanja', ki obravnavata idealne odseke DataFrame. Zmogljivost zip se uporablja za združevanje primerjalnih komponent iz teh nizov v tuple, ki oblikujejo drug niz, imenovan list_tuples.

Koda nato na tej točki natisne potek tulpov, da na kratko prikaže združene informacije. Posledično je Pandas DataFrame z imenom dframe narejen z uporabo konstruktorja pd.DataFrame(), pri čemer se niz tuplov spremeni v organizirano enakomerno konfiguracijo. Segmenta 'Name' in 'Stamps' sta nedvoumno dodeljena med tem postopkom ustvarjanja DataFrame.

Metoda - 7: Ustvari podatkovni okvir iz Dicts serije

Slovar je mogoče posredovati za ustvarjanje podatkovnega okvira. Uporabimo lahko Dicts serij, kjer je naslednji indeks zveza vseh serij posredovanih vrednosti indeksa. Razumejmo naslednji primer.

Primer -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Izhod:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Pojasnilo:

V tej kodi Python je podatkovni okvir Pandas narejen iz besednih referenc serij, ki uporabljajo knjižnico pandas. Dve temi, 'Gadgets' in 'Common', sta obravnavani kot razdelki, posamezni rezultati z eksplicitnimi datotekami pa so usklajeni v DataFrame z imenom dframe. Naslednja navadna konstrukcija se natisne v nadzorni center in prikazuje kompaktno tehniko za usklajevanje in raziskovanje označenih informacij z uporabo Pand.

V tej vadnici smo razpravljali o različnih načinih ustvarjanja DataFrames.