Hvordan lage en DataFrame i Python?

En dataramme er en todimensjonal samling av data. Det er en datastruktur hvor data lagres i tabellform. Datasett er ordnet i rader og kolonner; vi kan lagre flere datasett i datarammen. Vi kan utføre ulike aritmetiske operasjoner, som å legge til kolonne/radvalg og kolonner/rader i datarammen.

I Python fungerer en DataFrame, en sentral komponent i Pandas-biblioteket, som en omfattende todimensjonal databeholder. Den ligner en tabell, og kapsler inn data med klarhet, ved å bruke rader og kolonner, hver utstyrt med en særegen indeks. Dens allsidighet tillater innkvartering av ulike datatyper i kolonner, noe som gir fleksibilitet ved håndtering av komplekse datasett.

Pandas DataFrames gir brukerne et omfattende utvalg funksjoner. Fra å lage strukturerte data ved å bruke ordbøker eller andre datastrukturer til å bruke robust indeksering for sømløs datatilgang, forenkler Pandas uanstrengt datamanipulering. Biblioteket gir et intuitivt grensesnitt for å utføre operasjoner som å filtrere rader basert på forhold, gruppere data for aggregering og enkelt utføre statistiske analyser.

Vi kan importere DataFrames fra den eksterne lagringen; disse lagrene kan refereres til som SQL Database, CSV-fil og en Excel-fil. Vi kan også bruke lister, ordbok, og fra en liste over ordbok, etc.

I denne opplæringen lærer vi å lage datarammen på flere måter. La oss forstå disse forskjellige måtene.

Først må vi installere pandas-biblioteket i Python miljø.

En tom dataramme

Vi kan lage en grunnleggende tom Dataframe. Datarammekonstruktøren må kalles for å lage DataFrame. La oss forstå følgende eksempel.

Eksempel -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Produksjon:

 Empty DataFrame Columns: [] Index: []  

Metode - 2: Lag en dataramme ved hjelp av List

Vi kan lage dataramme ved å bruke en enkelt liste eller liste over lister. La oss forstå følgende eksempel.

Eksempel -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Produksjon:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Forklaring:

  • Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kaller det pd for korthet.
  • Opprett liste: lst er en oversikt som inneholder strengverdier som adresserer programmeringsdialekter.
  • DataFrame Development: pd.DataFrame(lst) bygger en DataFrame fra oversikten lst. Selvfølgelig, når en enslig oversikt er gitt, lager Pandas en DataFrame med en enslig seksjon.
  • Printing DataFrame: print(dframe) skriver ut den påfølgende DataFrame.

Metode - 3: Lag dataramme fra dict of ndarray/lists

Dikten til ndarray/lister kan brukes til å lage en dataramme, alle ndarray må være av samme lengde. Indeksen vil være et område(n) som standard; hvor n angir matriselengden. La oss forstå følgende eksempel.

Eksempel -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Produksjon:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Forklaring:

  • Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kaller det pd.
  • Lag ordbok: informasjon er en ordreferanse der nøkler er segmentnavn ('Navn' og 'Alder'), og verdier er poster som inneholder relatert informasjon.
  • DataFrame Development: pd.DataFrame(data) bygger en DataFrame fra ordreferansen. Nøklene blir seksjonsnavn, og oversiktene blir segmentene.
  • Printing DataFrame: print(df) skriver ut den påfølgende DataFrame.

Metode - 4: Lag en indeksdataramme ved hjelp av matriser

La oss forstå følgende eksempel for å lage indeksdatarammen ved å bruke arrays.

Eksempel -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Produksjon:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Forklaring:

  • Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kaller det pd.
  • Lag ordbok: informasjon er en ordreferanse der nøkler er segmentnavn ('Navn' og 'Evalueringer'), og verdier er poster som inneholder relatert informasjon.
  • DataFrame-utvikling: pd.DataFrame(data, index=['posisjon1', 'posisjon2', 'posisjon3', 'posisjon4']) bygger en DataFrame fra ordreferansen. Den forhåndsdefinerte listen tildeles linjene.
  • Printing DataFrame: print(df) skriver ut den påfølgende DataFrame.

Metode - 5: Opprett dataramme fra listen over dicts

Vi kan sende listene over ordbøker som inndata for å lage Pandas-datarammen. Kolonnenavnene tas som nøkler som standard. La oss forstå følgende eksempel.

Eksempel -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Produksjon:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

La oss forstå et annet eksempel for å lage pandas-datarammen fra listen over ordbøker med både radindeks og kolonneindeks.

Forklaring:

  • Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kaller det pd.
  • Opprett liste og ordbok: informasjon er en oversikt der hver komponent er en ordreferanse som adresserer en kolonne i DataFrame. Nøklene til ordreferansene blir segmentnavn.
  • DataFrame-utvikling: pd.DataFrame(data) bygger en DataFrame fra oversikten over ordreferanser. Nøklene til ordet referanser blir seksjoner, og kvalitetene blir informasjonen i DataFrame.
  • Printing DataFrame: print(df) skriver ut den påfølgende DataFrame.

Eksempel - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Produksjon:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Forklaring:

Panda-biblioteket brukes til å lage to umiskjennelige DataFrames, ment som dframe1 og dframe2, med utgangspunkt i en oversikt over ordreferanser kalt informasjon. Disse ordreferansene fungerer som skildringer av individuelle linjer inne i DataFrames, der nøklene er relatert til segmentnavn og de relaterte egenskapene adresserer relevant informasjon. Den underliggende DataFrame, dframe1, startes opp med eksplisitte linjefiler ('første' og 'andre') og seksjonsposter ('x' og 'y'). Dermed opprettes en andre DataFrame, dframe2, ved å bruke lignende informasjonsinnsamling, men med en forskjell i seksjonsfiler, eksplisitt betegnet som 'x' og 'y1'. Koden lukkes ved å skrive ut begge DataFrames til kontrollsenteret, og tydeliggjøre de spesielle seksjonsdesignene til hver DataFrame. Denne koden fyller ut som en omfattende oversikt over opprettelse og kontroll av DataFrame inne i pandas-biblioteket, og tilbyr erfaringer med hvordan varianter i seksjonsposter kan utføres.

Eksempel - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Produksjon:

 x y z first 2 NaN 3 second 10 20.0 30  

Forklaring:

I denne Python-koden utvikles en Pandas DataFrame ved å bruke pandas-biblioteket ved å gi ordreferanser og bestemme kolonneposter. Syklusen starter med importen av pandas-biblioteket, tildelt av det falske navnet 'pd' for korthets skyld. Derfor er en oversikt over ordreferanser kalt informasjon karakterisert, der hver ordreferanse adresserer en linje i DataFrame. Nøklene i disse ordreferansene betyr segmentnavnene, mens de tilhørende verdiene indikerer viktig informasjon.

DataFrame, indikert som dframe, lages deretter ved å bruke pd.DataFrame()-konstruktøren, konsolidere den gitte informasjonen og uttrykkelig sette linjepostene til 'første' og 'andre'. Den påfølgende DataFrame viser et jevnt design med seksjoner kalt 'x', 'y' og 'z'. Eventuelle manglende kvaliteter betegnes som 'NaN.'

Metode - 6: Opprett dataramme ved hjelp av zip()-funksjonen

Zip()-funksjonen brukes til å slå sammen de to listene. La oss forstå følgende eksempel.

Eksempel -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Produksjon:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Forklaring:

Denne Python-koden viser produksjonen av en Pandas DataFrame fra to poster, spesifikt 'Name' og 'Stamps', ved å bruke pandas-biblioteket og komprimeringsevnen. Etter importen av pandas-biblioteket, karakteriseres 'Name'- og 'Checks'-postene, og adresserer de ideelle delene av DataFrame. Zip-funksjonen brukes til å sammenlikne komponenter fra disse oversiktene til tuples, og ramme en annen oversikt kalt list_tuples.

Koden skriver så, på det tidspunktet, oversikten over tupler for å gi en kort titt på den sammenføyde informasjonen. Følgelig lages en Pandas DataFrame kalt dframe ved å bruke pd.DataFrame()-konstruktøren, hvor oversikten over tupler endres til en organisert jevn konfigurasjon. Segmentene 'Navn' og 'Stempler' er utvetydig tildelt under denne DataFrame-opprettingsprosessen.

Metode - 7: Lag dataramme fra Dicts of series

Ordboken kan sendes for å lage en dataramme. Vi kan bruke Dicts of series der den påfølgende indeksen er foreningen av alle seriene med bestått indeksverdi. La oss forstå følgende eksempel.

Eksempel -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Produksjon:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Forklaring:

I denne Python-koden er en Pandas DataFrame laget av ordreferanser fra serier som bruker pandas-biblioteket. To emner, 'Gadgets' og 'Common', tas opp som seksjoner, og individuelle poengsum med eksplisitte filer koordineres til en DataFrame kalt dframe. Den påfølgende enkle konstruksjonen skrives ut til kontrollsenteret, og viser en kompakt teknikk for å koordinere og undersøke merket informasjon ved å bruke pandaer.

I denne opplæringen har vi diskutert de forskjellige måtene å lage DataFrames på.