Hvordan opretter man en DataFrame i Python?
En dataramme er en todimensionel samling af data. Det er en datastruktur, hvor data gemmes i tabelform. Datasæt er arrangeret i rækker og kolonner; vi kan gemme flere datasæt i datarammen. Vi kan udføre forskellige aritmetiske operationer, såsom tilføjelse af kolonne/rækkevalg og kolonner/rækker i datarammen.
I Python fungerer en DataFrame, en central komponent i Pandas-biblioteket, som en omfattende todimensionel databeholder. Den ligner en tabel og indkapsler data med klarhed ved at bruge rækker og kolonner, hver udstyret med et særpræget indeks. Dens alsidighed tillader indkvartering af forskellige datatyper inden for kolonner, hvilket giver fleksibilitet i håndtering af komplekse datasæt.
Pandas DataFrames giver brugerne en bred vifte af funktionaliteter. Fra oprettelsen af strukturerede data ved hjælp af ordbøger eller andre datastrukturer til at anvende robust indeksering for problemfri dataadgang, letter Pandas ubesværet datamanipulation. Biblioteket giver en intuitiv grænseflade til at udføre operationer såsom filtrering af rækker baseret på betingelser, gruppering af data til aggregering og udførelse af statistiske analyser med lethed.
Vi kan importere DataFrames fra det eksterne lager; disse lagre kan omtales som SQL Database, CSV-fil og en Excel-fil. Vi kan også bruge lister, ordbog, og fra en liste over ordbog osv.
I denne tutorial lærer vi at oprette datarammen på flere måder. Lad os forstå disse forskellige måder.
Først skal vi installere pandas-biblioteket i Python miljø.
En tom dataramme
Vi kan oprette en grundlæggende tom Dataframe. Dataframe-konstruktøren skal kaldes for at oprette DataFrame. Lad os forstå følgende eksempel.
Eksempel -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe
Produktion:
Empty DataFrame Columns: [] Index: []
Metode - 2: Opret en dataramme ved hjælp af List
Vi kan oprette dataramme ved hjælp af en enkelt liste eller liste over lister. Lad os forstå følgende eksempel.
Eksempel -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe
Produktion:
0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go
Forklaring:
- Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kalder det pd for korthed.
- Opret liste: lst er en oversigt, der indeholder strengværdier, der adresserer programmeringsdialekter.
- DataFrame-udvikling: pd.DataFrame(lst) bygger en DataFrame fra den nedskrevne lst. Når der gives en ensom gennemgang, laver Pandas selvfølgelig en DataFrame med en ensom sektion.
- Udskrivning af DataFrame: print(dframe) udskriver den efterfølgende DataFrame.
Metode - 3: Opret dataramme fra dict of ndarray/lists
Dikten af ndarray/lister kan bruges til at skabe en dataramme, alle ndarray skal være af samme længde. Indekset vil som standard være et interval(n); hvor n angiver arrayets længde. Lad os forstå følgende eksempel.
Eksempel -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe Produktion:
Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18
Forklaring:
- Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kalder det pd.
- Opret ordbog: information er en ordreference, hvor nøgler er segmentnavne ('Navn' og 'Alder'), og værdier er poster, der indeholder relateret information.
- DataFrame-udvikling: pd.DataFrame(data) bygger en DataFrame fra ordet reference. Nøglerne bliver sektionsnavne, og oversigterne bliver til segmenterne.
- Udskrivning af DataFrame: print(df) udskriver den efterfølgende DataFrame.
Metode - 4: Opret en indeksdataramme ved hjælp af arrays
Lad os forstå følgende eksempel for at oprette indeksdatarammen ved hjælp af arrays.
Eksempel -
# Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df) Produktion:
Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0
Forklaring:
- Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kalder det pd.
- Opret ordbog: information er en ordreference, hvor nøgler er segmentnavne ('Navn' og 'Evalueringer'), og værdier er poster, der indeholder relateret information.
- DataFrame-udvikling: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) bygger en DataFrame fra ordreferencen. Den foruddefinerede liste tildeles linjerne.
- Udskrivning af DataFrame: print(df) udskriver den efterfølgende DataFrame.
Metode - 5: Opret dataramme fra listen over diktater
Vi kan videregive listerne over ordbøger som inputdata for at skabe Pandas-datarammen. Kolonnenavnene tages som nøgler som standard. Lad os forstå følgende eksempel.
Eksempel -
# Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df) Produktion:
A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0
Lad os forstå et andet eksempel for at skabe pandas-datarammen fra en liste over ordbøger med både rækkeindeks og kolonneindeks.
Forklaring:
- Importer pandaer: importer pandaer som pd importerer Pandas-biblioteket og kalder det pd.
- Opret liste og ordbog: information er en oversigt, hvor hver komponent er en ordreference, der adresserer en kolonne i DataFrame. Nøglerne til ordreferencerne bliver segmentnavne.
- DataFrame-udvikling: pd.DataFrame(data) bygger en DataFrame ud fra en oversigt over ordreferencer. Nøglerne til ordet referencer bliver til sektioner, og kvaliteterne bliver informationen i DataFrame.
- Udskrivning af DataFrame: print(df) udskriver den efterfølgende DataFrame.
Eksempel - 2:
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2) Produktion:
x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN
Forklaring:
Panda-biblioteket bruges til at lave to umiskendelige DataFrames, ment som dframe1 og dframe2, startende fra en oversigt over ordreferencer med navngivet information. Disse ordreferencer fungerer som skildringer af individuelle linjer inde i DataFrames, hvor nøglerne relaterer sig til segmentnavne, og de relaterede kvaliteter adresserer den relevante information. Den underliggende DataFrame, dframe1, startes op med eksplicitte linjefiler ('first' og 'second') og sektionsposter ('x' og 'y'). Således oprettes en anden DataFrame, dframe2, ved hjælp af lignende informationsindsamling, men med en ulighed i sektionsfiler, eksplicit betegnet som 'x' og 'y1'. Koden lukkes ved at udskrive begge DataFrames til kontrolcentret, hvilket tydeliggør de særlige sektionsdesigns for hver DataFrame. Denne kode udfylder som en omfattende oversigt over DataFrame-oprettelse og -kontrol inde i pandas-biblioteket, og tilbyder erfaringer med, hvordan varianter i sektionsposter kan udføres.
Eksempel - 3
# The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe) Produktion:
x y z first 2 NaN 3 second 10 20.0 30
Forklaring:
I denne Python-kode udvikles en Pandas DataFrame ved at bruge pandas-biblioteket ved at give ordreferencer og bestemme kolonneposter. Cyklussen starter med importen af pandas-biblioteket, tildelt af det falske navn 'pd' for kortheds skyld. Derfor er en oversigt over ordreferencer navngivet information karakteriseret, hvor hver ordreference adresserer en linje i DataFrame. Nøglerne inde i disse ordreferencer betyder segmentnavnene, mens de tilhørende værdier angiver de vigtige oplysninger.
DataFrame, angivet som dframe, laves derefter ved at bruge pd.DataFrame()-konstruktøren, der konsoliderer den angivne information og sætter udtrykkeligt linjeposterne til 'first' og 'second'. Den efterfølgende DataFrame viser et jævnt design med sektioner kaldet 'x', 'y' og 'z'. Eventuelle manglende kvaliteter betegnes som 'NaN'.
Metode - 6: Opret dataramme ved hjælp af zip()-funktionen
Zip()-funktionen bruges til at flette de to lister. Lad os forstå følgende eksempel.
Eksempel -
# The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)
Produktion:
[('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47
Forklaring:
Denne Python-kode viser produktionen af en Pandas DataFrame fra to poster, specifikt 'Name' og 'Stamps', ved at bruge pandas-biblioteket og komprimeringsevnen. Efter importen af pandas-biblioteket karakteriseres 'Name'- og 'Checks'-posterne, der adresserer de ideelle sektioner af DataFrame. Zip-kapaciteten bruges til at sammensætte sammenligning af komponenter fra disse opsummeringer til tuples, der rammer en anden gennemgang ved navn list_tuples.
Koden udskriver derefter en oversigt over tupler for at give et kort kig på de sammenføjede oplysninger. Som følge heraf laves en Pandas DataFrame ved navn dframe ved at bruge pd.DataFrame()-konstruktøren, hvor oversigten over tupler ændres til en organiseret jævn konfiguration. Segmenterne 'Navn' og 'Stempler' er utvetydigt tildelt under denne DataFrame-oprettelsesproces.
Metode - 7: Opret Dataframe fra Dicts of series
Ordbogen kan videregives for at skabe en dataramme. Vi kan bruge Dicts of series, hvor det efterfølgende indeks er foreningen af alle serierne af bestået indeksværdi. Lad os forstå følgende eksempel.
Eksempel -
# Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe) Produktion:
Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96
Forklaring:
I denne Python-kode er en Pandas DataFrame lavet af ordreferencer fra serier, der bruger pandas-biblioteket. To emner, 'Gadgets' og 'Common', behandles som sektioner, og individuelle scoringer med eksplicitte filer koordineres i en DataFrame med navnet dframe. Den efterfølgende almindelige konstruktion udskrives til kontrolcentret og viser en kompakt teknik til koordinering og undersøgelse af markeret information ved hjælp af pandaer.
I denne tutorial har vi diskuteret de forskellige måder at skabe DataFrames på.