Hoe maak je een DataFrame in Python?
Een dataframe is een tweedimensionale verzameling gegevens. Het is een datastructuur waarin gegevens in tabelvorm worden opgeslagen. Datasets zijn gerangschikt in rijen en kolommen; we kunnen meerdere datasets in het dataframe opslaan. We kunnen verschillende rekenkundige bewerkingen uitvoeren, zoals het toevoegen van kolom-/rijselectie en kolommen/rijen in het dataframe.
In Python fungeert een DataFrame, een cruciaal onderdeel van de Pandas-bibliotheek, als een uitgebreide tweedimensionale gegevenscontainer. Het lijkt op een tabel en vat gegevens op een heldere manier samen, waarbij gebruik wordt gemaakt van rijen en kolommen, elk voorzien van een onderscheidende index. De veelzijdigheid maakt het mogelijk om verschillende gegevenstypen binnen kolommen te huisvesten, waardoor flexibiliteit wordt geboden bij het omgaan met complexe gegevenssets.
Pandas DataFrames bieden gebruikers een uitgebreid scala aan functionaliteiten. Van het creëren van gestructureerde gegevens met behulp van woordenboeken of andere datastructuren tot het gebruik van robuuste indexering voor naadloze gegevenstoegang: Pandas faciliteert moeiteloze gegevensmanipulatie. De bibliotheek biedt een intuïtieve interface voor het uitvoeren van bewerkingen zoals het filteren van rijen op basis van voorwaarden, het groeperen van gegevens voor aggregatie en het eenvoudig uitvoeren van statistische analyses.
We kunnen de DataFrames importeren vanuit de externe opslag; deze opslagplaatsen kunnen worden aangeduid als de SQL Database, CSV-bestand en een Excel-bestand. We kunnen ook de lijsten, het woordenboek en een lijst met woordenboeken, enz. gebruiken.
In deze zelfstudie leren we het dataframe op verschillende manieren te maken. Laten we deze verschillende manieren begrijpen.
Eerst moeten we de Panda's-bibliotheek installeren in het Python omgeving.
Een leeg dataframe
We kunnen een eenvoudig leeg dataframe maken. De dataframe-constructor moet worden aangeroepen om het DataFrame te maken. Laten we het volgende voorbeeld begrijpen.
Voorbeeld -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe
Uitgang:
Empty DataFrame Columns: [] Index: []
Methode - 2: Maak een dataframe met behulp van Lijst
We kunnen een dataframe maken met behulp van een enkele lijst of een lijst met lijsten. Laten we het volgende voorbeeld begrijpen.
Voorbeeld -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe
Uitgang:
0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go
Uitleg:
- Panda's importeren: panda's importeren als pd importeert de Panda's-bibliotheek en noemt deze als pd vanwege kortheid.
- Lijst maken: lst is een overzicht met tekenreekswaarden die betrekking hebben op programmeerdialecten.
- DataFrame-ontwikkeling: pd.DataFrame(lst) bouwt een DataFrame op basis van het overzicht lst. Als er een eenzaam overzicht wordt gegeven, maakt Pandas natuurlijk een DataFrame met een eenzame sectie.
- DataFrame afdrukken: print(dframe) drukt het volgende DataFrame af.
Methode - 3: Maak een dataframe op basis van dictaat van ndarray/lists
Het dictaat van ndarray/lists kan worden gebruikt om een dataframe te maken, alle ndarray moet dezelfde lengte hebben. De index zal standaard een range(n) zijn; waarbij n de arraylengte aangeeft. Laten we het volgende voorbeeld begrijpen.
Voorbeeld -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe Uitgang:
Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18
Uitleg:
- Panda's importeren: panda's importeren als pd importeert de Panda's-bibliotheek en noemt deze als pd.
- Woordenboek maken: informatie is een woordreferentie waarbij sleutels segmentnamen zijn ('Naam' en 'Leeftijd') en waarden records zijn die gerelateerde informatie bevatten.
- DataFrame-ontwikkeling: pd.DataFrame(data) bouwt een DataFrame op basis van de woordreferentie. De toetsen worden sectienamen en de overzichten worden de segmenten.
- DataFrame afdrukken: print(df) drukt het volgende DataFrame af.
Methode - 4: Maak een indexdataframe met behulp van arrays
Laten we het volgende voorbeeld begrijpen om het indexdataframe te maken met behulp van arrays.
Voorbeeld -
# Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df) Uitgang:
Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0
Uitleg:
- Panda's importeren: panda's importeren als pd importeert de Panda's-bibliotheek en noemt deze als pd.
- Woordenboek maken: informatie is een woordreferentie waarbij sleutels segmentnamen zijn ('Naam' en 'Evaluaties') en waarden records zijn die gerelateerde informatie bevatten.
- DataFrame-ontwikkeling: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) bouwt een DataFrame op basis van de woordreferentie. De vooraf gedefinieerde lijst wordt aan de lijnen toegewezen.
- DataFrame afdrukken: print(df) drukt het volgende DataFrame af.
Methode - 5: Maak een dataframe uit de lijst met dictaten
We kunnen de lijsten met woordenboeken doorgeven als invoergegevens om het Pandas-dataframe te maken. De kolomnamen worden standaard als sleutels gebruikt. Laten we het volgende voorbeeld begrijpen.
Voorbeeld -
# Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df) Uitgang:
A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0
Laten we een ander voorbeeld bekijken om het panda's-dataframe te maken op basis van een lijst met woordenboeken met zowel rij-index als kolomindex.
Uitleg:
- Panda's importeren: panda's importeren als pd importeert de Panda's-bibliotheek en noemt deze als pd.
- Lijst en woordenboek maken: informatie is een overzicht waarbij elke component een woordreferentie is die een kolom in het DataFrame adresseert. De sleutels van de woordreferenties worden segmentnamen.
- DataFrame-ontwikkeling: pd.DataFrame(data) bouwt een DataFrame op basis van de lijst met woordreferenties. De sleutels van de woordreferenties worden secties en de kwaliteiten worden de informatie in het DataFrame.
- DataFrame afdrukken: print(df) drukt het volgende DataFrame af.
Voorbeeld - 2:
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2) Uitgang:
x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN
Uitleg:
De Panda's-bibliotheek wordt gebruikt om twee onmiskenbare DataFrames te maken, bedoeld als dframe1 en dframe2, beginnend met een overzicht van woordreferenties genaamd informatie. Deze woordreferenties fungeren als afbeeldingen van individuele regels binnen de DataFrames, waarbij de sleutels betrekking hebben op segmentnamen en de gerelateerde kwaliteiten betrekking hebben op de relevante informatie. Het onderliggende DataFrame, dframe1, wordt opgestart met expliciete lijnbestanden ('first' en 'second') en sectierecords ('x' en 'y'). Er wordt dus een tweede DataFrame, dframe2, gemaakt met behulp van vergelijkbare informatieverzameling, maar met een verschil in sectiebestanden, expliciet aangeduid als 'x' en 'y1'. De code wordt afgesloten door beide DataFrames naar het controlecentrum af te drukken, waardoor de specifieke sectieontwerpen van elk DataFrame worden verduidelijkt. Deze code vormt een uitgebreid overzicht van het maken en beheren van DataFrame binnen de panda-bibliotheek en biedt ervaringen met hoe varianten in sectierecords kunnen worden uitgevoerd.
Voorbeeld - 3
# The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe) Uitgang:
x y z first 2 NaN 3 second 10 20.0 30
Uitleg:
In deze Python-code wordt een Pandas DataFrame ontwikkeld met behulp van de pandas-bibliotheek door woordreferenties te rangschikken en kolomrecords te bepalen. De cyclus begint met het importeren van de pandabibliotheek, kortheidshalve toegewezen aan de valse naam 'pd'. Daarom wordt een overzicht van woordreferenties met de naam informatie gekarakteriseerd, waarbij elke woordreferentie een regel van het DataFrame adresseert. De sleutels binnen deze woordreferenties betekenen de segmentnamen, terwijl de gerelateerde waarden de belangrijke stukjes informatie aangeven.
Het DataFrame, aangegeven als dframe, wordt vervolgens gemaakt met behulp van de pd.DataFrame()-constructor, waarbij de gegeven informatie wordt geconsolideerd en de regelrecords uitdrukkelijk worden ingesteld op 'eerste' en 'tweede'. Het daaropvolgende DataFrame geeft een gelijkmatig ontwerp weer met secties met de namen 'x', 'y' en 'z'. Eventuele ontbrekende eigenschappen worden aangeduid als 'NaN.'
Methode - 6: Maak een dataframe met behulp van de zip()-functie
De functie zip() wordt gebruikt om de twee lijsten samen te voegen. Laten we het volgende voorbeeld begrijpen.
Voorbeeld -
# The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)
Uitgang:
[('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47
Uitleg:
Deze Python-code toont de productie van een Pandas DataFrame uit twee records, met name 'Naam' en 'Stamps', door gebruik te maken van de panda's-bibliotheek en de compressiemogelijkheid. Na het importeren van de pandabibliotheek worden de records 'Name' en 'Checks' gekarakteriseerd, waarbij de ideale secties van het DataFrame worden aangepakt. De zip-mogelijkheid wordt gebruikt om componenten uit deze overzichten samen te voegen tot tupels, waarbij een andere overzicht met de naam list_tuples wordt geframed.
De code drukt vervolgens op dat moment het overzicht van tupels af om een korte blik te werpen op de samengevoegde informatie. Bijgevolg wordt een Pandas DataFrame met de naam dframe gemaakt met behulp van de pd.DataFrame()-constructor, waarbij de lijst met tupels wordt veranderd in een georganiseerde, gelijkmatige configuratie. De segmenten 'Naam' en 'Stempels' worden tijdens dit DataFrame-aanmaakproces eenduidig toegewezen.
Methode - 7: Maak een dataframe van dictaten van series
Het woordenboek kan worden doorgegeven om een dataframe te maken. We kunnen de Dicts of series gebruiken waarbij de daaropvolgende index de vereniging is van alle series met doorgegeven indexwaarden. Laten we het volgende voorbeeld begrijpen.
Voorbeeld -
# Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe) Uitgang:
Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96
Uitleg:
In deze Python-code wordt een Pandas DataFrame gemaakt van woordreferenties van series die gebruik maken van de pandas-bibliotheek. Twee onderwerpen, 'Gadgets' en 'Common', worden behandeld als secties, en individuele scores met expliciete bestanden worden gecoördineerd in een DataFrame met de naam dframe. De daaropvolgende eenvoudige constructie wordt naar het controlecentrum afgedrukt en toont een compacte techniek voor het coördineren en onderzoeken van gemarkeerde informatie met behulp van Panda's.
In deze zelfstudie hebben we de verschillende manieren besproken om de DataFrames te maken.