Kuinka luoda DataFrame Pythonissa?

Datakehys on kaksiulotteinen datakokoelma. Se on tietorakenne, johon tiedot tallennetaan taulukkomuodossa. Tietojoukot on järjestetty riveihin ja sarakkeisiin; voimme tallentaa useita tietojoukkoja tietokehykseen. Voimme suorittaa erilaisia ​​aritmeettisia operaatioita, kuten lisätä sarakkeiden/rivien valintoja ja sarakkeita/rivejä tietokehykseen.

Pythonissa DataFrame, Pandas-kirjaston keskeinen osa, toimii kattavana kaksiulotteisena tietosäiliönä. Se muistuttaa taulukkoa, ja se kapseloi tiedot selkeästi käyttämällä rivejä ja sarakkeita, joista jokaisella on erottuva indeksi. Sen monipuolisuus mahdollistaa erilaisten tietotyyppien sijoittamisen sarakkeisiin, mikä mahdollistaa joustavuuden monimutkaisten tietojoukkojen käsittelyssä.

Pandas DataFrames tarjoaa käyttäjille laajan valikoiman toimintoja. Pandas helpottaa tietojen vaivatonta käsittelyä strukturoidun datan luomisesta sanakirjojen tai muiden tietorakenteiden avulla vahvan indeksoinnin käyttöön. Kirjasto tarjoaa intuitiivisen käyttöliittymän toimintojen suorittamiseen, kuten rivien suodattamiseen ehtojen perusteella, tietojen ryhmittelyyn aggregointia varten ja tilastollisten analyysien suorittamiseen helposti.

Voimme tuoda DataFrame-kehykset ulkoisesta tallennustilasta; näitä varastoja voidaan kutsua nimellä SQL Tietokanta, CSV-tiedosto ja Excel-tiedosto. Voimme myös käyttää luetteloita, sanakirjaa ja sanakirjaluetteloa jne.

Tässä opetusohjelmassa opimme luomaan tietokehyksen useilla tavoilla. Ymmärretään nämä erilaiset tavat.

Ensin meidän on asennettava pandakirjasto Python ympäristöön.

Tyhjä tietokehys

Voimme luoda tyhjän perustietokehyksen. Dataframe-konstruktori on kutsuttava DataFramen luomiseksi. Ymmärretään seuraava esimerkki.

Esimerkki -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Lähtö:

 Empty DataFrame Columns: [] Index: []  

Tapa - 2: Luo tietokehys Listillä

Voimme luoda tietokehyksen käyttämällä yhtä luetteloa tai luetteloluetteloa. Ymmärretään seuraava esimerkki.

Esimerkki -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Lähtö:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Selitys:

  • Tuo pandat: tuo pandat pd-muodossa tuo Pandas-kirjaston ja kutsuu sitä pd:ksi curtnessin vuoksi.
  • Luo luettelo: lst on yhteenveto, joka sisältää ohjelmointimurteita osoittavia merkkijonoarvoja.
  • DataFrame-kehitys: pd.DataFrame(lst) rakentaa DataFramen rundown-lst:stä. Tietenkin, kun yksittäinen rundown annetaan, Pandas tekee DataFrame-kehyksen, jossa on yksinäinen osa.
  • DataFramen tulostaminen: print(dframe) tulostaa seuraavan DataFramen.

Menetelmä - 3: Luo Dataframe ndarray/listsista

Sanaa ndarray/lists voidaan käyttää tietokehyksen luomiseen, kaikki ndarray on oltava yhtä pitkä. Indeksi on oletuksena alue(n); missä n tarkoittaa taulukon pituutta. Ymmärretään seuraava esimerkki.

Esimerkki -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Lähtö:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Selitys:

  • Tuo pandat: tuo pandat pd-muodossa tuo Pandas-kirjaston ja kutsuu sitä nimellä pd.
  • Luo sanakirja: tiedot ovat sanaviittauksia, joissa avaimet ovat segmenttien nimiä ('Nimi' ja 'Ikä') ja arvot ovat tietueita, jotka sisältävät asiaan liittyviä tietoja.
  • DataFrame-kehitys: pd.DataFrame(data) rakentaa DataFramen sanaviittauksesta. Näppäimistä tulee osien nimiä ja tiivistelmistä segmenttejä.
  • DataFramen tulostaminen: print(df) tulostaa seuraavan DataFramen.

Tapa - 4: Luo hakemistotietokehys taulukoiden avulla

Ymmärretään seuraava esimerkki indeksitietokehyksen luomiseksi taulukoiden avulla.

Esimerkki -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Lähtö:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Selitys:

  • Tuo pandat: tuo pandat pd-muodossa tuo Pandas-kirjaston ja kutsuu sitä nimellä pd.
  • Luo sanakirja: tiedot ovat sanaviittauksia, joissa avaimet ovat segmenttien nimiä ('Nimi' ja 'Evaluations') ja arvot ovat tietueita, jotka sisältävät asiaan liittyviä tietoja.
  • DataFrame-kehitys: pd.DataFrame(data, index=['sijainti1', 'sijainti2', 'sijainti3', 'sijainti4']) rakentaa tietokehyksen sanaviittauksesta. Ennalta määritetty luettelo on varattu riveille.
  • DataFramen tulostaminen: print(df) tulostaa seuraavan DataFramen.

Tapa - 5: Luo tietokehys saneluluettelosta

Voimme välittää sanakirjaluettelot syöttötietoina Pandas-tietokehyksen luomiseksi. Sarakkeiden nimet ovat oletusarvoisesti avaimia. Ymmärretään seuraava esimerkki.

Esimerkki -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Lähtö:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Ymmärretään toinen esimerkki panda-tietokehyksen luomisesta sanakirjaluettelosta, jossa on sekä rivi- että sarakeindeksi.

Selitys:

  • Tuo pandat: tuo pandat pd-muodossa tuo Pandas-kirjaston ja kutsuu sitä nimellä pd.
  • Luo luettelo ja sanakirja: tiedot ovat yhteenveto, jossa jokainen komponentti on sanaviittaus, joka osoittaa DataFramen sarakkeen. Sanaviittausten avaimet muuttuvat segmenttien nimiksi.
  • DataFrame-kehitys: pd.DataFrame(data) rakentaa DataFramen sanaviittauksista. Sanaviittausten avaimet muuttuvat osioksi ja ominaisuuksista DataFramen tiedot.
  • DataFramen tulostaminen: print(df) tulostaa seuraavan DataFramen.

Esimerkki - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Lähtö:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Selitys:

Pandas-kirjastoa käytetään kahden erehtymättömän DataFrame-kehyksen tekemiseen, joita tarkoitetaan dframe1:llä ja dframe2:lla, alkaen sanaviittauksista nimeltä tieto. Nämä sanaviittaukset toimivat kuvauksina yksittäisistä riveistä DataFrame-kehyksen sisällä, jolloin avaimet liittyvät segmenttien nimiin ja niihin liittyvät ominaisuudet käsittelevät oleellista tietoa. Taustalla oleva DataFrame, dframe1, käynnistetään eksplisiittisillä rivitiedostoilla ('first' ja 'second') ja osatietueilla ('x' ja 'y'). Siten toinen DataFrame, dframe2, luodaan käyttämällä samanlaista informaatiokokoelmaa, mutta osiotiedostoissa on eroja, jotka on nimenomaisesti merkitty 'x' ja 'y1'. Koodi sulkeutuu tulostamalla molemmat DataFrame-kehykset ohjauskeskukseen, mikä selventää kunkin DataFramen erityisiä osiosuunnitelmia. Tämä koodi täydentää laajan katsauksen DataFrame-kehyksen luomisesta ja hallinnasta pandakirjaston sisällä tarjoten kokemuksia siitä, kuinka osiotietueiden lajikkeita voidaan suorittaa.

Esimerkki - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Lähtö:

 x y z first 2 NaN 3 second 10 20.0 30  

Selitys:

Tässä Python-koodissa Pandas DataFrame kehitetään pandakirjastoa hyödyntäen antamalla sanaviittausjärjestelyt ja määrittämällä saraketietueita. Jakso alkaa pandakirjaston tuomisella, jolle on annettu väärä nimi 'pd' lyhyyden vuoksi. Tästä syystä luonnehditaan sanaviittauksien nimettyjen tietojen runsautta, jossa jokainen sanaviittaus osoittaa DataFramen rivin. Näissä sanaviittauksissa olevat näppäimet tarkoittavat segmenttien nimiä, kun taas niihin liittyvät arvot osoittavat tärkeitä tietoja.

DataFrame, jota kutsutaan nimellä dframe, tehdään sitten käyttämällä pd.DataFrame()-konstruktoria yhdistämällä annetut tiedot ja asettamalla rivitietueiksi nimenomaisesti 'first' ja 'second'. Seuraava DataFrame näyttää tasaisen mallin osioilla, joiden nimi on 'x', 'y' ja 'z'. Puuttuvat ominaisuudet merkitään nimellä 'NaN'.

Tapa - 6: Luo tietokehys zip()-funktiolla

Zip()-funktiota käytetään näiden kahden luettelon yhdistämiseen. Ymmärretään seuraava esimerkki.

Esimerkki -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Lähtö:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Selitys:

Tämä Python-koodi näyttää Pandas DataFramen tuotannon kahdesta tietueesta, erityisesti 'Nimestä' ja 'Leimasista', käyttämällä pandaskirjastoa ja pakkausominaisuutta. Pandaskirjaston tuonnin jälkeen 'Name'- ja 'Checks'-tietueet karakterisoidaan, ja ne koskevat DataFramen ihanteellisia osia. Zip-ominaisuutta käytetään yhdistämään komponenttien vertaileminen näistä rundowneista moniksi, kehystämään toinen rundown nimeltä list_tuples.

Koodi tulostaa sitten tuolloin luettelon monikoista antaakseen lyhyen katsauksen yhdistettyihin tietoihin. Näin ollen Pandas DataFrame -niminen dframe tehdään käyttämällä pd.DataFrame()-konstruktoria, jossa monikot muutetaan järjestetyksi tasaiseksi kokoonpanoksi. Segmentit 'Nimi' ja 'Leimat' jaetaan yksiselitteisesti tämän DataFramen luontiprosessin aikana.

Menetelmä - 7: Luo tietokehys sarjan diktatuureista

Sanakirja voidaan välittää tietokehyksen luomiseksi. Voimme käyttää sarjan saneluja, joissa seuraava indeksi on kaikkien hyväksyttyjen indeksiarvojen sarjojen liitto. Ymmärretään seuraava esimerkki.

Esimerkki -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Lähtö:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Selitys:

Tässä Python-koodissa Pandas DataFrame on tehty pandakirjastoa hyödyntävien sarjojen sanaviittauksista. Kaksi aihetta, 'Gadgetit' ja 'Yleinen', käsitellään osioina, ja yksittäiset pisteet, joissa on nimenomaisia ​​tiedostoja, koordinoidaan DataFrame-nimiseen dframe-kehykseen. Myöhempi yksinkertainen rakenne tulostetaan ohjauskeskukseen, ja se näyttää kompaktin tekniikan merkittyjen tietojen koordinoimiseksi ja tutkimiseksi Pandaa hyödyntäen.

Tässä opetusohjelmassa olemme keskustelleet erilaisista tavoista luoda DataFrame-kehykset.