KAIP SUKURTI DUOMENŲ RĖMELIUS PYTHON

Duomenų rėmelis yra dvimatis duomenų rinkinys. Tai duomenų struktūra, kurioje duomenys saugomi lentelės pavidalu. Duomenų rinkiniai yra išdėstyti eilutėmis ir stulpeliais; duomenų rėmelyje galime saugoti kelis duomenų rinkinius. Galime atlikti įvairias aritmetines operacijas, pavyzdžiui, pridėti stulpelių/eilučių pasirinkimą ir stulpelius/eilutes duomenų rėmelyje.

„Python“ programoje „DataFrame“, pagrindinis Pandas bibliotekos komponentas, yra išsamus dvimatis duomenų konteineris. Panaši į lentelę, ji aiškiai apibendrina duomenis, naudodama eilutes ir stulpelius, kurių kiekvienas turi savitą indeksą. Jo universalumas leidžia stulpeliuose talpinti įvairius duomenų tipus, todėl lanksčiai tvarkomi sudėtingi duomenų rinkiniai.

Pandas DataFrames suteikia vartotojams daugybę funkcijų. Nuo struktūrinių duomenų kūrimo naudojant žodynus ar kitas duomenų struktūras iki patikimo indeksavimo, kad būtų galima sklandžiai pasiekti duomenis, Pandas palengvina duomenų manipuliavimą. Biblioteka suteikia intuityvią sąsają operacijų vykdymui, pavyzdžiui, eilučių filtravimui pagal sąlygas, duomenų grupavimui apibendrinti ir statistinei analizei lengvai atlikti.

Mes galime importuoti DataFrames iš išorinės saugyklos; šios saugyklos gali būti vadinamos SQL Duomenų bazė, CSV failas ir Excel failas. Taip pat galime naudoti sąrašus, žodyną, žodynų sąrašą ir pan.

Šioje pamokoje išmoksime sukurti duomenų rėmelį keliais būdais. Supraskime šiuos skirtingus būdus.

Pirmiausia turime įdiegti pandų biblioteką į Python aplinką.

Tuščias duomenų rėmelis

Galime sukurti pagrindinį tuščią duomenų rėmelį. Norint sukurti DataFrame, reikia iškviesti duomenų rėmelio konstruktorių. Supraskime šį pavyzdį.

Pavyzdys -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe

Išvestis:

 Empty DataFrame Columns: [] Index: []

2 būdas: sukurkite duomenų rėmelį naudodami sąrašą

Mes galime sukurti duomenų rėmelį naudodami vieną sąrašą arba sąrašų sąrašą. Supraskime šį pavyzdį.

Pavyzdys -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = [&apos;Java&apos;, &apos;Python&apos;, &apos;C&apos;, &apos;C++&apos;, &apos;JavaScript&apos;, &apos;Swift&apos;, &apos;Go&apos;] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe

Išvestis:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go

Paaiškinimas:

Importuoti Pandas: importuoti pandas kaip pd importuoja Pandas biblioteką ir pravardžiuoja ją kaip pd, kad būtų trumpas.
Sukurti sąrašą: lst yra santrauka, kurioje yra eilučių reikšmės, skirtos programavimo dialektams.
„DataFrame“ kūrimas: pd.DataFrame(lst) sukuria „DataFrame“ iš lst. Žinoma, kai pateikiamas atskiras aprašymas, Pandas sukuria DataFrame su atskira sekcija.
Printing DataFrame: print(dframe) spausdina paskesnį duomenų rėmelį.

3 būdas: sukurkite duomenų rėmelį iš ndarray / lists diktato

Dict of ndarray/lists gali būti naudojamas kuriant duomenų rėmelį ndarray turi būti tokio pat ilgio. Pagal numatytuosius nustatymus indeksas bus diapazonas (n); kur n žymi masyvo ilgį. Supraskime šį pavyzdį.

Pavyzdys -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {&apos;Name&apos;: [&apos;Tom&apos;, &apos;Joseph&apos;, &apos;Krish&apos;, &apos;John&apos;], &apos;Age&apos;: [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe

Išvestis:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18

Paaiškinimas:

Importuoti Pandas: importuoti pandas kaip pd importuoja Pandas biblioteką ir vadina ją pd.
Sukurti žodyną: informacija yra žodžio nuoroda, kur raktai yra segmentų pavadinimai („Vardas“ ir „Amžius“), o reikšmės yra įrašai, kuriuose yra susijusi informacija.
DataFrame plėtra: pd.DataFrame(data) sukuria DataFrame iš žodžio nuoroda. Klavišai tampa sekcijų pavadinimais, o santraukos – segmentais.
Printing DataFrame: print(df) spausdina paskesnį duomenų rėmelį.

4 būdas: sukurkite indeksų duomenų rėmelį naudodami masyvus

Supraskime šį pavyzdį, kaip sukurti indeksų duomenų rėmelį naudojant masyvus.

Pavyzdys -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {&apos;Name&apos;:[&apos;Renault&apos;, &apos;Duster&apos;, &apos;Maruti&apos;, &apos;Honda City&apos;], &apos;Ratings&apos;:[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =[&apos;position1&apos;, &apos;position2&apos;, &apos;position3&apos;, &apos;position4&apos;]) # Here, we are printing the data print(df)

Išvestis:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0

Paaiškinimas:

Importuoti Pandas: importuoti pandas kaip pd importuoja Pandas biblioteką ir vadina ją pd.
Sukurti žodyną: informacija yra žodžio nuoroda, kur raktai yra segmentų pavadinimai („Pavadinimas“ ir „Įvertinimai“), o reikšmės yra įrašai, kuriuose yra susijusi informacija.
„DataFrame“ kūrimas: pd.DataFrame(data, index=['pozicija1', 'pozicija2', 'pozicija3', 'pozicija4']) sukuria duomenų rėmelį iš žodžio nuoroda. Iš anksto nustatytas sąrašas priskiriamas eilutėms.
Printing DataFrame: print(df) spausdina paskesnį duomenų rėmelį.

5 būdas: sukurkite duomenų rėmelį iš diktų sąrašo

Galime perduoti žodynų sąrašus kaip įvesties duomenis, kad sukurtume Pandas duomenų rėmelį. Pagal numatytuosius nustatymus stulpelių pavadinimai laikomi raktais. Supraskime šį pavyzdį.

Pavyzdys -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{&apos;A&apos;: 10, &apos;B&apos;: 20, &apos;C&apos;:30}, {&apos;x&apos;:100, &apos;y&apos;: 200, &apos;z&apos;: 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)

Išvestis:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0

Supraskime kitą pavyzdį, kaip sukurti pandų duomenų rėmelį iš žodynų sąrašo su eilučių ir stulpelių indeksu.

Paaiškinimas:

Importuoti Pandas: importuoti pandas kaip pd importuoja Pandas biblioteką ir vadina ją pd.
Sukurti sąrašą ir žodyną: informacija yra santrauka, kurioje kiekvienas komponentas yra žodžio nuoroda, skirta DataFrame stulpeliui. Žodžių nuorodų klavišai tampa segmentų pavadinimais.
DataFrame plėtra: pd.DataFrame(data) sukuria DataFrame iš žodžių nuorodų. Žodžių nuorodų raktai tampa skyriais, o savybės – DataFrame informacija.
Printing DataFrame: print(df) spausdina paskesnį duomenų rėmelį.

Pavyzdys – 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{&apos;x&apos;: 1, &apos;y&apos;: 2}, {&apos;A&apos;: 15, &apos;B&apos;: 17, &apos;C&apos;: 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =[&apos;first&apos;, &apos;second&apos;], columns =[&apos;x&apos;, &apos;y&apos;]) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =[&apos;first&apos;, &apos;second&apos;], columns =[&apos;x&apos;, &apos;y1&apos;]) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, &apos;
&apos;) # Here, we are printing the first data frame i.e., dframe2 print (dframe2)

Išvestis:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN

Paaiškinimas:

Pandų biblioteka naudojama sukurti du neabejotinus duomenų rėmelius, vadinamus dframe1 ir dframe2, pradedant nuo žodžių nuorodų, pavadintų informacija, santraukos. Šios žodžių nuorodos veikia kaip atskirų eilučių, esančių duomenų rėmeliuose, vaizdavimas, kur raktai yra susiję su segmentų pavadinimais, o susijusios savybės – atitinkama informacija. Pagrindinis DataFrame, dframe1, paleidžiamas naudojant aiškius eilučių failus ('pirmasis' ir 'antrasis') ir sekcijos įrašus ('x' ir 'y'). Taigi, antrasis duomenų rėmelis, dframe2, sukuriamas naudojant panašų informacijos rinkinį, tačiau skilčių failuose yra skirtumų, aiškiai pažymėtų kaip „x“ ir „y1“. Kodas uždaromas išspausdinant abu „DataFrame“ į valdymo centrą, paaiškinant kiekvieno „DataFrame“ konkretaus skyriaus dizainą. Šis kodas papildo platų „DataFrame“ kūrimo ir valdymo pandų bibliotekoje metmenis, siūlydamas patirtį, kaip galima vykdyti sekcijų įrašų atmainas.

Pavyzdys – 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{&apos;x&apos;: 2, &apos;z&apos;:3}, {&apos;x&apos;: 10, &apos;y&apos;: 20, &apos;z&apos;: 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =[&apos;first&apos;, &apos;second&apos;]) # Print the dataframe print(dframe)

Išvestis:

 x y z first 2 NaN 3 second 10 20.0 30

Paaiškinimas:

Šiame Python kode Pandas DataFrame sukurtas naudojant pandas biblioteką, pateikiant žodžių nuorodų išdėstymą ir nustatant stulpelių įrašus. Ciklas pradedamas importuojant pandų biblioteką, kuriai trumpumo dėlei priskiriamas klaidingas pavadinimas „pd“. Taigi apibūdinama žodžių nuorodų, pavadintų informacijos, santrauka, kur kiekviena žodžio nuoroda kreipiasi į DataFrame eilutę. Šiose žodžių nuorodose esantys klavišai reiškia segmentų pavadinimus, o susijusios reikšmės nurodo svarbią informaciją.

Tada DataFrame, pažymėtas kaip dframe, sukuriamas naudojant konstruktorių pd.DataFrame(), sujungiant pateiktą informaciją ir aiškiai nustatant eilutės įrašus į 'pirmas' ir 'antras'. Tolesnis duomenų rėmelis rodo lygų dizainą su skyriais, pavadintais „x“, „y“ ir „z“. Visos trūkstamos savybės pažymėtos kaip „NaN“.

6 būdas: sukurkite duomenų rėmelį naudodami funkciją zip().

Funkcija zip() naudojama sujungti du sąrašus. Supraskime šį pavyzdį.

Pavyzdys -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = [&apos;tom&apos;, &apos;krish&apos;, &apos;arun&apos;, &apos;juli&apos;] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=[&apos;Name&apos;, &apos;Marks&apos;]) # Print data. print(dframe)

Išvestis:

 [(&apos;john&apos;, 95), (&apos;krish&apos;, 63), (&apos;arun&apos;, 54), (&apos;juli&apos;, 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47

Paaiškinimas:

Šis „Python“ kodas rodo „Pandas DataFrame“ kūrimą iš dviejų įrašų, konkrečiai „pavadinimo“ ir „antspaudų“, naudojant pandų biblioteką ir glaudinimo funkciją. Importavus pandų biblioteką, apibūdinami įrašai „Pavadinimas“ ir „Patikrinimai“, atitinkantys idealias „DataFrame“ dalis. „Zip“ funkcija naudojama norint sujungti šių sujungimų komponentus į eilutes, įrėminus kitą santrauką, pavadintą list_tuples.

Tada kodas tuo metu išspausdina eilutes, kad trumpai apžvelgtų sujungtą informaciją. Vadinasi, Pandas DataFrame pavadintas dframe yra sukurtas naudojant pd.DataFrame() konstruktorių, kuriame sekėjų sąrašas pakeičiamas į organizuotą tolygią konfigūraciją. Segmentai „Pavadinimas“ ir „Antspaudai“ yra vienareikšmiškai skiriami šio „DataFrame“ kūrimo proceso metu.

7 būdas: sukurkite duomenų rėmelį iš serijų diktų

Galima perduoti žodyną, kad būtų sukurtas duomenų rėmelis. Galime naudoti serijų diktatus, kur sekantis indeksas yra visų perduotų indekso verčių eilučių sąjunga. Supraskime šį pavyzdį.

Pavyzdys -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {&apos;Electronics&apos; : pd.Series([97, 56, 87, 45], index =[&apos;John&apos;, &apos;Abhinay&apos;, &apos;Peter&apos;, &apos;Andrew&apos;]), &apos;Civil&apos; : pd.Series([97, 88, 44, 96], index =[&apos;John&apos;, &apos;Abhinay&apos;, &apos;Peter&apos;, &apos;Andrew&apos;])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)

Išvestis:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96

Paaiškinimas:

Šiame Python kode Pandas DataFrame yra sudarytas iš serijų žodžių nuorodų, naudojant pandų biblioteką. Dvi temos – „Įtaisai“ ir „Bendra“ – yra nagrinėjamos kaip skyriai, o atskiri balai su aiškiais failais suderinami į duomenų rėmelį, pavadintą dframe. Tolesnė paprasta konstrukcija atspausdinama valdymo centre, o tai rodo kompaktišką pažymėtos informacijos koordinavimo ir tyrimo metodą naudojant Pandas.

Šioje pamokoje aptarėme įvairius duomenų rėmelių kūrimo būdus.