Kā Python izveidot DataFrame?
Datu rāmis ir divu dimensiju datu kolekcija. Tā ir datu struktūra, kurā dati tiek glabāti tabulas veidā. Datu kopas ir sakārtotas rindās un kolonnās; datu rāmī varam saglabāt vairākas datu kopas. Varam veikt dažādas aritmētiskas darbības, piemēram, pievienot kolonnu/rindu atlasi un kolonnas/rindas datu rāmī.
Programmā Python DataFrame, Pandas bibliotēkas galvenā sastāvdaļa, kalpo kā visaptverošs divdimensiju datu konteiners. Tas atgādina tabulu, un tajā ir skaidri ietverti dati, izmantojot rindas un kolonnas, katrai no kurām ir atšķirīgs rādītājs. Tā daudzpusība ļauj kolonnās ievietot dažādus datu tipus, nodrošinot elastību sarežģītu datu kopu apstrādē.
Pandas DataFrames sniedz lietotājiem plašu funkciju klāstu. Sākot no strukturētu datu izveides, izmantojot vārdnīcas vai citas datu struktūras, līdz stabilai indeksēšanai, lai nodrošinātu netraucētu piekļuvi datiem, Pandas atvieglo datu manipulācijas bez piepūles. Bibliotēka nodrošina intuitīvu saskarni tādu darbību izpildei kā rindu filtrēšana, pamatojoties uz nosacījumiem, datu grupēšana apkopošanai un viegla statistiskās analīzes veikšana.
Mēs varam importēt DataFrames no ārējās krātuves; šīs krātuves var saukt par SQL Datu bāze, CSV fails un Excel fails. Mēs varam izmantot arī sarakstus, vārdnīcu un vārdnīcu sarakstu utt.
Šajā apmācībā mēs iemācīsimies izveidot datu rāmi vairākos veidos. Sapratīsim šos dažādos veidus.
Pirmkārt, mums ir jāinstalē pandas bibliotēka Python vidi.
Tukšs datu rāmis
Mēs varam izveidot pamata tukšu Dataframe. Lai izveidotu DataFrame, ir jāizsauc datu rāmja konstruktors. Sapratīsim šādu piemēru.
Piemērs -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe
Izvade:
Empty DataFrame Columns: [] Index: []
2. metode: izveidojiet datu rāmi, izmantojot sarakstu
Mēs varam izveidot datu rāmi, izmantojot vienu sarakstu vai sarakstu sarakstu. Sapratīsim šādu piemēru.
Piemērs -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe
Izvade:
0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go
Paskaidrojums:
- Importēt Pandas: importēt pandas kā pd importē Pandas bibliotēku un apzīmē to kā pd, lai būtu īsts.
- Izveidot sarakstu: lst ir īss apraksts, kurā ir virkņu vērtības, kas attiecas uz programmēšanas dialektiem.
- DataFrame izstrāde: pd.DataFrame(lst) izveido DataFrame no izlietotā lst. Protams, kad tiek dots vientuļš nolietojums, Pandas izveido DataFrame ar atsevišķu sadaļu.
- Printing DataFrame: print(dframe) izdrukā nākamo DataFrame.
3. metode: izveidojiet datu rāmi no ndarray/lists diktāta
Datu ietvara izveidei var izmantot ndarray/lists diktātu ndarray jābūt vienāda garuma. Indekss pēc noklusējuma būs diapazons(n); kur n apzīmē masīva garumu. Sapratīsim šādu piemēru.
Piemērs -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe Izvade:
Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18
Paskaidrojums:
- Importēt Pandas: importēt pandas kā pd importē Pandas bibliotēku un sauc to par pd.
- Izveidot vārdnīcu: informācija ir vārda atsauce, kur atslēgas ir segmentu nosaukumi ('Vārds' un 'Vecums'), bet vērtības ir ieraksti, kas satur saistītu informāciju.
- DataFrame izstrāde: pd.DataFrame(data) izveido DataFrame no vārda atsauces. Taustiņi kļūst par sadaļu nosaukumiem, un norādes kļūst par segmentiem.
- Printing DataFrame: print(df) izdrukā nākamo DataFrame.
4. metode: izveidojiet indeksu datu rāmi, izmantojot masīvus
Izpratīsim šo piemēru, lai izveidotu indeksu datu rāmi, izmantojot masīvus.
Piemērs -
# Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df) Izvade:
Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0
Paskaidrojums:
- Importēt Pandas: importēt pandas kā pd importē Pandas bibliotēku un sauc to par pd.
- Izveidot vārdnīcu: informācija ir vārda atsauce, kur atslēgas ir segmentu nosaukumi ('Nosaukums' un 'Novērtējumi'), bet vērtības ir ieraksti, kas satur saistītu informāciju.
- DataFrame izstrāde: pd.DataFrame(data, index=['pozīcija1', 'pozīcija2', 'pozīcija3', 'pozīcija4']) izveido DataFrame no vārda atsauces. Iepriekš noteiktais saraksts tiek piešķirts rindām.
- Printing DataFrame: print(df) izdrukā nākamo DataFrame.
5. metode: izveidojiet datu rāmi no diktātu saraksta
Mēs varam nodot vārdnīcu sarakstus kā ievades datus, lai izveidotu Pandas datu rāmi. Kolonnu nosaukumi pēc noklusējuma tiek uzskatīti par taustiņiem. Sapratīsim šādu piemēru.
Piemērs -
# Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df) Izvade:
A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0
Izpratīsim citu piemēru, kā izveidot pandas datu rāmi no vārdnīcu saraksta gan ar rindu indeksu, gan kolonnu indeksu.
Paskaidrojums:
- Importēt Pandas: importēt pandas kā pd importē Pandas bibliotēku un sauc to par pd.
- Izveidot sarakstu un vārdnīcu: informācija ir īss apraksts, kurā katrs komponents ir vārda atsauce, kas attiecas uz DataFrame kolonnu. Vārdu atsauču taustiņi kļūst par segmentu nosaukumiem.
- DataFrame izstrāde: pd.DataFrame(data) izveido DataFrame, izmantojot vārdu atsauces. Vārdu atsauču atslēgas kļūst par sadaļām, un īpašības kļūst par informāciju DataFrame.
- Printing DataFrame: print(df) izdrukā nākamo DataFrame.
Piemērs — 2:
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2) Izvade:
x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN
Paskaidrojums:
Pandas bibliotēka tiek izmantota, lai izveidotu divus nepārprotamus DataFrame, kas tiek apzīmēti kā dframe1 un dframe2, sākot no vārdu atsauču nosaukumiem. Šīs vārdu atsauces darbojas kā atsevišķu rindu attēlojums datu rāmjos, kur atslēgas attiecas uz segmentu nosaukumiem un saistītās īpašības attiecas uz attiecīgo informāciju. Pamatā esošais DataFrame, dframe1, tiek palaists ar skaidriem rindu failiem ('first' un 'second') un sadaļas ierakstiem ('x' un 'y'). Tādējādi otrs DataFrame, dframe2, tiek izveidots, izmantojot līdzīgu informācijas kolekciju, taču sadaļu failos ir atšķirības, kas skaidri apzīmētas kā “x” un “y1”. Kods tiek aizvērts, izdrukājot abus DataFrame vadības centrā, precizējot katra DataFrame konkrēto sadaļu dizainu. Šis kods ir plašs DataFrame izveides un kontroles izklāsts pandas bibliotēkā, piedāvājot pieredzi par to, kā var izpildīt sadaļas ierakstu šķirnes.
Piemērs - 3
# The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe) Izvade:
x y z first 2 NaN 3 second 10 20.0 30
Paskaidrojums:
Šajā Python kodā Pandas DataFrame ir izstrādāts, izmantojot pandas bibliotēku, sniedzot vārdu atsauces izkārtojumus un nosakot kolonnu ierakstus. Cikls sākas ar pandu bibliotēkas importēšanu, kurai īsuma labad piešķirts viltus nosaukums “pd”. Tādējādi tiek raksturots vārdu atsauču nosauktās informācijas kopums, kur katra vārda atsauce attiecas uz DataFrame rindu. Taustiņi šajās vārdu atsaucēs nozīmē segmentu nosaukumus, savukārt saistītās vērtības norāda svarīgo informāciju.
Pēc tam DataFrame, kas apzīmēts kā dframe, tiek izveidots, izmantojot konstruktoru pd.DataFrame(), konsolidējot sniegto informāciju un skaidri iestatot rindas ierakstus uz 'pirmais' un 'otrais'. Nākamais DataFrame parāda vienmērīgu dizainu ar sadaļām ar nosaukumu “x”, “y” un “z”. Visas trūkstošās īpašības tiek apzīmētas kā 'NaN'.
6. metode: izveidojiet datu rāmi, izmantojot funkciju zip().
Funkcija zip () tiek izmantota, lai apvienotu divus sarakstus. Sapratīsim šādu piemēru.
Piemērs -
# The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)
Izvade:
[('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47
Paskaidrojums:
Šis Python kods parāda Pandas DataFrame izveidi no diviem ierakstiem, konkrēti 'nosaukums' un 'zīmogi', izmantojot pandas bibliotēku un saspiešanas iespēju. Pēc pandas bibliotēkas importēšanas tiek raksturoti ieraksti 'Nosaukums' un 'Pārbaudes', kas attiecas uz ideālajām DataFrame sadaļām. Zip iespēja tiek izmantota, lai apvienotu komponentu salīdzināšanu no šiem izlaidumiem korežos, veidojot citu izkārtojumu ar nosaukumu list_tuples.
Pēc tam kods tajā brīdī izdrukā korešu sarakstu, lai sniegtu īsu ieskatu apvienotajā informācijā. Līdz ar to Pandas DataFrame ar nosaukumu dframe tiek izveidots, izmantojot konstruktoru pd.DataFrame(), kurā korešu izlaidums tiek mainīts organizētā vienmērīgā konfigurācijā. Segmenti 'Nosaukums' un 'Zīmogi' ir nepārprotami piešķirti šajā DataFrame izveides procesā.
7. metode: izveidojiet datu rāmi no sērijas diktātiem
Vārdnīcu var nodot, lai izveidotu datu rāmi. Mēs varam izmantot sēriju diktātus, kur nākamais indekss ir visu nodoto indeksa vērtību sēriju savienība. Sapratīsim šādu piemēru.
Piemērs -
# Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe) Izvade:
Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96
Paskaidrojums:
Šajā Python kodā Pandas DataFrame ir izveidots no vārdu atsaucēm uz sērijām, izmantojot pandas bibliotēku. Divas tēmas, “Sīkrīki” un “Kopējais”, tiek aplūkotas kā sadaļas, un atsevišķi rādītāji ar skaidriem failiem tiek saskaņoti DataFrame ar nosaukumu dframe. Turpmākā vienkāršā konstrukcija tiek iespiesta vadības centrā, parādot kompaktu tehniku iezīmētas informācijas koordinēšanai un izpētei, izmantojot Pandas.
Šajā apmācībā mēs esam apsprieduši dažādus DataFrames izveides veidus.