Hogyan lehet DataFrame-et létrehozni Pythonban?
Az adatkeret kétdimenziós adatgyűjtemény. Ez egy olyan adatstruktúra, amelyben az adatokat táblázatos formában tárolják. Az adatkészletek sorokba és oszlopokba vannak rendezve; több adathalmazt is tárolhatunk az adatkeretben. Különféle aritmetikai műveleteket hajthatunk végre, például oszlop/sor kijelölés és oszlopok/sorok hozzáadását az adatkerethez.
A Pythonban a DataFrame, a Pandas könyvtár egyik központi eleme, átfogó kétdimenziós adattárolóként szolgál. Táblázatszerű, világosan magába foglalja az adatokat, sorokat és oszlopokat alkalmazva, amelyek mindegyike sajátos indexszel van ellátva. Sokoldalúsága lehetővé teszi különféle adattípusok elhelyezését az oszlopokon belül, rugalmasságot biztosítva az összetett adatkészletek kezelésében.
A Pandas DataFrames funkciók széles skálájával ruházza fel a felhasználókat. A strukturált adatok szótárak vagy más adatstruktúrák segítségével történő létrehozásától a zökkenőmentes adathozzáférést biztosító robusztus indexelésig a Pandas megkönnyíti az adatkezelést. A könyvtár intuitív interfészt biztosít olyan műveletek végrehajtásához, mint a sorok feltételek alapján történő szűrése, az adatok csoportosítása aggregáláshoz és a statisztikai elemzések egyszerű elvégzése.
A DataFrame-eket a külső tárolóról importálhatjuk; ezeket a tárolókat nevezhetjük a SQL Adatbázis, CSV-fájl és egy Excel-fájl. Használhatjuk a listákat, szótárat, szótárlistából stb.
Ebben az oktatóanyagban megtanuljuk az adatkeret többféle módon történő létrehozását. Értsük meg ezeket a különböző módokat.
Először telepítenünk kell a pandas könyvtárat a Piton környezet.
Üres adatkeret
Létrehozhatunk egy alap üres Dataframe-et. A DataFrame létrehozásához meg kell hívni a dataframe konstruktort. Értsük meg a következő példát.
Példa -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe
Kimenet:
Empty DataFrame Columns: [] Index: []
2. módszer: Hozzon létre egy adatkeretet a Lista segítségével
Adatkeretet létrehozhatunk egyetlen lista vagy listák segítségével. Értsük meg a következő példát.
Példa -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe
Kimenet:
0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go
Magyarázat:
- Pandák importálása: A pandák importálása pd-ként importálja a Pandas könyvtárat, és pd-nek nevezi el a curtness miatt.
- Lista létrehozása: Az lst egy programozási dialektusokat megszólító karakterlánc-értékeket tartalmazó lefutás.
- DataFrame fejlesztés: A pd.DataFrame(lst) egy DataFrame-et épít a lebontott lst-ből. Természetesen, amikor egy magányos lerobbant adják, a Pandas egy DataFrame-et készít magányos részből.
- DataFrame nyomtatása: a print(dframe) kinyomtatja a következő DataFrame-et.
3. módszer: Hozzon létre Dataframe-et az ndarray/lists diktátumból
Az ndarray/lists diktátum segítségével adatkeretet hozhatunk létre, az összes ndarray azonos hosszúságúnak kell lennie. Az index alapértelmezés szerint egy tartomány(n) lesz; ahol n a tömb hosszát jelöli. Értsük meg a következő példát.
Példa -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe Kimenet:
Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18
Magyarázat:
- Pandák importálása: a pandák importálása pd-ként importálja a Pandas könyvtárat, és pd-nek nevezi.
- Szótár létrehozása: az információ egy szóhivatkozás, ahol a kulcsok szegmensnevek („Név” és „Kor”), az értékek pedig a kapcsolódó információkat tartalmazó rekordok.
- DataFrame fejlesztés: A pd.DataFrame(data) a szóhivatkozásból DataFrame-et épít fel. A kulcsok szakasznevekké, a lefejtések pedig szegmensekké válnak.
- DataFrame nyomtatása: a print(df) kinyomtatja a következő DataFrame-et.
4. módszer: Indexes adatkeret létrehozása tömbök segítségével
Nézzük meg a következő példát az indexek adatkeretének tömbök segítségével történő létrehozásához.
Példa -
# Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df) Kimenet:
Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0
Magyarázat:
- Pandák importálása: a pandák importálása pd-ként importálja a Pandas könyvtárat, és pd-nek nevezi.
- Szótár létrehozása: az információ egy szóhivatkozás, ahol a kulcsok szegmensnevek ('Név' és 'Értékelések'), az értékek pedig a kapcsolódó információkat tartalmazó rekordok.
- DataFrame fejlesztés: a pd.DataFrame(data, index=['pozíció1', 'pozíció2', 'pozíció3', 'pozíció4']) egy DataFrame-et épít fel a szóhivatkozásból. Az előre meghatározott lista hozzá van rendelve a sorokhoz.
- DataFrame nyomtatása: a print(df) kinyomtatja a következő DataFrame-et.
5. módszer: Adatkeret létrehozása a diktált listából
A Pandas adatkeret létrehozásához bemeneti adatként átadhatjuk a szótárak listáit. Az oszlopnevek alapértelmezés szerint kulcsok. Értsük meg a következő példát.
Példa -
# Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df) Kimenet:
A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0
Nézzünk meg egy másik példát a panda adatkeret létrehozására a sorindexet és az oszlopindexet is tartalmazó szótárak listájából.
Magyarázat:
- Pandák importálása: a pandák importálása pd-ként importálja a Pandas könyvtárat, és pd-nek nevezi.
- Lista és szótár létrehozása: az információ egy lebontás, ahol minden összetevő szóhivatkozás, amely a DataFrame egy oszlopát címezi. A szóhivatkozások kulcsai szegmensnevekké válnak.
- DataFrame fejlesztés: A pd.DataFrame(data) egy DataFrame-et épít fel a szóhivatkozások összesítéséből. A szóhivatkozások kulcsai szakaszokká, a minőségek pedig a DataFrame információivá válnak.
- DataFrame nyomtatása: a print(df) kinyomtatja a következő DataFrame-et.
Példa - 2:
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2) Kimenet:
x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN
Magyarázat:
A pandas könyvtárat arra használják, hogy két összetéveszthetetlen DataFrame-et készítsenek, amelyek jelentése dframe1 és dframe2, a szóhivatkozások névre szóló információiból kiindulva. Ezek a szóhivatkozások a DataFrame-en belüli egyes sorok ábrázolásaként működnek, ahol a kulcsok a szegmensnevekhez kapcsolódnak, és a kapcsolódó minőségek a releváns információkat szólítják meg. Az alapul szolgáló DataFrame, a dframe1, explicit sorfájlokkal ('first' és 'second') és szakaszrekordokkal ('x' és 'y') indul el. Így egy második DataFrame, a dframe2 hasonló információs gyűjtemény felhasználásával jön létre, de a szakaszfájlokban eltérések vannak, amelyeket kifejezetten „x” és „y1”-ként jelölnek. A kód úgy zárul, hogy mindkét DataFrame-et kinyomtatja a vezérlőközpontba, tisztázva az egyes DataFrame-ek adott szakaszterveit. Ez a kód a pandas könyvtáron belüli DataFrame létrehozásának és vezérlésének kiterjedt vázlataként szolgál, tapasztalatokat kínálva a szakaszrekordok változatainak végrehajtásához.
Példa - 3
# The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe) Kimenet:
x y z first 2 NaN 3 second 10 20.0 30
Magyarázat:
Ebben a Python-kódban egy Pandas DataFrame-et fejlesztettek ki a pandas könyvtár felhasználásával, szóhivatkozások elrendezésével és oszloprekordok meghatározásával. A ciklus a pandas könyvtár importálásával kezdődik, amelyet a rövidség kedvéért a 'pd' hamis névvel rendelünk hozzá. Ennélfogva a szóhivatkozások névre szóló információinak lefutását jellemezzük, ahol minden szóhivatkozás a DataFrame egy sorát célozza meg. A szóhivatkozásokon belüli billentyűk a szegmensneveket, a kapcsolódó értékek pedig a fontos információkat jelölik.
A DataFrame, amelyet dframe-ként jelölünk, a pd.DataFrame() konstruktor segítségével készíti el, konszolidálja a megadott információkat, és kifejezetten a sorrekordokat 'first' és 'second' értékre állítja. A következő DataFrame egyenletes elrendezést jelenít meg „x”, „y” és „z” nevű szakaszokkal. A hiányzó tulajdonságokat „NaN”-ként jelöljük.
6. módszer: Adatkeret létrehozása a zip() függvény segítségével
A zip() függvény a két lista egyesítésére szolgál. Értsük meg a következő példát.
Példa -
# The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)
Kimenet:
[('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47
Magyarázat:
Ez a Python kód egy Pandas DataFrame létrehozását mutatja meg két rekordból, konkrétan a 'Névből' és a 'Bélyegekből', a pandas könyvtár és a tömörítési képesség felhasználásával. A pandas könyvtár importálása után a 'Név' és az 'Ellenőrzések' rekordokat jellemzik, a DataFrame ideális részeit megcélozva. A zip képességet arra használják, hogy az ezekből a lefutásokból származó összetevőket sorokká egyesítsék, egy másik list_tuples nevű lefutást keretezve.
A kód ekkor ezen a ponton kinyomtatja a sorok összesítését, hogy röviden áttekintse az egyesített információkat. Következésképpen a dframe nevű Pandas DataFrame a pd.DataFrame() konstruktor felhasználásával készül, ahol a sorok lefutása szervezett egyenletes konfigurációvá változik. A „Név” és a „Bélyegzők” szegmenseket egyértelműen kiosztják a DataFrame létrehozási folyamata során.
- 7. módszer: Adatkeret létrehozása sorozatok diktátumaiból
A szótár átadható egy adatkeret létrehozásához. Használhatjuk a sorozatok diktátumait, ahol a következő index az összes átadott indexérték sorozatának uniója. Értsük meg a következő példát.
Példa -
# Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe) Kimenet:
Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96
Magyarázat:
Ebben a Python-kódban a Pandas DataFrame a pandas könyvtárat használó sorozatok szóhivatkozásaiból készül. Két témát, a „Gadgets”-t és a „Common” szakaszként kezeljük, és az explicit fájlokat tartalmazó egyedi pontszámokat egy dframe nevű DataFrame-be koordináljuk. Az ezt követő sima konstrukció a vezérlőközpontba kerül, amely egy kompakt technikát mutat be a megjelölt információk koordinálására és kivizsgálására Pandák felhasználásával.
Ebben az oktatóanyagban a DataFrame-ek létrehozásának különböző módjait tárgyaltuk.