Jak vytvořit DataFrame v Pythonu?

Datový rámec je dvourozměrný soubor dat. Jde o datovou strukturu, kde jsou data uložena v tabulkové formě. Datové sady jsou uspořádány do řádků a sloupců; v datovém rámci můžeme uložit více datových sad. Můžeme provádět různé aritmetické operace, jako je přidání výběru sloupců/řádků a sloupců/řádků v datovém rámci.

V Pythonu slouží DataFrame, stěžejní komponenta knihovny Pandas, jako komplexní dvourozměrný datový kontejner. Připomíná tabulku a přehledně zapouzdřuje data pomocí řádků a sloupců, z nichž každý je vybaven charakteristickým indexem. Jeho všestrannost umožňuje umístění různých typů dat ve sloupcích, což poskytuje flexibilitu při manipulaci se složitými datovými sadami.

Pandas DataFrames poskytují uživatelům širokou škálu funkcí. Od vytváření strukturovaných dat pomocí slovníků nebo jiných datových struktur až po použití robustního indexování pro bezproblémový přístup k datům, Pandas usnadňuje manipulaci s daty. Knihovna poskytuje intuitivní rozhraní pro provádění operací, jako je filtrování řádků na základě podmínek, seskupování dat pro agregaci a snadné provádění statistických analýz.

Můžeme importovat DataFrames z externího úložiště; tato úložiště lze označit jako SQL Databáze, soubor CSV a soubor Excel. Můžeme také použít seznamy, slovník a ze seznamu slovníků atd.

V tomto tutoriálu se naučíme vytvářet datový rámec několika způsoby. Pojďme pochopit tyto různé způsoby.

Nejprve musíme nainstalovat knihovnu pandas do Krajta životní prostředí.

Prázdný datový rámec

Můžeme vytvořit základní prázdný Dataframe. K vytvoření DataFrame je třeba zavolat konstruktor datového rámce. Pojďme pochopit následující příklad.

Příklad -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Výstup:

 Empty DataFrame Columns: [] Index: []  

Metoda - 2: Vytvořte datový rámec pomocí List

Můžeme vytvořit datový rámec pomocí jednoho seznamu nebo seznamu seznamů. Pojďme pochopit následující příklad.

Příklad -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Výstup:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Vysvětlení:

  • Importovat pandy: importovat pandy jako pd importuje knihovnu Pandas a stručně ji pojmenovává jako pd.
  • Vytvořit seznam: lst je souhrn obsahující hodnoty řetězců adresující programovací dialekty.
  • Vývoj datového rámce: pd.DataFrame(lst) sestaví datový rámec ze staženého lst. Samozřejmě, když je uveden osamělý přehled, Pandas vytvoří DataFrame se samostatnou sekcí.
  • Printing DataFrame: print(dframe) vytiskne následující DataFrame.

Metoda - 3: Vytvořte Dataframe z příkazu ndarray/lists

K vytvoření datového rámce lze použít příkaz ndarray/lists ndarray musí mít stejnou délku. Index bude standardně range(n); kde n označuje délku pole. Pojďme pochopit následující příklad.

Příklad -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Výstup:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Vysvětlení:

  • Importovat pandy: importovat pandy jako pd importuje knihovnu Pandas a označuje ji jako pd.
  • Vytvořit slovník: informace je odkaz na slovo, kde klíče jsou názvy segmentů („Jméno“ a „Věk“) a hodnoty jsou záznamy obsahující související informace.
  • Vývoj datového rámce: pd.DataFrame(data) vytvoří DataFrame z odkazu na slovo. Z klíčů se stanou názvy sekcí a seřazení se stanou segmenty.
  • Printing DataFrame: print(df) vytiskne následující DataFrame.

Metoda - 4: Vytvořte datový rámec indexů pomocí polí

Pojďme pochopit následující příklad pro vytvoření datového rámce indexů pomocí polí.

Příklad -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Výstup:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Vysvětlení:

  • Importovat pandy: importovat pandy jako pd importuje knihovnu Pandas a označuje ji jako pd.
  • Vytvořit slovník: informace je odkaz na slovo, kde klíče jsou názvy segmentů („Název“ a „Vyhodnocení“) a hodnoty jsou záznamy obsahující související informace.
  • Vývoj datového rámce: pd.DataFrame(data, index=['pozice1', 'pozice2', 'pozice3', 'pozice4']) vytvoří DataFrame z odkazu slova. Předdefinovaný seznam je přiřazen k řádkům.
  • Printing DataFrame: print(df) vytiskne následující DataFrame.

Metoda - 5: Vytvořte Dataframe ze seznamu diktátů

Seznamy slovníků můžeme předat jako vstupní data pro vytvoření datového rámce Pandas. Názvy sloupců jsou standardně brány jako klíče. Pojďme pochopit následující příklad.

Příklad -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Výstup:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Pojďme pochopit další příklad vytvoření datového rámce pandas ze seznamu slovníků s indexem řádků i indexem sloupců.

Vysvětlení:

  • Importovat pandy: importovat pandy jako pd importuje knihovnu Pandas a označuje ji jako pd.
  • Vytvořit seznam a slovník: informace jsou shrnutí, kde každá komponenta je odkaz na slovo adresující sloupec v DataFrame. Klíče slovních odkazů se stanou názvy segmentů.
  • Vývoj datového rámce: pd.DataFrame(data) vytváří DataFrame ze shromážďování slovních odkazů. Klíče slovních odkazů se stanou sekcemi a kvality se stanou informacemi v DataFrame.
  • Printing DataFrame: print(df) vytiskne následující DataFrame.

Příklad – 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Výstup:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Vysvětlení:

Knihovna pandas se používá k vytvoření dvou nezaměnitelných datových rámců, myšlených jako dframe1 a dframe2, počínaje souhrnem slovních odkazů s názvem informace. Tyto slovní odkazy fungují jako zobrazení jednotlivých řádků uvnitř DataFrames, kde se klíče vztahují k názvům segmentů a související kvality oslovují relevantní informace. Základní DataFrame, dframe1, je spuštěn s explicitními řádkovými soubory ('první' a 'druhý') a záznamy sekcí ('x' a 'y'). Druhý DataFrame, dframe2, je tedy vytvořen pomocí podobné kolekce informací, avšak s rozdílem v souborech oddílů, explicitně označenými jako 'x' a 'y1'. Kód se uzavírá vytištěním obou DataFrame do řídicího centra, čímž se objasní konkrétní návrhy sekcí každého DataFrame. Tento kód vyplňuje rozsáhlý přehled vytváření a ovládání DataFrame uvnitř knihovny pandas a nabízí zkušenosti s tím, jak lze provádět odrůdy v záznamech sekcí.

Příklad - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Výstup:

 x y z first 2 NaN 3 second 10 20.0 30  

Vysvětlení:

V tomto kódu Pythonu je Pandas DataFrame vyvinut s využitím knihovny pandas tím, že poskytuje uspořádání slovních odkazů a určování záznamů sloupců. Cyklus začíná importem knihovny pandas, která je kvůli stručnosti přiřazena falešným názvem 'pd'. Proto je charakterizován přehled slovních odkazů pojmenovaných jako informace, kde každý slovní odkaz adresuje řádek DataFrame. Klíče uvnitř těchto slovních odkazů znamenají názvy segmentů, zatímco související hodnoty označují důležité informace.

DataFrame, označený jako dframe, je pak vytvořen pomocí konstruktoru pd.DataFrame(), konsoliduje poskytnuté informace a výslovně nastaví řádkové záznamy na „první“ a „druhý“. Následující DataFrame zobrazí rovnoměrný design s sekcemi pojmenovanými 'x', 'y' a 'z'. Jakékoli chybějící vlastnosti jsou označeny jako „NaN“.

Metoda - 6: Vytvořte datový rámec pomocí funkce zip().

Ke sloučení těchto dvou seznamů se používá funkce zip(). Pojďme pochopit následující příklad.

Příklad -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Výstup:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Vysvětlení:

Tento kód Pythonu ukazuje produkci Pandas DataFrame ze dvou záznamů, konkrétně 'Name' a 'Stamps', s využitím knihovny pandas a schopnosti komprimace. Po importu knihovny pandas jsou charakterizovány záznamy 'Name' a 'Checks', které řeší ideální části DataFrame. Schopnost zip se využívá ke spojení porovnávání komponent z těchto rundownů do n-tic, čímž se tvoří další rundown s názvem list_tuples.

Kód pak v tomto okamžiku vytiskne přehled n-tic, aby poskytl krátký pohled na spojené informace. Následně je vytvořen Pandas DataFrame pojmenovaný dframe s využitím konstruktoru pd.DataFrame(), ve kterém se shrnutí n-tic změní na organizovanou sudou konfiguraci. Segmenty 'Název' a 'Razítka' jsou během tohoto procesu vytváření DataFrame jednoznačně přiděleny.

Metoda - 7: Vytvořte datový rámec z Dicts of series

Slovník lze předat k vytvoření datového rámce. Můžeme použít Dicts of series, kde následný index je sjednocením všech řad předaných hodnot indexu. Pojďme pochopit následující příklad.

Příklad -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Výstup:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Vysvětlení:

V tomto kódu Pythonu je Pandas DataFrame vytvořen ze slovních odkazů na série využívající knihovnu pandas. Dva předměty, 'Gadgets' a 'Common,' jsou řešeny jako sekce a jednotlivá skóre s explicitními soubory jsou koordinována do DataFrame s názvem dframe. Následná jednoduchá konstrukce je vytištěna do řídicího centra a ukazuje kompaktní techniku ​​pro koordinaci a vyšetřování označených informací pomocí Pandas.

V tomto tutoriálu jsme diskutovali o různých způsobech vytváření datových rámců.