Cum se creează un DataFrame în Python?

Un cadru de date este o colecție de date în două dimensiuni. Este o structură de date în care datele sunt stocate în formă tabelară. Seturile de date sunt aranjate pe rânduri și coloane; putem stoca mai multe seturi de date în cadrul de date. Putem efectua diverse operații aritmetice, cum ar fi adăugarea de coloane/rânduri de selecție și coloane/rânduri în cadrul de date.

În Python, un DataFrame, o componentă esențială a bibliotecii Pandas, servește ca un container cuprinzător de date bidimensionale. Semănând cu un tabel, încapsulează datele cu claritate, utilizând rânduri și coloane, fiecare dotate cu un index distinctiv. Versatilitatea sa permite acomodarea diferitelor tipuri de date în coloane, oferind flexibilitate în gestionarea seturilor de date complexe.

Pandas DataFrames oferă utilizatorilor o gamă largă de funcționalități. De la crearea de date structurate folosind dicționare sau alte structuri de date până la utilizarea unei indexări robuste pentru un acces fără probleme la date, Pandas facilitează manipularea fără efort a datelor. Biblioteca oferă o interfață intuitivă pentru executarea operațiunilor, cum ar fi filtrarea rândurilor în funcție de condiții, gruparea datelor pentru agregare și efectuarea de analize statistice cu ușurință.

Putem importa DataFrames-urile din stocarea externă; aceste depozite pot fi denumite SQL Baza de date, fișier CSV și un fișier Excel. De asemenea, putem folosi listele, dicționarul și dintr-o listă de dicționar etc.

În acest tutorial, vom învăța să creăm cadrul de date în mai multe moduri. Să înțelegem aceste moduri diferite.

În primul rând, trebuie să instalăm biblioteca panda în Piton mediu inconjurator.

Un cadru de date gol

Putem crea un Dataframe de bază gol. Constructorul dataframe trebuie apelat pentru a crea DataFrame. Să înțelegem următorul exemplu.

Exemplu -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe  

Ieșire:

 Empty DataFrame Columns: [] Index: []  

Metoda - 2: Creați un cadru de date folosind Listă

Putem crea un cadru de date folosind o singură listă sau o listă de liste. Să înțelegem următorul exemplu.

Exemplu -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe  

Ieșire:

 0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go  

Explicaţie:

  • Import Pandas: import Pandas ca pd importă biblioteca Pandas și o numește ca pd pentru scurtețe.
  • Creare listă: lst este o listă care conține valori de șir care se adresează dialectelor de programare.
  • Dezvoltare DataFrame: pd.DataFrame(lst) construiește un DataFrame din rundown lst. Bineînțeles, atunci când este dat un detaliu solitar, Pandas realizează un DataFrame cu o secțiune solitară.
  • Imprimare DataFrame: print(dframe) tipărește DataFrame-ul următor.

Metoda - 3: Creați un cadru de date din dict de ndarray/liste

Dict-ul ndarray/lists poate fi folosit pentru a crea un cadru de date, toate ndarray trebuie să fie de aceeași lungime. Indexul va fi un interval (n) implicit; unde n denotă lungimea matricei. Să înțelegem următorul exemplu.

Exemplu -

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe  

Ieșire:

 Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18  

Explicaţie:

  • Import Pandas: import Pandas as pd importă biblioteca Pandas și o numește ca pd.
  • Creați dicționar: informațiile sunt o referință de cuvinte în care cheile sunt nume de segmente („Nume” și „Vârstă”), iar valorile sunt înregistrări care conțin informații în legătură.
  • Dezvoltare DataFrame: pd.DataFrame(data) construiește un DataFrame din cuvântul referință. Cheile devin nume de secțiuni, iar listele devin segmente.
  • Printing DataFrame: print(df) tipărește DataFrame-ul următor.

Metoda - 4: Creați un cadru de date de indexuri folosind matrice

Să înțelegem următorul exemplu pentru a crea cadrul de date al indexurilor folosind matrice.

Exemplu -

 # Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df)  

Ieșire:

 Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0  

Explicaţie:

  • Import Pandas: import Pandas as pd importă biblioteca Pandas și o numește ca pd.
  • Creați dicționar: informațiile sunt o referință de cuvinte în care cheile sunt nume de segmente („Nume” și „Evaluări”), iar valorile sunt înregistrări care conțin informații în legătură.
  • Dezvoltare DataFrame: pd.DataFrame(data, index=['position1', 'position2', 'position3', 'position4']) construieşte un DataFrame din cuvântul referinţă. Lista predefinită este alocată liniilor.
  • Printing DataFrame: print(df) tipărește DataFrame-ul următor.

Metoda - 5: Creați un cadru de date din lista de dict

Putem trece listele de dicționare ca date de intrare pentru a crea cadrul de date Pandas. Numele coloanelor sunt luate ca chei în mod implicit. Să înțelegem următorul exemplu.

Exemplu -

 # Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df)  

Ieșire:

 A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0  

Să înțelegem un alt exemplu pentru a crea cadrul de date Pandas din lista de dicționare atât cu index de rând, cât și cu index de coloană.

Explicaţie:

  • Import Pandas: import Pandas as pd importă biblioteca Pandas și o numește ca pd.
  • Creare listă și dicționar: informațiile sunt o listă în care fiecare componentă este o referință de cuvânt care se adresează unei coloane din DataFrame. Cheile referințelor de cuvinte devin nume de segmente.
  • Dezvoltare DataFrame: pd.DataFrame(data) construiește un DataFrame din lista de referințe de cuvinte. Cheile referințelor cuvântului devin secțiuni, iar calitățile devin informații din DataFrame.
  • Printing DataFrame: print(df) tipărește DataFrame-ul următor.

Exemplu - 2:

 # Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2)  

Ieșire:

 x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN  

Explicaţie:

Biblioteca Pandas este utilizată pentru a crea două DataFrame inconfundabile, înțelese ca dframe1 și dframe2, pornind de la o listă de referințe de cuvinte numite informații. Aceste referințe de cuvinte acționează ca reprezentări ale liniilor individuale din cadrul DataFrames-urilor, în care cheile se referă la numele segmentelor, iar calitățile aferente adresează informațiile relevante. DataFrame-ul de bază, dframe1, este pornit cu fișiere de linie explicite („primul” și „al doilea”) și înregistrări de secțiune („x” și „y”). Astfel, un al doilea DataFrame, dframe2, este creat folosind o colecție informațională similară, dar cu o disparitate în fișierele de secțiuni, semnificate explicit ca „x” și „y1”. Codul se închide prin imprimarea ambelor DataFrame în centrul de control, clarificând designul particular al secțiunilor fiecărui DataFrame. Acest cod se completează ca o schiță extinsă a creării și controlului DataFrame în cadrul bibliotecii panda, oferind experiențe despre modul în care pot fi executate varietățile din înregistrările secțiunilor.

Exemplu - 3

 # The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe)  

Ieșire:

 x y z first 2 NaN 3 second 10 20.0 30  

Explicaţie:

În acest cod Python, un Pandas DataFrame este dezvoltat utilizând biblioteca Pandas, oferind aranjamente de referințe de cuvinte și determinând înregistrările coloanelor. Ciclul începe cu importul bibliotecii panda, atribuită prin numele fals „pd” pentru concizie. Prin urmare, este caracterizată o listă de referințe de cuvinte numite informații, în care fiecare referință de cuvânt se adresează unei linii din DataFrame. Cheile din interiorul acestor referințe de cuvinte înseamnă numele segmentelor, în timp ce valorile aferente indică informațiile importante.

DataFrame, indicat ca dframe, este apoi realizat folosind constructorul pd.DataFrame(), consolidând informațiile date și setând în mod expres înregistrările de linie la „primul” și „al doilea”. DataFrame-ul următor afișează un design uniform cu secțiuni numite „x”, „y” și „z”. Orice calități lipsă sunt semnificate ca „NaN”.

Metoda - 6: Creați un cadru de date folosind funcția zip().

Funcția zip() este folosită pentru a îmbina cele două liste. Să înțelegem următorul exemplu.

Exemplu -

 # The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)  

Ieșire:

 [('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47  

Explicaţie:

Acest cod Python arată producția unui Pandas DataFrame din două înregistrări, în special „Nume” și „Ștampile”, prin utilizarea bibliotecii Pandas și a capacității de comprimare. În urma importului bibliotecii panda, sunt caracterizate înregistrările „Nume” și „Verificări”, adresându-se secțiunilor ideale ale DataFrame-ului. Capacitatea zip este utilizată pentru a uni componente de comparare din aceste rundowns în tupluri, încadrând un alt rundown numit list_tuples.

Codul apoi, în acel moment, tipărește lista de tupluri pentru a oferi o scurtă privire asupra informațiilor unite. În consecință, un Pandas DataFrame numit dframe este realizat utilizând constructorul pd.DataFrame(), în care lista de tupluri este schimbată într-o configurație uniformă organizată. Segmentele „Nume” și „Ștampile” sunt alocate fără echivoc în timpul acestui proces de creare a cadrului de date.

Metoda - 7: Creați un cadru de date din Dicts of series

Dicționarul poate fi transmis pentru a crea un cadru de date. Putem folosi Dicts of series unde indexul ulterior este uniunea tuturor serii de valoare a indicelui trecut. Să înțelegem următorul exemplu.

Exemplu -

 # Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe)  

Ieșire:

 Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96  

Explicaţie:

În acest cod Python, un Pandas DataFrame este realizat din referințe de cuvinte ale seriei care utilizează biblioteca Pandas. Două subiecte, „Gadgets” și „Common”, sunt abordate ca secțiuni, iar scorurile individuale cu fișiere explicite sunt coordonate într-un DataFrame numit dframe. Construcția simplă ulterioară este imprimată la centrul de control, arătând o tehnică compactă de coordonare și investigare a informațiilor marcate folosind Pandas.

În acest tutorial, am discutat despre diferitele modalități de a crea DataFrames.