Jak utworzyć ramkę danych w Pythonie?
Ramka danych to dwuwymiarowy zbiór danych. Jest to struktura danych, w której dane są przechowywane w formie tabelarycznej. Zbiory danych są ułożone w wiersze i kolumny; możemy przechowywać wiele zestawów danych w ramce danych. Możemy wykonywać różne operacje arytmetyczne, takie jak dodawanie zaznaczania kolumn/wierszy oraz kolumn/wierszy w ramce danych.
W Pythonie DataFrame, kluczowy komponent biblioteki Pandas, służy jako kompleksowy dwuwymiarowy kontener danych. Przypominający tabelę, hermetyzuje dane w przejrzysty sposób, wykorzystując wiersze i kolumny, każdy wyposażony w charakterystyczny indeks. Jego wszechstronność pozwala na umieszczenie różnorodnych typów danych w kolumnach, zapewniając elastyczność w obsłudze złożonych zbiorów danych.
Pandas DataFrames zapewniają użytkownikom szeroką gamę funkcjonalności. Od tworzenia uporządkowanych danych przy użyciu słowników lub innych struktur danych po stosowanie solidnego indeksowania w celu zapewnienia bezproblemowego dostępu do danych, Pandas ułatwia manipulację danymi bez wysiłku. Biblioteka zapewnia intuicyjny interfejs do wykonywania operacji, takich jak filtrowanie wierszy na podstawie warunków, grupowanie danych w celu agregacji i łatwe przeprowadzanie analiz statystycznych.
Możemy zaimportować DataFrames z pamięci zewnętrznej; te magazyny można nazwać SQL-a Baza danych, plik CSV i plik Excel. Możemy także skorzystać z list, słownika, z listy słownika itp.
W tym samouczku nauczymy się tworzyć ramkę danych na wiele sposobów. Rozumiemy te różne sposoby.
Najpierw musimy zainstalować bibliotekę pand w pliku Pyton środowisko.
Pusta ramka danych
Możemy stworzyć podstawową pustą ramkę danych. Aby utworzyć ramkę DataFrame, należy wywołać konstruktor ramki danych. Rozumiemy następujący przykład.
Przykład -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are Calling DataFrame constructor df = pd.DataFrame() print(df) # here, we are printing the dataframe
Wyjście:
Empty DataFrame Columns: [] Index: []
Metoda - 2: Utwórz ramkę danych za pomocą listy
Możemy utworzyć ramkę danych przy użyciu pojedynczej listy lub listy list. Rozumiemy następujący przykład.
Przykład -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are declaring the string values in the list lst = ['Java', 'Python', 'C', 'C++', 'JavaScript', 'Swift', 'Go'] # Here, we are calling DataFrame constructor on list dframe = pd.DataFrame(lst) print(dframe) # here, we are printing the dataframe
Wyjście:
0 Java 1 Python 2 C 3 C++ 4 JavaScript 5 Swift 6 Go
Wyjaśnienie:
- Importuj Pandy: importuj pandy jako pd importuje bibliotekę Pand i nazywa ją pd dla zwięzłości.
- Utwórz listę: lst to podsumowanie zawierające wartości łańcuchowe dotyczące dialektów programowania.
- Rozwój DataFrame: pd.DataFrame(lst) buduje DataFrame z listy lst. Oczywiście, gdy zostanie podany pojedynczy podsumowanie, Pandas tworzy ramkę DataFrame z pojedynczą sekcją.
- Drukowanie ramki danych: print(dframe) drukuje kolejną ramkę danych.
Metoda - 3: Utwórz ramkę danych z dyktatu ndarray/lists
Dyktatu ndarray/lists można użyć do utworzenia ramki danych, wszystkich ndarray muszą być tej samej długości. Domyślnie indeksem będzie zakres (n); gdzie n oznacza długość tablicy. Rozumiemy następujący przykład.
Przykład -
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the data of lists. data = {'Name': ['Tom', 'Joseph', 'Krish', 'John'], 'Age': [20, 21, 19, 18]} # Here, we are creating the DataFrame df = pd.DataFrame(data) # here, we are printing the dataframe # Here, we are printing the output. print(df) # here, we are printing the dataframe Wyjście:
Name Age 0 Tom 20 1 Joseph 21 2 Krish 19 3 John 18
Wyjaśnienie:
- Importuj Pandy: importuj pandy jako pd importuje bibliotekę Pand i nadaje jej nazwę jako pd.
- Utwórz słownik: informacja to odwołanie do słowa, gdzie klucze to nazwy segmentów („Nazwa” i „Wiek”), a wartości to rekordy zawierające powiązane informacje.
- Tworzenie ramki DataFrame: pd.DataFrame(data) buduje ramkę DataFrame na podstawie słowa odwołanie. Klucze stają się nazwami sekcji, a podsumowania stają się segmentami.
- Drukowanie ramki danych: print(df) drukuje kolejną ramkę danych.
Metoda - 4: Utwórz ramkę danych indeksów przy użyciu tablic
Przyjrzyjmy się poniższemu przykładowi, aby utworzyć ramkę danych indeksów przy użyciu tablic.
Przykład -
# Here, we are implementing the DataFrame using arrays. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the data of lists. data = {'Name':['Renault', 'Duster', 'Maruti', 'Honda City'], 'Ratings':[9.0, 8.0, 5.0, 3.0]} # Here, we are creating the pandas DataFrame. df = pd.DataFrame(data, index =['position1', 'position2', 'position3', 'position4']) # Here, we are printing the data print(df) Wyjście:
Name Ratings position1 Renault 9.0 position2 Duster 8.0 position3 Maruti 5.0 position4 Honda City 3.0
Wyjaśnienie:
- Importuj Pandy: importuj pandy jako pd importuje bibliotekę Pand i nadaje jej nazwę jako pd.
- Utwórz słownik: informacja to odwołanie do słowa, gdzie klucze to nazwy segmentów („Nazwa” i „Oceny”), a wartości to rekordy zawierające powiązane informacje.
- Tworzenie ramki DataFrame: pd.DataFrame(data, indeks=['pozycja1', 'pozycja2', 'pozycja3', 'pozycja4']) tworzy ramkę DataFrame na podstawie słowa odwołanie. Predefiniowana lista jest przydzielana do linii.
- Drukowanie ramki danych: print(df) drukuje kolejną ramkę danych.
Metoda - 5: Utwórz ramkę danych z listy plików
Możemy przekazać listy słowników jako dane wejściowe do utworzenia ramki danych Pandy. Nazwy kolumn są domyślnie traktowane jako klucze. Rozumiemy następujący przykład.
Przykład -
# Here, we are implementing an example to create # Pandas DataFrame by using the lists of dicts. import pandas as pd # Here, we are importing the pandas library as pd # Here, we are assigning the values to lists. data = [{'A': 10, 'B': 20, 'C':30}, {'x':100, 'y': 200, 'z': 300}] # Here, we are creating the DataFrame. df = pd.DataFrame(data) # Here, we are printing the data of the dataframe print(df) Wyjście:
A B C x y z 0 10.0 20.0 30.0 NaN NaN NaN 1 NaN NaN NaN 100.0 200.0 300.0
Rozumiemy inny przykład tworzenia ramki danych pand z listy słowników z indeksem zarówno wierszy, jak i indeksów kolumn.
Wyjaśnienie:
- Importuj Pandy: importuj pandy jako pd importuje bibliotekę Pand i nadaje jej nazwę jako pd.
- Utwórz listę i słownik: informacja to podsumowanie, w którym każdy komponent jest odwołaniem do słowa odnoszącego się do kolumny w ramce DataFrame. Klucze słów referencji stają się nazwami segmentów.
- Tworzenie ramki DataFrame: pd.DataFrame(data) buduje ramkę DataFrame na podstawie zestawienia odniesień do słów. Klucze odwołań do słów stają się sekcjami, a cechy stają się informacjami w ramce DataFrame.
- Drukowanie ramki danych: print(df) drukuje kolejną ramkę danych.
Przykład - 2:
# Here, we are importing the pandas library as pd import pandas as pd # Here, we are assigning the values to the lists. data = [{'x': 1, 'y': 2}, {'A': 15, 'B': 17, 'C': 19}] # Here, we are declaring the two column indices, values same as the dictionary keys dframe1 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y']) # Here, we are declaring the variable dframe1 with the parameters data and the indexes # Here, we are declaring the two column indices with # one index with other name dframe2 = pd.DataFrame(data, index =['first', 'second'], columns =['x', 'y1']) # Here, we are declaring the variable dframe2 with the parameters data and the indexes # Here, we are printing the first data frame i.e., dframe1 print (dframe1, '
') # Here, we are printing the first data frame i.e., dframe2 print (dframe2) Wyjście:
x y first 1.0 2.0 second NaN NaN x y1 first 1.0 NaN second NaN NaN
Wyjaśnienie:
Biblioteka pandas jest wykorzystywana do tworzenia dwóch niepowtarzalnych ramek danych, oznaczanych jako dframe1 i dframe2, zaczynając od zestawienia odniesień do słów o nazwie informacja. Te odniesienia do słów pełnią rolę reprezentacji poszczególnych linii wewnątrz ramek danych, gdzie klucze odnoszą się do nazw segmentów, a powiązane cechy odnoszą się do odpowiednich informacji. Podstawowa ramka DataFrame, dframe1, jest uruchamiana z jawnymi plikami liniowymi („pierwszy” i „drugi”) oraz rekordami sekcji („x” i „y”). W ten sposób tworzona jest druga ramka danych, dframe2, przy użyciu podobnego zbioru informacji, ale z różnicami w plikach sekcji, wyraźnie oznaczonych jako „x” i „y1”. Kod zamyka się, drukując obie ramki danych do centrum sterowania, wyjaśniając poszczególne projekty sekcji każdej ramki danych. Ten kod stanowi obszerny zarys tworzenia i kontrolowania DataFrame w bibliotece pandas, oferując doświadczenia w zakresie wykonywania odmian w rekordach sekcji.
Przykład - 3
# The example is to create # Pandas DataFrame by passing lists of # Dictionaries and row indices. import pandas as pd # Here, we are importing the pandas library as pd # assign values to lists data = [{'x': 2, 'z':3}, {'x': 10, 'y': 20, 'z': 30}] # Creates padas DataFrame by passing # Lists of dictionaries and row index. dframe = pd.DataFrame(data, index =['first', 'second']) # Print the dataframe print(dframe) Wyjście:
x y z first 2 NaN 3 second 10 20.0 30
Wyjaśnienie:
W tym kodzie Pythona opracowano ramkę danych Pandas przy użyciu biblioteki pandas, podając układ odniesień do słów i określając rekordy kolumn. Cykl rozpoczyna się od importu biblioteki pand, której dla uproszczenia przypisano fałszywą nazwę „pd”. W związku z tym scharakteryzowano zestawienie odwołań do słów nazwanych informacjami, przy czym każde odwołanie do słowa odnosi się do wiersza ramki DataFrame. Klucze wewnątrz tych odwołań do słów oznaczają nazwy segmentów, podczas gdy powiązane wartości wskazują ważne informacje.
Następnie tworzona jest ramka DataFrame, oznaczona jako dframe, przy użyciu konstruktora pd.DataFrame(), konsolidującego podane informacje i wyraźnie ustawiającego rekordy linii na „pierwszy” i „drugi”. Kolejna ramka DataFrame wyświetla równy projekt z sekcjami o nazwach „x”, „y” i „z”. Wszelkie brakujące cechy są oznaczone jako „NaN”.
Metoda - 6: Utwórz ramkę danych za pomocą funkcji zip().
Funkcja zip() służy do łączenia dwóch list. Rozumiemy następujący przykład.
Przykład -
# The example is to create # pandas dataframe from lists using zip. import pandas as pd # Here, we are importing the pandas library as pd # List1 Name = ['tom', 'krish', 'arun', 'juli'] # List2 Marks = [95, 63, 54, 47] # two lists. # and merge them by using zip(). list_tuples = list(zip(Name, Marks)) # Assign data to tuples. print(list_tuples) # Converting lists of tuples into # pandas Dataframe. dframe = pd.DataFrame(list_tuples, columns=['Name', 'Marks']) # Print data. print(dframe)
Wyjście:
[('john', 95), ('krish', 63), ('arun', 54), ('juli', 47)] Name Marks 0 john 95 1 krish 63 2 arun 54 3 juli 47
Wyjaśnienie:
Ten kod w języku Python przedstawia tworzenie ramki danych Pandas na podstawie dwóch rekordów, w szczególności „Nazwy” i „Stempli”, przy użyciu biblioteki pandas i możliwości kompresji. Po zaimportowaniu biblioteki pandas scharakteryzowano rekordy „Name” i „Checks”, odnosząc się do idealnych sekcji ramki DataFrame. Funkcja zip jest wykorzystywana do łączenia porównywanych komponentów z tych zestawień w krotki, tworząc kolejne zestawienie o nazwie list_tuples.
Następnie kod w tym momencie wypisuje podsumowanie krotek, aby dać krótki przegląd połączonych informacji. W rezultacie ramka danych Pandas o nazwie dframe jest tworzona przy użyciu konstruktora pd.DataFrame(), w którym zestawienie krotek jest zmieniane w zorganizowaną, parzystą konfigurację. Segmenty „Nazwa” i „Znaczki” są jednoznacznie przydzielane podczas procesu tworzenia DataFrame.
Metoda - 7: Utwórz ramkę danych z słowników serii
Słownik można przekazać w celu utworzenia ramki danych. Możemy użyć słowników serii, w których kolejny indeks jest sumą wszystkich serii przekazanych wartości indeksu. Rozumiemy następujący przykład.
Przykład -
# Pandas Dataframe from Dicts of series. import pandas as pd # Here, we are importing the pandas library as pd # Initialize data to Dicts of series. d = {'Electronics' : pd.Series([97, 56, 87, 45], index =['John', 'Abhinay', 'Peter', 'Andrew']), 'Civil' : pd.Series([97, 88, 44, 96], index =['John', 'Abhinay', 'Peter', 'Andrew'])} # creates Dataframe. dframe = pd.DataFrame(d) # print the data. print(dframe) Wyjście:
Electronics Civil John 97 97 Abhinay 56 88 Peter 87 44 Andrew 45 96
Wyjaśnienie:
W tym kodzie Pythona ramka danych Pandas jest utworzona z odwołań słownych do serii wykorzystujących bibliotekę pandas. Dwa tematy, „Gadżety” i „Wspólne”, są adresowane jako sekcje, a indywidualne wyniki z jawnymi plikami są koordynowane w ramce danych o nazwie dframe. Następna prosta konstrukcja jest drukowana w centrum sterowania, przedstawiając zwartą technikę koordynowania i badania zaznaczonych informacji z wykorzystaniem Pand.
W tym samouczku omówiliśmy różne sposoby tworzenia ramek danych.