Datenanalyse und Visualisierung mit Python

Datenanalyse und Visualisierung mit Python

Python wird aufgrund seiner robusten Bibliotheken und Tools zur Datenverwaltung häufig als Datenanalysesprache verwendet. Zu diesen Bibliotheken gehört Pandas, die die Bearbeitung und Analyse der Datenexploration erleichtert. wir werden es nutzen  Pandas  um einen Datensatz namens zu analysieren  Länderdaten.csv  von Kaggle. Während wir mit diesen Daten arbeiten, führen wir auch einige wichtige Konzepte in Pandas ein.

1. Installation

Der einfachste Weg, Pandas zu installieren, ist die Verwendung von pip:

Python
   pip   install   pandas   


oder Laden Sie es herunter von  Hier .

2. Erstellen eines DataFrames in Pandas

Datenrahmen  ist eine tabellenartige Datenstruktur in Pandas, die Daten in Zeilen und Spalten speichert. Ein DataFrame kann erstellt werden, indem mehrere Python-Serienobjekte an übergeben werden  DataFrame  Klasse ( pd.DataFrame() ) mit der  pd.Series  Verfahren. In diesem Beispiel werden zwei Series-Objekte verwendet:  s1  als erste Reihe und  s2  als zweite Reihe.

Beispiel 1: DataFrame aus Serie erstellen:

Python
   import   pandas   as   pd   # Creating two Series: s1 (numbers) and s2 (names)   s1   =   pd  .  Series  ([  1     2  ])   s2   =   pd  .  Series  ([  'Ashish'     'Sid'  ])   # Creating DataFrame by combining Series as rows   dataframe   =   pd  .  DataFrame  ([  s1     s2  ])   # Displaying the DataFrame   print  (  dataframe  )   

Ausgabe:

Datenanalyse und Visualisierung mit Python

Beispiel 2: DataFrame aus einer Liste mit benutzerdefinierten Index- und Spaltennamen:

Python
   dataframe1   =   pd  .  DataFrame  ([[  1     2  ]   [  'Ashish'     'Sid'  ]]   index  =  [  'r1'     'r2'  ]   columns  =  [  'c1'     'c2'  ])   print  (  dataframe1  )   

Ausgabe:

Datenanalyse und Visualisierung mit Python

Beispiel 3: DataFrame aus einem Wörterbuch:

Python
   dataframe2   =   pd  .  DataFrame  ({   'c1'  :   [  1     'Ashish'  ]   'c2'  :   [  2     'Sid'  ]   })   print  (  dataframe2  )   

Ausgabe:

Datenanalyse und Visualisierung mit Python

3. Daten mit Pandas importieren

Der erste Schritt besteht darin, die Daten auszulesen. In unserem Fall werden die Daten als CSV-Datei (Comma-Separated Values) gespeichert, wobei jede Zeile durch eine neue Zeile und jede Spalte durch ein Komma getrennt ist. Um mit den Daten in Python arbeiten zu können, ist das Lesen der CSV-Datei erforderlich  Datei  in einen Pandas DataFrame.

Python
   import   pandas   as   pd   # Read Country-data.csv into a DataFrame   df   =   pd  .  read_csv  (  'Country-data.csv'  )   # Prints the first 5 rows of a DataFrame as default   df  .  head  ()   # Prints no. of rows and columns of a DataFrame   df  .  shape   

Ausgabe:

Kopf
 (167 10)  

4. Indizierung von DataFrames mit Pandas

Pandas bietet leistungsstarke Indizierungsfunktionen. Sie können DataFrames mit beiden indizieren Positionsbasiert Und Etikettenbasiert Methoden.

Positionsbasierte Indizierung (mit iloc ):

Python
   # prints first 5 rows and every column which replicates df.head()   df  .  iloc  [  0  :  5  :]   # prints entire rows and columns   df  .  iloc  [::]   # prints from 5th rows and first 5 columns   df  .  iloc  [  5  ::  5  ]   

Ausgabe:

Datenanalyse und Visualisierung mit Python Datenanalyse und Visualisierung mit Python Datenanalyse und Visualisierung mit Python

Etikettenbasierte Indizierung (mit loc ):

Die Indizierung kann mit Etiketten mithilfe von durchgeführt werden  pandas.DataFrame.loc  Methode, die die Indizierung mithilfe von Beschriftungen anstelle von Positionen ermöglicht.

Beispiele:

Python
   # prints first five rows including 5th index and every columns of df   df  .  loc  [  0  :  5  :]   # prints from 5th rows onwards and entire columns   df  .  loc  [  5  ::]   

Ausgabe:

Datenanalyse und Visualisierung mit Python Datenanalyse und Visualisierung mit Python


Das Obige sieht eigentlich nicht viel anders aus als df.iloc[0:5:]. Dies liegt daran, dass Zeilenbeschriftungen zwar beliebige Werte annehmen können, unsere Zeilenbeschriftungen jedoch genau mit den Positionen übereinstimmen. Aber Spaltenbeschriftungen können die Arbeit mit Daten erheblich erleichtern.

Beispiel:

Python
   # Prints the first 5 rows of Time period   # value    df  .  loc  [:  5    'child_mort'  ]   

Ausgabe:

Datenanalyse und Visualisierung mit Python

5. DataFrame Math mit Pandas

Pandas erleichtert die Durchführung mathematischer Operationen an den in Datenrahmen gespeicherten Daten. Die Operationen, die auf Pandas ausgeführt werden können, sind vektorisiert, was bedeutet, dass sie schnell sind und automatisch auf alle Elemente angewendet werden, ohne Schleifen zu verwenden.

Beispiel – Spaltenweise Mathematik:

Python
   # Adding 5 to every element in column A   df  [  'child_mort'  ]   =   df  [  'child_mort'  ]   +   5   # Multiplying values in column B by 10   df  [  'exports'  ]   =   df  [  'exports'  ]   *   10   df   

Ausgabe:

Datenanalyse und Visualisierung mit Python

Statistische Funktionen in Pandas:

Die Berechnung von Datenrahmen kann mithilfe der statistischen Funktionen der Pandas-Tools erfolgen. Wir können Funktionen verwenden wie:

  • df.sum()  → Summe der Werte
  • df.mean()  → durchschnittlich
  • df.max()  /  df.min()  → Maximal- und Minimalwerte
  • df.describe()  → kurze Statistikzusammenfassung
Python
   # computes various summary statistics excluding NaN values   df  .  describe  ()   # Provides sum of all the values for each column   df  .  sum  ()   

Ausgabe:

Datenanalyse und Visualisierung mit Python Datenanalyse und Visualisierung mit Python

6. Datenvisualisierung mit Pandas und Matplotlib

Pandas ist sehr einfach zu bedienen  Matplotlib eine leistungsstarke Bibliothek zum Erstellen grundlegender Diagramme und Diagramme. Mit nur wenigen Codezeilen können wir unsere Daten visualisieren und besser verstehen. Nachfolgend finden Sie einige einfache Beispiele, die Ihnen den Einstieg in das Plotten mit Pandas und Matplotlib erleichtern sollen:

Python
   # Import the library first   import   matplotlib.pyplot   as   plt   

Histogramm

Ein Histogramm zeigt die Verteilung der Werte in einer Spalte.

Python
   df  [  'income'  ]  .  hist  (  bins  =  10  )   plt  .  title  (  'Histogram of Income'  )   plt  .  xlabel  (  'Income Value'  )   plt  .  ylabel  (  'Frequency'  )   plt  .  show  ()   

Ausgabe:

Datenanalyse und Visualisierung mit Python

Boxplot

Boxplot  ist nützlich, um Ausreißer zu erkennen und die Datenverteilung zu verstehen.

Python
   df   =   df  .  head  (  10  )   plt  .  figure  (  figsize  =  (  20     6  ))   # Increase width to make x-axis labels clearer   df  .  boxplot  (  column  =  'imports'     by  =  'country'  )   plt  .  title  (  'Boxplot by Country'  )   plt  .  suptitle  (  ''  )   # Removes default title   plt  .  xlabel  (  'Country'  )   plt  .  ylabel  (  'Imports'  )   plt  .  xticks  (  rotation  =  45  )   # Optional: Rotate x-axis labels for better visibility   plt  .  tight_layout  ()   # Adjust layout to avoid clipping   plt  .  show  ()   

Ausgabe:

Datenanalyse und Visualisierung mit Python

Streudiagramm

Streudiagramm  zeigt die Beziehung zwischen zwei Variablen.

Python
   x   =   df  [  'health'  ]   y   =   df  [  'life_expec'  ]   plt  .  scatter  (  x     y     label  =  'Data Points'     color  =  'm'     marker  =  '*'     s  =  30  )   plt  .  xlabel  (  'Health'  )   plt  .  ylabel  (  'Life Expectancy'  )   plt  .  title  (  'Scatter Plot of Health vs Life Expectancy'  )   plt  .  legend  ()   plt  .  show  ()   

Ausgabe:

Datenanalyse und Visualisierung mit Python

Verwandter Artikel:

  • Pandas-Einführung
  • Diagrammdarstellung in Python
  • Arbeiten mit CSV-Dateien in Python
  • Pandas DataFrame
  • Einführung in Matplotlib
  • Histogramm – Definitionstypen, Diagramm und Beispiele
  • Boxplot
  • Streudiagramm


Quiz erstellen