Adatelemzés és vizualizáció Python segítségével

Adatelemzés és vizualizáció Python segítségével

A Pythont széles körben használják adatelemzési nyelvként a robusztus könyvtárak és az adatok kezelésére szolgáló eszközök miatt. A könyvtárak között megtalálhatók a Pandák, amelyek megkönnyítik az adatok feltárását, manipulációját és elemzését. használni fogjuk  Pandák  nevű adatkészlet elemzésére  Ország-adatok.csv  Kaggle-től. Miközben ezekkel az adatokkal dolgozunk, néhány fontos fogalmat is bemutatunk a Pandákban.

1. Telepítés

A pandák telepítésének legegyszerűbb módja a pip használata:

Python
   pip   install   pandas   


vagy Töltse le innen  itt .

2. DataFrame létrehozása Pandasban

DataFrame  egy táblázatszerű adatstruktúra a Pandasban, amely sorokban és oszlopokban tárolja az adatokat. A DataFrame úgy hozható létre, hogy több python Series objektumot ad át a fájlba  DataFrame  osztály ( pd.DataFrame() ) segítségével  pd.Series  módszer. Ebben a példában két sorozat objektumot használunk:  s1  mint az első sor és  s2  mint a második sor.

1. példa: DataFrame létrehozása sorozatból:

Python
   import   pandas   as   pd   # Creating two Series: s1 (numbers) and s2 (names)   s1   =   pd  .  Series  ([  1     2  ])   s2   =   pd  .  Series  ([  'Ashish'     'Sid'  ])   # Creating DataFrame by combining Series as rows   dataframe   =   pd  .  DataFrame  ([  s1     s2  ])   # Displaying the DataFrame   print  (  dataframe  )   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

2. példa: DataFrame egyéni index- és oszlopneveket tartalmazó listából:

Python
   dataframe1   =   pd  .  DataFrame  ([[  1     2  ]   [  'Ashish'     'Sid'  ]]   index  =  [  'r1'     'r2'  ]   columns  =  [  'c1'     'c2'  ])   print  (  dataframe1  )   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

3. példa: DataFrame szótárból:

Python
   dataframe2   =   pd  .  DataFrame  ({   'c1'  :   [  1     'Ashish'  ]   'c2'  :   [  2     'Sid'  ]   })   print  (  dataframe2  )   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

3. Adatok importálása Pandákkal

Az első lépés az adatok kiolvasása. Esetünkben az adatokat CSV (Comma-Separated Values) fájlként tároljuk, ahol minden sort egy új sor, az oszlopokat pedig vessző választ el. Ahhoz, hogy a Pythonban lévő adatokkal dolgozhasson, el kell olvasnia a csv-t  fájlt  egy Pandas DataFrame-be.

Python
   import   pandas   as   pd   # Read Country-data.csv into a DataFrame   df   =   pd  .  read_csv  (  'Country-data.csv'  )   # Prints the first 5 rows of a DataFrame as default   df  .  head  ()   # Prints no. of rows and columns of a DataFrame   df  .  shape   

Kimenet:

fej
 (167 10)  

4. DataFrame-ek indexelése pandákkal

A Pandák hatékony indexelési lehetőségeket biztosítanak. A DataFrame-eket mindkettővel indexelheti pozíció alapú és címke alapú mód.

Pozíció alapú indexelés (a iloc ):

Python
   # prints first 5 rows and every column which replicates df.head()   df  .  iloc  [  0  :  5  :]   # prints entire rows and columns   df  .  iloc  [::]   # prints from 5th rows and first 5 columns   df  .  iloc  [  5  ::  5  ]   

Kimenet:

Adatelemzés és vizualizáció Python segítségével Adatelemzés és vizualizáció Python segítségével Adatelemzés és vizualizáció Python segítségével

Címke alapú indexelés (a loc ):

Az indexelés a címkékkel a  pandas.DataFrame.loc  módszer, amely lehetővé teszi a pozíciók helyett címkék használatával történő indexelést.

Példák:

Python
   # prints first five rows including 5th index and every columns of df   df  .  loc  [  0  :  5  :]   # prints from 5th rows onwards and entire columns   df  .  loc  [  5  ::]   

Kimenet:

Adatelemzés és vizualizáció Python segítségével Adatelemzés és vizualizáció Python segítségével


A fentiek valójában nem sokban különböznek a df.iloc[0:5:]-től. Ennek az az oka, hogy bár a sorcímkék bármilyen értéket felvehetnek, a sorcímkéink pontosan megegyeznek a pozíciókkal. Az oszlopcímkék azonban sokkal könnyebbé tehetik a dolgokat az adatokkal való munka során.

Példa:

Python
   # Prints the first 5 rows of Time period   # value    df  .  loc  [:  5    'child_mort'  ]   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

5. DataFrame Math Pandákkal

A Pandas megkönnyíti a matematikai műveletek végrehajtását az adatkeretekben tárolt adatokon. A pandákon végrehajtható műveletek vektorizáltak, ami azt jelenti, hogy gyorsak és minden elemre automatikusan, hurkok használata nélkül vonatkoznak.

Példa – Oszlopos matematika:

Python
   # Adding 5 to every element in column A   df  [  'child_mort'  ]   =   df  [  'child_mort'  ]   +   5   # Multiplying values in column B by 10   df  [  'exports'  ]   =   df  [  'exports'  ]   *   10   df   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

Statisztikai függvények a pandákban:

Az adatkeretek kiszámítása a pandák statisztikai függvényei segítségével végezhető el. Ilyen funkciókat használhatunk:

  • df.sum()  → értékek összege
  • df.mean()  → átlagos
  • df.max()  /  df.min()  → max és min értékek
  • df.describe()  → gyors statisztikai összefoglaló
Python
   # computes various summary statistics excluding NaN values   df  .  describe  ()   # Provides sum of all the values for each column   df  .  sum  ()   

Kimenet:

Adatelemzés és vizualizáció Python segítségével Adatelemzés és vizualizáció Python segítségével

6. Adatvizualizáció Pandas és Matplotlib segítségével

A pandákkal nagyon könnyen használható  Matplotlib egy hatékony könyvtár, amelyet alapvető diagramok és diagramok létrehozására használnak. Csak néhány sornyi kóddal vizualizálhatjuk adatainkat, és jobban megérthetjük azokat. Az alábbiakban bemutatunk néhány egyszerű példát, amelyek segítenek a Pandas és a Matplotlib használatával történő ábrázolás megkezdésében:

Python
   # Import the library first   import   matplotlib.pyplot   as   plt   

Hisztogram

A hisztogram az értékek eloszlását mutatja egy oszlopban.

Python
   df  [  'income'  ]  .  hist  (  bins  =  10  )   plt  .  title  (  'Histogram of Income'  )   plt  .  xlabel  (  'Income Value'  )   plt  .  ylabel  (  'Frequency'  )   plt  .  show  ()   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

Box Telek

dobozos telek  hasznos a kiugró értékek észleléséhez és az adatok terjedésének megértéséhez.

Python
   df   =   df  .  head  (  10  )   plt  .  figure  (  figsize  =  (  20     6  ))   # Increase width to make x-axis labels clearer   df  .  boxplot  (  column  =  'imports'     by  =  'country'  )   plt  .  title  (  'Boxplot by Country'  )   plt  .  suptitle  (  ''  )   # Removes default title   plt  .  xlabel  (  'Country'  )   plt  .  ylabel  (  'Imports'  )   plt  .  xticks  (  rotation  =  45  )   # Optional: Rotate x-axis labels for better visibility   plt  .  tight_layout  ()   # Adjust layout to avoid clipping   plt  .  show  ()   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

Scatter Plot

szórványrajz  két változó közötti kapcsolatot mutatja.

Python
   x   =   df  [  'health'  ]   y   =   df  [  'life_expec'  ]   plt  .  scatter  (  x     y     label  =  'Data Points'     color  =  'm'     marker  =  '*'     s  =  30  )   plt  .  xlabel  (  'Health'  )   plt  .  ylabel  (  'Life Expectancy'  )   plt  .  title  (  'Scatter Plot of Health vs Life Expectancy'  )   plt  .  legend  ()   plt  .  show  ()   

Kimenet:

Adatelemzés és vizualizáció Python segítségével

Kapcsolódó cikk:

  • Pandák Bevezetés
  • Grafikonábrázolás Pythonban
  • CSV-fájlok használata Pythonban
  • Pandas DataFrame
  • Bevezetés a Matplotlib-be
  • Hisztogram – Definíciótípusok Grafikon és példák
  • Box Telek
  • Scatter Plot


Kvíz létrehozása