Python ile Veri Analizi ve Görselleştirme

Python ile Veri Analizi ve Görselleştirme

Python, verileri yönetmeye yönelik sağlam kütüphaneleri ve araçları nedeniyle bir veri analizi dili olarak yaygın şekilde kullanılmaktadır. Bu kütüphaneler arasında veri araştırma manipülasyonunu ve analizini kolaylaştıran Pandalar bulunmaktadır. kullanacağız  Pandalar  adı verilen bir veri kümesini analiz etmek için  Ülke-data.csv  Kaggle'dan. Bu verilerle çalışırken Pandalar'daki bazı önemli kavramları da tanıtıyoruz.

1. Kurulum

Pandaları kurmanın en kolay yolu pip kullanmaktır:

Python
   pip   install   pandas   


veya şuradan indirin:  Burada .

2. Pandas'ta DataFrame Oluşturma

Veri Çerçevesi  Pandas'ta satırlar ve sütunlar halinde saklanan verilere sahip tablo benzeri bir veri yapısıdır. Bir DataFrame, birden fazla python Serisi nesnesinin  DataFrame  sınıf ( pd.DataFrame() ) kullanarak  pd.Series  Yöntem. Bu örnekte iki Series nesnesi kullanılmıştır:  s1  ilk sıra olarak ve  s2  ikinci sıra olarak.

Örnek 1: Seriden DataFrame Oluşturma:

Python
   import   pandas   as   pd   # Creating two Series: s1 (numbers) and s2 (names)   s1   =   pd  .  Series  ([  1     2  ])   s2   =   pd  .  Series  ([  'Ashish'     'Sid'  ])   # Creating DataFrame by combining Series as rows   dataframe   =   pd  .  DataFrame  ([  s1     s2  ])   # Displaying the DataFrame   print  (  dataframe  )   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

Örnek 2: Özel Dizin ve Sütun Adlarına Sahip Bir Listeden DataFrame:

Python
   dataframe1   =   pd  .  DataFrame  ([[  1     2  ]   [  'Ashish'     'Sid'  ]]   index  =  [  'r1'     'r2'  ]   columns  =  [  'c1'     'c2'  ])   print  (  dataframe1  )   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

Örnek 3: Sözlükten DataFrame:

Python
   dataframe2   =   pd  .  DataFrame  ({   'c1'  :   [  1     'Ashish'  ]   'c2'  :   [  2     'Sid'  ]   })   print  (  dataframe2  )   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

3. Pandalarla Verileri İçe Aktarma

İlk adım veriyi okumaktır. Bizim durumumuzda veriler, her satırın yeni bir satırla ve her sütunun virgülle ayrıldığı bir CSV (Virgülle Ayrılmış Değerler) dosyası olarak depolanır. Python'daki verilerle çalışabilmek için csv'yi okumak gerekir.  dosya  Pandas DataFrame'e aktarın.

Python
   import   pandas   as   pd   # Read Country-data.csv into a DataFrame   df   =   pd  .  read_csv  (  'Country-data.csv'  )   # Prints the first 5 rows of a DataFrame as default   df  .  head  ()   # Prints no. of rows and columns of a DataFrame   df  .  shape   

Çıkış:

KAFA
 (167 10)  

4. DataFrame'leri Pandalarla İndeksleme

Pandalar güçlü indeksleme yetenekleri sağlar. Her ikisini de kullanarak DataFrame'leri indeksleyebilirsiniz. pozisyona dayalı Ve etiket tabanlı yöntemler.

Konuma Dayalı İndeksleme (Konum Bazlı İndeksleme) iloc ):

Python
   # prints first 5 rows and every column which replicates df.head()   df  .  iloc  [  0  :  5  :]   # prints entire rows and columns   df  .  iloc  [::]   # prints from 5th rows and first 5 columns   df  .  iloc  [  5  ::  5  ]   

Çıkış:

Python ile Veri Analizi ve Görselleştirme Python ile Veri Analizi ve Görselleştirme Python ile Veri Analizi ve Görselleştirme

Etiket Tabanlı İndeksleme (Kullanarak loc ):

İndeksleme etiketlerle çalışılabilir.  pandas.DataFrame.loc  Konumlar yerine etiketleri kullanarak indekslemeye izin veren yöntem.

Örnekler:

Python
   # prints first five rows including 5th index and every columns of df   df  .  loc  [  0  :  5  :]   # prints from 5th rows onwards and entire columns   df  .  loc  [  5  ::]   

Çıkış:

Python ile Veri Analizi ve Görselleştirme Python ile Veri Analizi ve Görselleştirme


Yukarıdakiler aslında df.iloc[0:5:]'dan pek farklı görünmüyor. Bunun nedeni, satır etiketlerinin herhangi bir değeri alabilmesine rağmen satır etiketlerimizin konumlarla tam olarak eşleşmesidir. Ancak sütun etiketleri verilerle çalışırken işleri çok daha kolaylaştırabilir.

Örnek:

Python
   # Prints the first 5 rows of Time period   # value    df  .  loc  [:  5    'child_mort'  ]   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

5. Pandalarla DataFrame Matematiği

Pandalar, veri çerçevelerinde depolanan veriler üzerinde matematiksel işlemler yapmayı kolaylaştırır. Pandalar üzerinde gerçekleştirilebilecek işlemler vektörleştirilmiştir, yani hızlıdırlar ve döngüler kullanılmadan tüm öğelere otomatik olarak uygulanırlar.

Örnek - Sütun Bazında Matematik:

Python
   # Adding 5 to every element in column A   df  [  'child_mort'  ]   =   df  [  'child_mort'  ]   +   5   # Multiplying values in column B by 10   df  [  'exports'  ]   =   df  [  'exports'  ]   *   10   df   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

Pandalarda İstatistiksel Fonksiyonlar:

Veri çerçevelerinin hesaplanması pandas araçlarının İstatistiksel Fonksiyonları kullanılarak yapılabilir. Aşağıdaki gibi işlevleri kullanabiliriz:

  • df.sum()  → değerlerin toplamı
  • df.mean()  → ortalama
  • df.max()  /  df.min()  → maksimum ve minimum değerler
  • df.describe()  → hızlı istatistik özeti
Python
   # computes various summary statistics excluding NaN values   df  .  describe  ()   # Provides sum of all the values for each column   df  .  sum  ()   

Çıkış:

Python ile Veri Analizi ve Görselleştirme Python ile Veri Analizi ve Görselleştirme

6. Pandalar ve Matplotlib ile Veri Görselleştirme

Pandaların kullanımı çok kolaydır  Matplotlib Temel grafikler ve grafikler oluşturmak için kullanılan güçlü bir kütüphane. Yalnızca birkaç satır kodla verilerimizi görselleştirebilir ve daha iyi anlayabiliriz. Aşağıda Pandas ve Matplotlib kullanarak çizim yapmaya başlamanıza yardımcı olacak bazı basit örnekler verilmiştir:

Python
   # Import the library first   import   matplotlib.pyplot   as   plt   

Histogram

Histogram, bir sütundaki değerlerin dağılımını gösterir.

Python
   df  [  'income'  ]  .  hist  (  bins  =  10  )   plt  .  title  (  'Histogram of Income'  )   plt  .  xlabel  (  'Income Value'  )   plt  .  ylabel  (  'Frequency'  )   plt  .  show  ()   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

Kutu Grafiği

kutu grafiği  Aykırı değerleri tespit etmek ve veri yayılımını anlamak için faydalıdır.

Python
   df   =   df  .  head  (  10  )   plt  .  figure  (  figsize  =  (  20     6  ))   # Increase width to make x-axis labels clearer   df  .  boxplot  (  column  =  'imports'     by  =  'country'  )   plt  .  title  (  'Boxplot by Country'  )   plt  .  suptitle  (  ''  )   # Removes default title   plt  .  xlabel  (  'Country'  )   plt  .  ylabel  (  'Imports'  )   plt  .  xticks  (  rotation  =  45  )   # Optional: Rotate x-axis labels for better visibility   plt  .  tight_layout  ()   # Adjust layout to avoid clipping   plt  .  show  ()   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

Dağılım Grafiği

dağılım grafiği  iki değişken arasındaki ilişkiyi gösterir.

Python
   x   =   df  [  'health'  ]   y   =   df  [  'life_expec'  ]   plt  .  scatter  (  x     y     label  =  'Data Points'     color  =  'm'     marker  =  '*'     s  =  30  )   plt  .  xlabel  (  'Health'  )   plt  .  ylabel  (  'Life Expectancy'  )   plt  .  title  (  'Scatter Plot of Health vs Life Expectancy'  )   plt  .  legend  ()   plt  .  show  ()   

Çıkış:

Python ile Veri Analizi ve Görselleştirme

İlgili Makale:

  • Pandalar Giriş
  • Python'da Grafik Çizme
  • Python'da csv dosyalarıyla çalışma
  • Pandalar DataFrame
  • Matplotlib'e Giriş
  • Histogram - Tanım Türleri Grafiği ve Örnekler
  • Kutu Grafiği
  • Dağılım Grafiği


Test Oluştur