Datu analīze un vizualizācija ar Python

Datu analīze un vizualizācija ar Python

Python tiek plaši izmantots kā datu analīzes valoda, jo tā ir turīgas bibliotēkas un rīki datu pārvaldīšanai. Starp šīm bibliotēkām ir Pandas, kas atvieglo datu izpēti manipulācijas un analīzi. mēs izmantosim  Pandas  lai analizētu datu kopu, ko sauc  Valsts-dati.csv  no Kaggle. Strādājot ar šiem datiem, mēs ieviešam arī dažus svarīgus Pandas jēdzienus.

1. Uzstādīšana

Vienkāršākais veids, kā uzstādīt pandas, ir izmantot pip:

Python
   pip   install   pandas   


vai Lejupielādējiet to no  šeit .

2. DataFrame izveide programmā Pandas

DataFrame  ir Pandas tabulai līdzīga datu struktūra, kurā dati tiek glabāti rindās un kolonnās. DataFrame var izveidot, nosūtot vairākus python sērijas objektus  DataFrame  klase ( pd.DataFrame() ), izmantojot  pd.Series  metodi. Šajā piemērā tiek izmantoti divi sērijas objekti:  s1  kā pirmā rinda un  s2  kā otrā rinda.

1. piemērs: DataFrame izveide no sērijas:

Python
   import   pandas   as   pd   # Creating two Series: s1 (numbers) and s2 (names)   s1   =   pd  .  Series  ([  1     2  ])   s2   =   pd  .  Series  ([  'Ashish'     'Sid'  ])   # Creating DataFrame by combining Series as rows   dataframe   =   pd  .  DataFrame  ([  s1     s2  ])   # Displaying the DataFrame   print  (  dataframe  )   

Izvade:

Datu analīze un vizualizācija ar Python

2. piemērs: DataFrame no saraksta ar pielāgotu indeksu un kolonnu nosaukumiem:

Python
   dataframe1   =   pd  .  DataFrame  ([[  1     2  ]   [  'Ashish'     'Sid'  ]]   index  =  [  'r1'     'r2'  ]   columns  =  [  'c1'     'c2'  ])   print  (  dataframe1  )   

Izvade:

Datu analīze un vizualizācija ar Python

3. piemērs: DataFrame no vārdnīcas:

Python
   dataframe2   =   pd  .  DataFrame  ({   'c1'  :   [  1     'Ashish'  ]   'c2'  :   [  2     'Sid'  ]   })   print  (  dataframe2  )   

Izvade:

Datu analīze un vizualizācija ar Python

3. Datu importēšana, izmantojot Pandas

Pirmais solis ir nolasīt datus. Mūsu gadījumā dati tiek glabāti kā CSV (Comma-Separated Values) fails, kur katra rinda ir atdalīta ar jaunu rindiņu un katra kolonna ar komatu. Lai varētu strādāt ar datiem Python, ir nepieciešams nolasīt csv  failu  Pandas DataFrame.

Python
   import   pandas   as   pd   # Read Country-data.csv into a DataFrame   df   =   pd  .  read_csv  (  'Country-data.csv'  )   # Prints the first 5 rows of a DataFrame as default   df  .  head  ()   # Prints no. of rows and columns of a DataFrame   df  .  shape   

Izvade:

galvu
 (167 10)  

4. DataFrames indeksēšana ar pandām

Pandas nodrošina jaudīgas indeksēšanas iespējas. Varat indeksēt DataFrames, izmantojot abus pamatojoties uz amatu un uz etiķetes metodes.

Uz pozīciju balstīta indeksācija (izmantojot iloc ):

Python
   # prints first 5 rows and every column which replicates df.head()   df  .  iloc  [  0  :  5  :]   # prints entire rows and columns   df  .  iloc  [::]   # prints from 5th rows and first 5 columns   df  .  iloc  [  5  ::  5  ]   

Izvade:

Datu analīze un vizualizācija ar Python Datu analīze un vizualizācija ar Python Datu analīze un vizualizācija ar Python

Uz etiķetēm balstīta indeksācija (izmantojot loc ):

Indeksēšanu var veikt ar etiķetēm, izmantojot  pandas.DataFrame.loc  metode, kas ļauj indeksēt, izmantojot etiķetes, nevis pozīcijas.

Piemēri:

Python
   # prints first five rows including 5th index and every columns of df   df  .  loc  [  0  :  5  :]   # prints from 5th rows onwards and entire columns   df  .  loc  [  5  ::]   

Izvade:

Datu analīze un vizualizācija ar Python Datu analīze un vizualizācija ar Python


Iepriekš minētais faktiski daudz neatšķiras no df.iloc[0:5:]. Tas ir tāpēc, ka, lai gan rindu etiķetēm var būt jebkura vērtība, mūsu rindu etiķetes precīzi atbilst pozīcijām. Taču kolonnu etiķetes var ievērojami atvieglot darbu ar datiem.

Piemērs:

Python
   # Prints the first 5 rows of Time period   # value    df  .  loc  [:  5    'child_mort'  ]   

Izvade:

Datu analīze un vizualizācija ar Python

5. DataFrame Math ar pandām

Pandas atvieglo matemātisku darbību veikšanu ar datu rāmjos saglabātajiem datiem. Darbības, ko var veikt ar pandām, ir vektorizētas, kas nozīmē, ka tās ir ātras un tiek automātiski piemērotas visiem elementiem, neizmantojot cilpas.

Piemērs — kolonnu matemātika:

Python
   # Adding 5 to every element in column A   df  [  'child_mort'  ]   =   df  [  'child_mort'  ]   +   5   # Multiplying values in column B by 10   df  [  'exports'  ]   =   df  [  'exports'  ]   *   10   df   

Izvade:

Datu analīze un vizualizācija ar Python

Statistikas funkcijas pandās:

Datu kadru aprēķināšanu var veikt, izmantojot pandu rīku statistiskās funkcijas. Mēs varam izmantot tādas funkcijas kā:

  • df.sum()  → vērtību summa
  • df.mean()  → vidēji
  • df.max()  /  df.min()  → maksimālās un minimālās vērtības
  • df.describe()  → ātrs statistikas kopsavilkums
Python
   # computes various summary statistics excluding NaN values   df  .  describe  ()   # Provides sum of all the values for each column   df  .  sum  ()   

Izvade:

Datu analīze un vizualizācija ar Python Datu analīze un vizualizācija ar Python

6. Datu vizualizācija ar Pandas un Matplotlib

Pandas ir ļoti viegli lietojamas  Matplotlib jaudīga bibliotēka, ko izmanto pamata diagrammu un diagrammu izveidošanai. Izmantojot tikai dažas koda rindiņas, mēs varam vizualizēt savus datus un tos labāk izprast. Tālāk ir sniegti daži vienkārši piemēri, kas palīdzēs sākt plānošanu, izmantojot Pandas un Matplotlib.

Python
   # Import the library first   import   matplotlib.pyplot   as   plt   

Histogramma

Histogramma parāda vērtību sadalījumu kolonnā.

Python
   df  [  'income'  ]  .  hist  (  bins  =  10  )   plt  .  title  (  'Histogram of Income'  )   plt  .  xlabel  (  'Income Value'  )   plt  .  ylabel  (  'Frequency'  )   plt  .  show  ()   

Izvade:

Datu analīze un vizualizācija ar Python

Kastes gabals

kastes gabals  ir noderīga, lai atklātu novirzes un izprastu datu izplatību.

Python
   df   =   df  .  head  (  10  )   plt  .  figure  (  figsize  =  (  20     6  ))   # Increase width to make x-axis labels clearer   df  .  boxplot  (  column  =  'imports'     by  =  'country'  )   plt  .  title  (  'Boxplot by Country'  )   plt  .  suptitle  (  ''  )   # Removes default title   plt  .  xlabel  (  'Country'  )   plt  .  ylabel  (  'Imports'  )   plt  .  xticks  (  rotation  =  45  )   # Optional: Rotate x-axis labels for better visibility   plt  .  tight_layout  ()   # Adjust layout to avoid clipping   plt  .  show  ()   

Izvade:

Datu analīze un vizualizācija ar Python

Izkliedes diagramma

izkliedes gabals  parāda attiecības starp diviem mainīgajiem.

Python
   x   =   df  [  'health'  ]   y   =   df  [  'life_expec'  ]   plt  .  scatter  (  x     y     label  =  'Data Points'     color  =  'm'     marker  =  '*'     s  =  30  )   plt  .  xlabel  (  'Health'  )   plt  .  ylabel  (  'Life Expectancy'  )   plt  .  title  (  'Scatter Plot of Health vs Life Expectancy'  )   plt  .  legend  ()   plt  .  show  ()   

Izvade:

Datu analīze un vizualizācija ar Python

Saistīts raksts:

  • Pandas ievads
  • Grafiku uzzīmēšana Python
  • Darbs ar csv failiem programmā Python
  • Pandas DataFrame
  • Ievads Matplotlib
  • Histogramma — definīciju veidi Grafiks un piemēri
  • Kastes gabals
  • Izkliedes diagramma


Izveidojiet viktorīnu