DATU ANALĪZE UN VIZUALIZĀCIJA AR PYTHON

Python tiek plaši izmantots kā datu analīzes valoda, jo tā ir turīgas bibliotēkas un rīki datu pārvaldīšanai. Starp šīm bibliotēkām ir Pandas, kas atvieglo datu izpēti manipulācijas un analīzi. mēs izmantosim Pandas lai analizētu datu kopu, ko sauc Valsts-dati.csv no Kaggle. Strādājot ar šiem datiem, mēs ieviešam arī dažus svarīgus Pandas jēdzienus.

1. Uzstādīšana

Vienkāršākais veids, kā uzstādīt pandas, ir izmantot pip:

Python

    pip   install   pandas

vai Lejupielādējiet to no šeit .

2. DataFrame izveide programmā Pandas

A DataFrame ir Pandas tabulai līdzīga datu struktūra, kurā dati tiek glabāti rindās un kolonnās. DataFrame var izveidot, nosūtot vairākus python sērijas objektus DataFrame klase ( pd.DataFrame() ), izmantojot pd.Series metodi. Šajā piemērā tiek izmantoti divi sērijas objekti: s1 kā pirmā rinda un s2 kā otrā rinda.

1. piemērs: DataFrame izveide no sērijas:

Python

    import   pandas   as   pd   # Creating two Series: s1 (numbers) and s2 (names)   s1   =   pd  .  Series  ([  1     2  ])   s2   =   pd  .  Series  ([  'Ashish'     'Sid'  ])   # Creating DataFrame by combining Series as rows   dataframe   =   pd  .  DataFrame  ([  s1     s2  ])   # Displaying the DataFrame   print  (  dataframe  )

Izvade:

2. piemērs: DataFrame no saraksta ar pielāgotu indeksu un kolonnu nosaukumiem:

Python

    dataframe1   =   pd  .  DataFrame  ([[  1     2  ]   [  'Ashish'     'Sid'  ]]   index  =  [  'r1'     'r2'  ]   columns  =  [  'c1'     'c2'  ])   print  (  dataframe1  )

Izvade:

3. piemērs: DataFrame no vārdnīcas:

Python

    dataframe2   =   pd  .  DataFrame  ({   'c1'  :   [  1     'Ashish'  ]   'c2'  :   [  2     'Sid'  ]   })   print  (  dataframe2  )

Izvade:

3. Datu importēšana, izmantojot Pandas

Pirmais solis ir nolasīt datus. Mūsu gadījumā dati tiek glabāti kā CSV (Comma-Separated Values) fails, kur katra rinda ir atdalīta ar jaunu rindiņu un katra kolonna ar komatu. Lai varētu strādāt ar datiem Python, ir nepieciešams nolasīt csv failu Pandas DataFrame.

Python

    import   pandas   as   pd   # Read Country-data.csv into a DataFrame   df   =   pd  .  read_csv  (  'Country-data.csv'  )   # Prints the first 5 rows of a DataFrame as default   df  .  head  ()   # Prints no. of rows and columns of a DataFrame   df  .  shape

Izvade:

 (167 10)      4. DataFrames indeksēšana ar pandām    
  Pandas nodrošina jaudīgas indeksēšanas iespējas. Varat indeksēt DataFrames, izmantojot abus     pamatojoties uz amatu    un     uz etiķetes    metodes.  
     Uz pozīciju balstīta indeksācija (izmantojot        iloc         ):    
 Python      # prints first 5 rows and every column which replicates df.head()   df  .  iloc  [  0  :  5  :]   # prints entire rows and columns   df  .  iloc  [::]   # prints from 5th rows and first 5 columns   df  .  iloc  [  5  ::  5  ]   
       Izvade:    
              Uz etiķetēm balstīta indeksācija (izmantojot        loc         ):    
  Indeksēšanu var veikt ar etiķetēm, izmantojot      pandas.DataFrame.loc     metode, kas ļauj indeksēt, izmantojot etiķetes, nevis pozīcijas.  
  Piemēri:  
 Python      # prints first five rows including 5th index and every columns of df   df  .  loc  [  0  :  5  :]   # prints from 5th rows onwards and entire columns   df  .  loc  [  5  ::]   
       Izvade:    
         
 Iepriekš minētais faktiski daudz neatšķiras no df.iloc[0:5:]. Tas ir tāpēc, ka, lai gan rindu etiķetēm var būt jebkura vērtība, mūsu rindu etiķetes precīzi atbilst pozīcijām. Taču kolonnu etiķetes var ievērojami atvieglot darbu ar datiem.  
     Piemērs:    
 Python      # Prints the first 5 rows of Time period   # value    df  .  loc  [:  5    'child_mort'  ]   
       Izvade:    
        5. DataFrame Math ar pandām    
  Pandas atvieglo matemātisku darbību veikšanu ar datu rāmjos saglabātajiem datiem. Darbības, ko var veikt ar pandām, ir vektorizētas, kas nozīmē, ka tās ir ātras un tiek automātiski piemērotas visiem elementiem, neizmantojot cilpas.  
     Piemērs — kolonnu matemātika:    
 Python      # Adding 5 to every element in column A   df  [  'child_mort'  ]   =   df  [  'child_mort'  ]   +   5   # Multiplying values in column B by 10   df  [  'exports'  ]   =   df  [  'exports'  ]   *   10   df   
       Izvade:    
        Statistikas funkcijas pandās:    
  Datu kadru aprēķināšanu var veikt, izmantojot pandu rīku statistiskās funkcijas. Mēs varam izmantot tādas funkcijas kā:  
    df.sum()    → vērtību summa  
   df.mean()    → vidēji  
   df.max()    /    df.min()    → maksimālās un minimālās vērtības  
   df.describe()    → ātrs statistikas kopsavilkums  
 
 Python      # computes various summary statistics excluding NaN values   df  .  describe  ()   # Provides sum of all the values for each column   df  .  sum  ()   
       Izvade:    
        6. Datu vizualizācija ar Pandas un Matplotlib  
  Pandas ir ļoti viegli lietojamas      Matplotlib    jaudīga bibliotēka, ko izmanto pamata diagrammu un diagrammu izveidošanai. Izmantojot tikai dažas koda rindiņas, mēs varam vizualizēt savus datus un tos labāk izprast. Tālāk ir sniegti daži vienkārši piemēri, kas palīdzēs sākt plānošanu, izmantojot Pandas un Matplotlib.  
 Python      # Import the library first   import   matplotlib.pyplot   as   plt   
       Histogramma    
  Histogramma parāda vērtību sadalījumu kolonnā.  
 Python      df  [  'income'  ]  .  hist  (  bins  =  10  )   plt  .  title  (  'Histogram of Income'  )   plt  .  xlabel  (  'Income Value'  )   plt  .  ylabel  (  'Frequency'  )   plt  .  show  ()   
       Izvade:    
        Kastes gabals    
  A      kastes gabals     ir noderīga, lai atklātu novirzes un izprastu datu izplatību.  
 Python      df   =   df  .  head  (  10  )   plt  .  figure  (  figsize  =  (  20     6  ))   # Increase width to make x-axis labels clearer   df  .  boxplot  (  column  =  'imports'     by  =  'country'  )   plt  .  title  (  'Boxplot by Country'  )   plt  .  suptitle  (  ''  )   # Removes default title   plt  .  xlabel  (  'Country'  )   plt  .  ylabel  (  'Imports'  )   plt  .  xticks  (  rotation  =  45  )   # Optional: Rotate x-axis labels for better visibility   plt  .  tight_layout  ()   # Adjust layout to avoid clipping   plt  .  show  ()   
       Izvade:    
        Izkliedes diagramma    
  A      izkliedes gabals     parāda attiecības starp diviem mainīgajiem.  
 Python      x   =   df  [  'health'  ]   y   =   df  [  'life_expec'  ]   plt  .  scatter  (  x     y     label  =  'Data Points'     color  =  'm'     marker  =  '*'     s  =  30  )   plt  .  xlabel  (  'Health'  )   plt  .  ylabel  (  'Life Expectancy'  )   plt  .  title  (  'Scatter Plot of Health vs Life Expectancy'  )   plt  .  legend  ()   plt  .  show  ()   
       Izvade:    
        Saistīts raksts:    
     Pandas ievads    
    Grafiku uzzīmēšana Python    
    Darbs ar csv failiem programmā Python    
    Pandas DataFrame    
    Ievads Matplotlib    
    Histogramma — definīciju veidi Grafiks un piemēri    
    Kastes gabals    
    Izkliedes diagramma    
 
   
 
         Izveidojiet viktorīnu