Få unike verdier fra en kolonne i Pandas DataFrame

Få unike verdier fra en kolonne i Pandas DataFrame

Den unike()-funksjonen fjerner alle dupliserte verdier i en kolonne og returnerer en enkelt verdi for flere samme verdier. I denne artikkelen vil vi diskutere hvordan vi kan få unike verdier fra en kolonne inn Pandas DataFrame .

Opprette en Pandas-dataramme med dupliserte elementer

Lag et eksempel på en Panda-dataramme med en ordbok med lister, si kolonnenavn A, B, C, D og E med dupliserte elementer.

Python3




# Import pandas package> import> pandas as pd> # create a dictionary with five fields each> data> => {> > 'A'> : [> 'A1'> ,> 'A2'> ,> 'A3'> ,> 'A4'> ,> 'A5'> ],> > 'B'> : [> 'B1'> ,> 'B2'> ,> 'B3'> ,> 'B4'> ,> 'B4'> ],> > 'C'> : [> 'C1'> ,> 'C2'> ,> 'C3'> ,> 'C3'> ,> 'C3'> ],> > 'D'> : [> 'D1'> ,> 'D2'> ,> 'D2'> ,> 'D2'> ,> 'D2'> ],> > 'E'> : [> 'E1'> ,> 'E1'> ,> 'E1'> ,> 'E1'> ,> 'E1'> ]}> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)>

Få unike verdier fra en kolonne i Pandas DataFrame

Nedenfor er noen eksempler der vi kan få de unike verdiene til en kolonne i denne datarammen.

  • Få de unike verdiene til 'B'-kolonnen
  • Få de unike verdiene til 'E'-kolonnen
  • Få antall unike verdier i en kolonne
  • Bruke set() for å eliminere dupliserte verdier fra en kolonne
  • Bruke pandas.concat() og Unique() metoder
  • Bruke Series.drop_duplicates()

Få de unike verdiene til 'B'-kolonnen

I dette eksemplet henter og skriver vi ut de unike verdiene fra 'B'-kolonnen ved å bruke unique()> metode. De resulterende unike verdiene er ['B1', 'B2', 'B3', 'B4']> .

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Get the unique values of 'B' column> df.B.unique()>

Produksjon

array(['B1', 'B2', 'B3', 'B4'], dtype=object) 

Få de unike verdiene til pandaer i 'E'-kolonnen

I dette eksemplet lager vi en pandas DataFrame fra en ordbok og henter deretter de unike verdiene fra 'E'-kolonnen ved å bruke unique()> metode. De resulterende unike verdiene er ['E1']> .

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Get the unique values of 'E' column> df.E.unique()>

Produksjon

array(['E1'], dtype=object) 

Få antall unike verdier i en kolonne

I dette eksemplet lager vi en pandas DataFrame fra en ordbok og beregner og skriver ut antall unike verdier i 'C'-kolonnen, unntatt NaN-verdier. Resultatet er 3, noe som indikerer at det er tre unike verdier i kolonne 'C'.

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Get number of unique values in column 'C'> df.C.nunique(dropna> => True> )>

Produksjon

3 

Eliminer dupliserte verdier fra en kolonne ved å bruke set()

I dette eksemplet lager vi en pandas DataFrame fra en ordbok og bruker deretter set()> funksjon å trekke ut unike verdier fra kolonne 'C', og eliminere duplikater. Det resulterende settet, {'C1', 'C2', 'C3'}> , representerer de unike verdiene i kolonne 'C'.

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Use set() to eliminate duplicate values in column 'C'> unique_values_set> => set> (df[> 'C'> ])> # Print the unique values> print> (unique_values_set)>

Produksjon

{'C1', 'C2', 'C3'} 

Bruke pandas.concat() og Unique() metoder

I dette eksemplet lager vi en pandas DataFrame fra en ordbok og setter deretter sammen unike verdier fra alle kolonner ved å bruke pd.concat()> . Den resulterende NumPy-matrisen, når den skrives ut, viser alle unike verdier fra kolonnene 'A' til 'E'.

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Use pd.concat() to concatenate all columns and then apply unique()> unique_values_all_columns> => pd.concat([df[col].unique()> for> col> in> df.columns])> # Print the unique values> print> (unique_values_all_columns)>

Produksjon

['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'C1' 'C2' 'C3' 'D1' 'D2' 'E1'] 

Bruke Series.drop_duplicates()

I dette eksemplet lager vi en pandas DataFrame fra en ordbok og fjerner duplikater fra kolonnene 'A' og 'D' ved å bruke drop_duplicates()> metode . Den resulterende DataFrame, når den skrives ut, viser de unike verdiene i kolonnene 'A' og 'D', med NaN-verdier der duplikater ble fjernet fra 'D'.

Python3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Use drop_duplicates() to remove duplicates from columns 'A' and 'D'> df[> 'A'> ]> => df[> 'A'> ].drop_duplicates()> df[> 'D'> ]> => df[> 'D'> ].drop_duplicates()> # Print the DataFrame after removing duplicates from columns 'A' and 'D'> print> (df)>

Produksjon

   A B C D E   0 A1 B1 C1 D1 E1 1 A2 B2 C2 D2 E1 2 A3 B3 C3 NaN E1 3 A4 B4 C3 NaN E1 4 A5 B4 C3 NaN E1