Pandas DataFrame의 열에서 고유한 값 가져오기

Pandas DataFrame의 열에서 고유한 값 가져오기

Unique() 함수는 열에서 중복된 값을 모두 제거하고 동일한 여러 값에 대해 단일 값을 반환합니다. 이번 글에서는 컬럼에서 고유한 값을 얻는 방법에 대해 설명하겠습니다. 팬더 데이터프레임 .

중복 요소를 사용하여 Pandas 데이터프레임 만들기

목록 사전을 사용하여 샘플 Pandas 데이터프레임을 만듭니다. 즉, 열 이름은 다음과 같습니다. A, B, C, D, E 중복된 요소가 있습니다.

파이썬3




# Import pandas package> import> pandas as pd> # create a dictionary with five fields each> data> => {> > 'A'> : [> 'A1'> ,> 'A2'> ,> 'A3'> ,> 'A4'> ,> 'A5'> ],> > 'B'> : [> 'B1'> ,> 'B2'> ,> 'B3'> ,> 'B4'> ,> 'B4'> ],> > 'C'> : [> 'C1'> ,> 'C2'> ,> 'C3'> ,> 'C3'> ,> 'C3'> ],> > 'D'> : [> 'D1'> ,> 'D2'> ,> 'D2'> ,> 'D2'> ,> 'D2'> ],> > 'E'> : [> 'E1'> ,> 'E1'> ,> 'E1'> ,> 'E1'> ,> 'E1'> ]}> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)>

Pandas DataFrame의 열에서 고유한 값 가져오기

다음은 이 데이터프레임에 있는 열의 고유 값을 얻을 수 있는 몇 가지 예입니다.

  • 'B' 열의 고유 값 가져오기
  • 'E' 열의 고유 값 가져오기
  • 열의 고유 값 개수 가져오기
  • set()을 사용하여 열에서 중복 값 제거
  • pandas.concat() 및 Unique() 메서드 사용
  • Series.drop_duplicates() 사용

'B' 열의 고유 값 가져오기

이 예에서는 다음을 사용하여 'B' 열에서 고유 값을 검색하고 인쇄합니다. unique()> 방법. 결과 고유 값은 다음과 같습니다. ['B1', 'B2', 'B3', 'B4']> .

파이썬3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Get the unique values of 'B' column> df.B.unique()>

산출

array(['B1', 'B2', 'B3', 'B4'], dtype=object) 

'E' 열에서 Pandas의 고유 값 가져오기

이 예에서는 사전에서 pandas DataFrame을 만든 다음 다음을 사용하여 'E' 열에서 고유 값을 검색합니다. unique()> 방법. 결과 고유 값은 다음과 같습니다. ['E1']> .

파이썬3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Get the unique values of 'E' column> df.E.unique()>

산출

array(['E1'], dtype=object) 

열의 고유 값 개수 가져오기

이 예에서는 사전에서 pandas DataFrame을 만든 다음 NaN 값을 제외한 'C' 열의 고유 값 수를 계산하고 인쇄합니다. 결과는 3입니다. 이는 'C' 열에 3개의 고유 값이 있음을 나타냅니다.

파이썬3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Get number of unique values in column 'C'> df.C.nunique(dropna> => True> )>

산출

3 

set()을 사용하여 열에서 중복 값 제거

이 예에서는 사전에서 pandas DataFrame을 만든 다음 set()> 기능 중복을 제거하여 'C' 열에서 고유한 값을 추출합니다. 결과 집합, {'C1', 'C2', 'C3'}> , 'C'열의 고유 값을 나타냅니다.

파이썬3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Use set() to eliminate duplicate values in column 'C'> unique_values_set> => set> (df[> 'C'> ])> # Print the unique values> print> (unique_values_set)>

산출

{'C1', 'C2', 'C3'} 

pandas.concat() 및 Unique() 메서드 사용

이 예에서는 사전에서 pandas DataFrame을 만든 다음 다음을 사용하여 모든 열의 고유 값을 연결합니다. pd.concat()> . 결과 NumPy 배열은 인쇄 시 'A' 열에서 'E' 열까지의 모든 고유 값을 표시합니다.

파이썬3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Use pd.concat() to concatenate all columns and then apply unique()> unique_values_all_columns> => pd.concat([df[col].unique()> for> col> in> df.columns])> # Print the unique values> print> (unique_values_all_columns)>

산출

['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'C1' 'C2' 'C3' 'D1' 'D2' 'E1'] 

Series.drop_duplicates() 사용

이 예에서는 사전에서 pandas DataFrame을 생성하고 다음을 사용하여 'A' 및 'D' 열에서 중복 항목을 제거합니다. drop_duplicates()> 방법 . 결과 DataFrame이 인쇄되면 'A' 및 'D' 열에 고유한 값이 표시되며 'D'에서 중복이 제거된 NaN 값이 표시됩니다.

파이썬3




# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df> => pd.DataFrame(data)> # Use drop_duplicates() to remove duplicates from columns 'A' and 'D'> df[> 'A'> ]> => df[> 'A'> ].drop_duplicates()> df[> 'D'> ]> => df[> 'D'> ].drop_duplicates()> # Print the DataFrame after removing duplicates from columns 'A' and 'D'> print> (df)>

산출

   A B C D E   0 A1 B1 C1 D1 E1 1 A2 B2 C2 D2 E1 2 A3 B3 C3 NaN E1 3 A4 B4 C3 NaN E1 4 A5 B4 C3 NaN E1