본문 바로가기

[Python] 고유값 & 고유값의 개수 & 값의 개수 :: unique / nunique / value_counts

Python/Pandas 2020. 12. 12.

반응형

데이터에 고유값이 무엇이 있는지 알고 싶다면 unique 

총 고유값의 수가 몇 개인지 알고 싶다면 nunique

값별로 데이터의 개수를 알고 싶다면 value_counts


import seaborn as sns

# 예시데이터
planets = sns.load_dataset('planets')
planets.sample(5)

예시데이터로 seaborn의 planets을 불러왔다.

 

 

1. column의 고유값 : unique()

# 고유값
df['col'].unique()

데이터가 무엇으로 구성되어있는지 보고 싶다면 .unique()로 열의 고유값을 볼 수 있다. 

 

 

2. column별 고유값의 개수 : nunique()

# 고유값의 수
df.nunique()

# 고유값의 수 - 결측값 포함
df.nunique(dropna = False)

각 column에 고유값이 몇 개 있는지 알고싶다면 .nunique()를 사용하면 된다.

 

 

그냥 nunique()를 사용하면 결측값은 하나의 값으로 보지 않는다. 결측값도 하나의 값으로 카운트 하려면 dropna=False를 추가해주면 된다. 아무것도 입력하지 않으면 dropna=True가 된다.

NaN이 존재했던 orbital_period, mass, distance에 값이 1씩 증가하였다.

 

 

2. column의 고유값의 개수

# 고유값의 개수
df['col'].nunique()

데이터프레임 전체말고 각 컬럼별로 고유값의 개수를 구할 수도 있다. 

 

 

3. 값의 개수 : value_counts

# 값의 개수
df['col'].value_counts()

# 값의 개수 - 오름차순
df['col'].value_counts(ascending=True)

고유값이 아닌 전체 값의 개수는 .value_counts()로 알 수 있다. 이때 개수의 크기대로 내림차순되어 정렬되어 나타나는데, 오름차순으로 보고싶다면 ascending=True를 추가해주면 된다.

 

 

 

 

728x90

Comments