본문 바로가기

[Scikit-learn] LabelEncoder() :: Labelling

Python/Scikit-learn 2019. 11. 20.

반응형

 

머신러닝에서 모델링을 할 때 문자로 이루어진 데이터를 숫자로 바꿔줘야할 경우가 있다. 이때 Scikit-learn의 LabelEncder를 사용하여 범주형 데이터를 손쉽게 숫자형 데이터로 labelling 할 수 있다. 

 

fruit = pd.DataFrame({'name':['apple', 'banana', 'cherry', 'durian'],
                      'color':['red', 'yellow', 'red', 'green']})   
fruit

fruit이라는 예시데이터를 생성하였다. 

 

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit(fruit['name'])
fruit['name'] = le.transform(fruit['name'])
fruit

One-Hot Encoding은 0과 1로 이루어진 여러개의 열을 생성하는 반면 LabelEncoder는 문자를 숫자로 변환하여 하나의 열로 나타난다는 차이점이 있다. 

 

 

 

Reference

728x90

Comments