[chardet] 파일 인코딩을 무엇으로 지정할지 모를 때 :: Encoding Error , Encoding Detector
반응형
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte
python에서 파일을 불러올 때 인코딩 설정을 제대로 해주지 않으면 파일이 불러와지지 않는다. 이때 무엇으로 인코딩할지 모를 때는 chardet 이용해 인코딩을 감지하면 된다.
설치하기
pip install chardet
탐지할 수 있는 인코딩 방식
- ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants)
- Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese)
- EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (Japanese)
- EUC-KR, ISO-2022-KR (Korean)
- KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (Cyrillic)
- ISO-8859-5, windows-1251 (Bulgarian)
- ISO-8859-1, windows-1252 (Western European languages)
- ISO-8859-7, windows-1253 (Greek)
- ISO-8859-8, windows-1255 (Visual and Logical Hebrew)
- TIS-620 (Thai)
Command Line
% chardetect file
파일명: 인코딩방식 with confidence 정확도
감지된 인코딩 방식을 read_csv의 encoding에 입력해주면 파일이 성공적으로 불러와진다.
728x90
'Python > 기타' 카테고리의 다른 글
[Scipy.stats] 왜도(Skew) / 첨도 (Kurtosis) (0) | 2020.09.07 |
---|---|
[Python] Multiprocessing을 이용한 반복문 속도개선 (0) | 2020.06.08 |
[Python] 정규표현식 기본 re :: regular expression (0) | 2020.04.17 |
[Python] 정규성 검정 :: 히스토그램, Q-Q Plot (2) | 2020.04.07 |
[Python] 예외처리 :: try~except (0) | 2020.04.06 |
Comments