본문 바로가기

[chardet] 파일 인코딩을 무엇으로 지정할지 모를 때 :: Encoding Error , Encoding Detector

Python/기타 2020. 5. 6.

반응형

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte

 

python에서 파일을 불러올 때 인코딩 설정을 제대로 해주지 않으면 파일이 불러와지지 않는다. 이때 무엇으로 인코딩할지 모를 때는 chardet 이용해 인코딩을 감지하면 된다.

 

 

설치하기 

pip install chardet

 

 

탐지할 수 있는 인코딩 방식

  • ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants)
  • Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese)
  • EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (Japanese)
  • EUC-KR, ISO-2022-KR (Korean)
  • KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (Cyrillic)
  • ISO-8859-5, windows-1251 (Bulgarian)
  • ISO-8859-1, windows-1252 (Western European languages)
  • ISO-8859-7, windows-1253 (Greek)
  • ISO-8859-8, windows-1255 (Visual and Logical Hebrew)
  • TIS-620 (Thai)

 

 

Command Line

% chardetect file

 

파일명: 인코딩방식 with confidence 정확도

 

 

감지된 인코딩 방식을 read_csv의 encoding에 입력해주면 파일이 성공적으로 불러와진다.

 

728x90

Comments