본문 바로가기

분류 전체보기100

[Scikit-learn] ImportError: cannot import name 'CategoricalEncoder' 아무리 또박또박 써도, 재차 확인해도 해결되지 않는 cannot import name 'CategoricalEncoder' 있는 그대로 복사해와도 실행되지 않는다. https://github.com/scikit-learn/scikit-learn/issues/14402 ImportError: cannot import name 'CategoricalEncoder' from 'sklearn.preprocessing' · Issue #14402 · scikit-learn/scikit-learn Hello, This class was to be available as from 0.20. I'm on 0.21.2. github.com 이유는 간단했다. 제작자가 만들어놓고 배포/업데이트(release)하지 않아서 실.. 2019. 11. 20.
[scikit-learn] LabelEncoder / 범주형 데이터 변환 scikit-learn을 이용해 범주형 데이터를 쉽게 수치형 데이터로 바꿀 수 있다. 0과 1로 이루어진 다수의 열을 만드는 one-hot encoder와 달리 label encoder는 하나의 열에 서로 다른 숫자를 입력해준다. One-Hot Encoder 과일 딸기 1 0 0 사과 0 1 0 바나나 0 0 0 Label Encoder 과일 딸기 1 사과 2 바나나 3 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le = le.fit(train['col']) #train['col']을 fit train['col'] = le.transform(train['col']) #train['col']에 따라 encoding test['co.. 2019. 11. 13.
[python] googletrans로 언어 번역하기 :: Google Translate 0. 패키지 설치하기 pip install googletrans 1. 번역하기 from googletrans import Translator trans = Translator() result = trans.translate(word, dest='en') result.text .text : 번역된 문자 출력 .src(source) : 번역할 언어(from) .dest(destination) : 번역된 언어(to) 2. 사용할 수 있는 언어 import googletrans googletrans.LANGUAGES {'af': 'afrikaans', 'am': 'amharic', 'ar': 'arabic', 'az': 'azerbaijani', 'be': 'belarusian', 'bg': 'bulgarian.. 2019. 11. 12.
[python] datetime 패키지 Python에서 날짜, 시간을 다룰 때 사용하는 패키지이다. from datetime import datetime datetime.now() 현재시각 now_time = datetime.now() now_time 출력 : datetime.datetime(year, month, day, hour, minute, second, microsecond) datetime.datetime(2019, 11, 11, 3, 31, 42, 393075) datetime.datetime 형식은 .year/.month/...등을 이용해 원하는 값을 불러올 수 있다. 문자열, 숫자가 아닌 datetime.datetime이라는 날짜 형식을 지정할 수 있게 해주기에 날짜 데이터를 다루기 좀 더 수월해진다. .weekday() 요일.. 2019. 11. 11.
[Python] Pandas 정리 import numpy as np import pandas as pd # 주피터에서 보이는 행 늘리기 pd.set_option('max_rows', 500) # 주피터에서 보이는 열 늘리기 pd.set_option('max_columns', 500) ################################################# # 데이터프레임 만들기 pd.DataFrame({'col':[data]}) pd.DataFrame([[20190103, 'Kim', 'H'], [20190222, 'Lee', 'W'], [20190531, 'Jeong', 'S']], columns = ['ID', 'name', 'class']) # 행 조회 df.head() # 상위 n개 값만 보이기 df.tail() .. 2019. 11. 11.
[ADsP/ADP] 3과목. 데이터 분석 기획 1장. 데이터 분석 기획의 이해 - 분석 기획은 단기적으로는 분석 과제를 도출하여 프로젝트화 한 후 관리를 수행하여 분석결과를 도출하는 것이고, 중장기적으로는 분석 마스터플랜을 수행하여 지속적인 분석 과제 수행을 지원할 수 있는 거버넌스 체계를 수립하는 것이다. 분석의방법(How) / 분석의 대상(What) 분석의 대상(What) O 분석의 대상(What) X 분석의방법(How) O Optimization 최적화 Insight 통찰력 분석의방법(How) X Solution 해결책 Discovery 발견 1. 분석 기획 시 고려사항 - 데이터 : 데이터 확보, 데이터 유형에 따른 선행 분석 - 분석을 통해 가치창출되는 적절한 활용방안과 유즈케이스 탐색 - 분석 수행시 발생 가능한 장애요소와 대책에 대한 사.. 2019. 11. 5.
[ADP] 2과목 2장. 데이터 처리 기술 이해 :: 데이터 처리 프로세스 2장. 데이터 처리 기술 분산 파일 시스템 [ 구글 파일 시스템 ] 1. 가정 - 저가형 서버로 구성된 환경으로 서버의 고장이 빈번하게 발생할 수 있다. - 대부분의 파일은 대용량이다. - 작업 부하는 주로 연속적으로 많은 데이터를 읽는 연산이거나 임의의 영역에서 적은 데이터를 읽는 연산이다, - 파일에 대한 연산은 주로 순차적으로 데이터를 추가하며 파일에 대한 갱신은 드물게 이루어진다. - 여러 클라이언트에서 동시에 동일한 파일에 데이터를 추가하는 환경에서 동기화 오버헤드를 최소화할 수 있는 방법이 요구된다. - 낮은 응답 지연시간보다 높은 처리율이 중요하다. 2. Master node - 전체를 관리하고 통제하는 중앙 서버 - 단일 마스터 구조 : 모든 메타데이터를 메모리상에서 관리 - 주기적으로 하.. 2019. 11. 4.
[ADP] 2과목 1장. 데이터 처리 기술 이해 :: 데이터 처리 프로세스 1장. 데이터 처리 프로세스 ETL : Extraction, Transformation, and Load - 데이터 이동과 변환 - Extraction(추출) : 데이터 획득 - Transformation(변형) : 데이터 클렌징/형식 변환/표준화, 통합 또는 비즈니스 룰 적용 등 - Loading(적재) : 변형 처리가 완료된 데이터를 목표 시스템에 적재 - 데이터 웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터 마트(DM)에 대한 데이터 적재작업의 핵심 구성요소 - 데이터 통합, 데이터 이동, 마스터 데이터 관리에 걸쳐 폭넓게 활용 - 데이터 비정규화 : 성능 향상을 위해 테이블을 다시 합치는 것 - ETL 작업 단계 1) Interface : 데이터 획득을 위한 인터페이스 메커니즘 구현 2.. 2019. 11. 4.
[ADsP/ADP] 1과목. 데이터 이해 1장. 데이터의 이해 1. 데이터 1) 정성적 데이터 : 언어, 문자 (예 : sns에 올린 글 등) 2) 정량적 데이터 : 수치, 도형, 기호 (예 : 나이, 몸무게, 온도 등) 2. 지식경영 1) 암묵지 - 학습과 경험을 통해 개인에게 축적된 내면화된 지식 - 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 - 오랜 경험을 통해 개인에게 습득된 무형의 지식 - 조직의 지식으로 공통화 - 외부에 표출되어 다른 사람에게 공유되기 어려움 2) 형식지 - 문서나 메뉴얼처럼 형상화된 지식 - 언어, 기호, 숫자로 표출화된 지식 - 개인의 지식으로 연결화 - 전달과 공유가 용이하다. 3. DIKW 1) 데이터(Data) - 가공하기 전의 순수한 데이터 - 객관적인 사실 2) 정보(Information) - .. 2019. 11. 4.
[Python] matplotlib 색상명(color-named) matplotlib는 python으로 시각화를 할 때 많이 사용되는 라이브러리이다. import matplotlib.pyplot as plt 좀 더 보기 좋게 시각화하기 위해 옵션으로 colors를 지정할 수 있다. colors 색을 조합하여 사용할 수도 있고, 이미 정해진 색 이름을 불러와서 사용할 수도 있다. colormaps cmap에 사용되어 색상에 따라 정도를 나타낸다. Reference 2019. 11. 1.