본문 바로가기

전체 글100

[HIVE] 날짜에서 요일 구하기 :: date_format date_format(date, 'E') : 날짜(date)에서 요일 구하기 date_format(date, 'u') : 날짜(date)에서 요일 숫자로 구하기 월요일 = 1 화요일 = 2 수요일 = 3 목요일 = 4 금요일 = 5 토요일 = 6 일요일 = 7 ↓ date_format 더 알아보기 ↓ mizykk.tistory.com/90 [HIVE] date_format 다루기 :: 날짜함수 date_format(날짜, 형식) : 하이브에서 date_format을 이용하면 날짜에서 다양한 정보를 추출할 수 있다. - 날짜 : date/timestamp/string 입력 가능 - 형식 Format 설명 예시 G 시대(BC, AD) AD y 연도(year) 199.. mizykk.tistory.com 2020. 11. 10.
[HIVE] 날짜 입력 :: from_unixtime / unix_timestamp unix_timestamp(string_date, format) - 문자열 date를 unixtime으로 변환 - format : 입력한 문자열 date의 형식 from_unixtime(unixtime, format) - unixtime을 날짜로 변환 - format : unixtime을 어떤 형식의 날짜로 변환할지 SELECT -- 문자 → 유닉스타임 → 날짜(yyyy-MM-dd) from_unixtime(unix_timestamp('20201110' ,'yyyyMMdd'), 'yyyy-MM-dd'); > 2020-11-10 2020. 11. 10.
[ADP 실기] 18회-19회 데이터분석전문가 실기시험 문제 :: Python 18회 1. 고객 등급 예측모형 1) EDA & 결측값 채우기 2-1) 파생변수 3개 생성 & 이유 작성 2-2) Train-Test 분할(7:3) / SOM 군집분석 / 정오분류표 2-3) 분류분석 4가지 2. 텍스트 마이닝(영어) 1) 명사 추출 & 불용어 처리 2) 빈도 막대그래프 3. 시계열분석 1) 평균과 분산 일정 + 근거 & 해석 2) ARIMA + 근거 & 해석 3) 최적 모델 선택 + 근거 & 해석 4) 적합 파악 19회 1. 기계학습 1) 전처리 / 탐색적데이터분석(EDA) / 시각화 2) train-test 분리(7:3) / 분류모델 3가지 / Confusion Matrix 3) 분류모델 > 앙상블하여 예측하고 result.csv 제출하기 2. 시계열분석 1) 시계열 시각화 → 이분산.. 2020. 10. 20.
[Python] 데이터프레임 합치기 :: pd.merge() pd.merge는 공통의 열을 기준으로 두 데이터프레임을 합쳐준다. sql에서 join과 같은 역할이다. import pandas as pd # 기준열 이름이 같을 때 pd.merge(left, right, on = '기준열', how = '조인방식') # 기준열 이름이 다를 때 pd.merge(left, right, left_on = '왼쪽 열', right_on = '오른쪽 열', how = '조인방식') left : 왼쪽 데이터프레임 right : 오른쪽 데이터프레임 on : (두 데이터프레임의 기준열 이름이 같을 때) 기준열 how : 조인 방식 {'left', 'right', 'inner', 'outer'} 기본값은 'inner' left_on : 기준열 이름이 다를 때, 왼쪽 기준열 right.. 2020. 10. 13.
[SQL] JOIN 한 눈에 보기 :: LEFT, RIGHT, INNER, OUTER JOIN 공통의 열(column)을 기준으로 여러 테이블을 합쳐준다. LEFT JOIN : 왼쪽 데이터를 기준으로 붙이기(join) SELECT * FROM 기준테이블 LEFT JOIN 붙일테이블 ON join_기준열 RIGHT JOIN - 오른쪽 데이터를 기준으로 붙이기(join) SELECT * FROM 기준테이블 RIGHT JOIN 붙일테이블 ON join_기준열 INNER JOIN - 교집합 - JOIN하려는 모든 테이블에 존재하는 데이터 SELECT * FROM 기준테이블 INNER JOIN 붙일테이블 ON join_기준열 OUTER JOIN - 데이터가 없는 부분은 null로 가져온다. - FULL OUTER JOIN : 전체 합치기 - LEFT OUTER JOIN = LEFT JOIN - R.. 2020. 10. 7.
[Python] has no attribute 'compat' (most likely due to a circular import) 오류 partially initialized module 'pandas' has no attribute 'compat' (most likely due to a circular import) 위와 같은 오류가 발생하였다. conda upgrade --all -y 콘다 업그레이드로 해결하였다. :) 2020. 10. 5.
[Python] 홀드아웃 :: train_test_split 홀드아웃 - 모델의 성능을 측정하고자 할 때 학습할 때 사용한 데이터로 검증하지 않기 위해 train-test 데이터를 분리한다. - 데이터를 랜덤하게 두 분류로 분리하여 교차검증을 실시 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 100) - test_size = 테스트 사이즈의 크기 > 0.3일 경우 train:test = 7:3 Preference 2020. 9. 25.
[Python] 오분류표 Confusion Matrix :: 분류(Classification) 모형 평가 오분류표(confusion matrix) from sklearn.metrics import confusion_matrix, classification_report, accuracy_score y_pred = y_pred = model.predict(X_test) # 분류결과표 - 정답 : 행 / 예측 : 열 confusion_matrix(y_pred, y_test) # 오분류표 classification_report(y_pred, y_test) # 분류정확도 accuracy_score(y_pred, y_test) - 분류 분석 모형의 평가 실제값 \ 예측치 True False 합계 True TP(True Positive) FN(False Negative) P False FP(False Positive) .. 2020. 9. 14.
[Python] 딕셔너리 :: Dictionary 딕셔너리 만들기 fruit = {"사과": [70, 65], "체리": 85, "복숭아": 80} fruit {'복숭아': 80, '사과': [70, 65], '체리': 85} 키 목록 # keys fruit.keys() dict_keys(['사과', '체리', '복숭아']) # 키 목록을 리스트로 list(fruit.keys()) ['사과', '체리', '복숭아'] 값 목록 # values fruit.values() dict_values([[70, 65], 85, 80]) # 값 목록을 리스트로 list(fruit.values()) [[70, 65], 85, 80] 키-값 # key-value fruit.items() dict_items([('사과', [70, 65]), ('체리', 85), ('복숭아.. 2020. 9. 12.
[Scipy.stats] 왜도(Skew) / 첨도 (Kurtosis) from scipy.stats import skew, kurtosis # 왜도 skew(data) # 첨도 kurtosis(data, fisher=True) 왜도 (Skewness) - 분포의 비대칭도. - 정규분포 = 왜도 0 - 왼쪽으로 치우침 = 왜도 > 0 - 오른쪽으로 치우침 = 왜도 0(Pearson 첨도 >3) - 아래로 뾰족함 = 첨도 < 0 (Pearson 첨도 < 3) from scipy.stats import kurtosis # 첨도 kurtosis(data, fi.. 2020. 9. 7.