[ADP 실기] 20회-21회 데이터분석전문가 실기시험 문제 :: Python
20회
1. 날씨데이터 : temps.csv (50점)
year | 2016 |
month | 1~12 |
day | 1~31 |
hour | 0~23 |
week | 1~52 (이건 자세하게 모르겠어요..) |
temp_1 | 1일 전의 온도 |
temp_2 | 2일 전의 온도 |
actual | 최대 온도 (실제값) |
average | 전년도 평균 |
friend | 친구의 예측값 |
(100% 정확하지는 않지만 참고하라고 올려놓았습니다..)
- RandomForest와 SVM 두 모델 중 하나를 최종 분석 모델로 선택
- 분석 결과 / 근거 / 주장의 타당성 제시
1-1. (10점)
- EDA
- 결측치가 있다면 처리하기
- 결측치 처리 이외에 모델링을 하기 위한 전처리하기
- 최종 분석용 데이터셋의 품질에 문제 없음을 주장
- 학습-시험 데이터 구분
1-2. Random Forest 모델링 (15점)
- 해당 모델의 예측 기준선 설정하는 방법 설명하고, 그 중 방법 선택 & 제시
- Random Forest 모델 학습하고, 시험데이터에서 성능 확인
- 예측 결과를 제시하고 필요한 모델 개선 수행
- 특성의 중요성을 분석하고 결과를 시각화
1-3. SVM 모델링 (15점)
- 해당 모델의 예측 기준선 설정하는 방법 설명하고, 그 중 방법 선택 & 제시
- SVM 모델 학습하고, 시험데이터에서 성능 확인
- 예측 결과를 제시하고 필요한 모델 개선 수행
- 특성의 중요성을 분석하고 결과를 시각화
1-4. (10점)
- 성능 비교하여 최종 우수한 모델 선택
- 모델의 장단점
- 향후 운영에 있어서 어떤 모델을 선택하는게 좋을지..
2. elec_use.csv (25점)
어쩌구_num | 가구번호 |
Date | 2020-09-28 |
Hour | 0~23 |
Minute | 00, 15, 30, 45 |
P |
(100% 정확하지는 않지만 참고하라고 올려놓았습니다..)
2-1.
- 주어진 데이터를 가구별, 일자별 15분 간격의 데이터로 변환하고, 5개 그룹으로 클러스터링
- 데이터가 어떻게 나와야한다는 표가 있었음
어쩌구_num | Date | P | group |
클러스터링 한 그룹 |
(100% 정확하지는 않지만 참고하라고 올려놓았습니다..)
2-2.
- 군집한 5개 그룹을 15분 간격의 시간에 대한 요일별 평균으로 만들고, 히트맵 그리기
- 그룹별로 x축은 15분 간격의 시간, y축은 요일인 히트맵 그리기
- 히트맵이 어떻게 나와야한다는 그림이 있었음
3. sun_power.csv (25점)
- 시간별 발전량(PV) 예측
- 모델링하고 검증으로 RMSE, R^2(R-Squared), 정확도 계산 → 소수점 4번째 자리에서 반올림해서 소수점 3자리가 되도록
- 이때 정확도는 '예측값이 실제값보다 크다면 1-(실제값/예측값)이고, 실제값이 예측값보다 크다면 1-(예측값/실제값)이다.'
- 훈련-테스트 7:3 랜덤하게 나눔
- 필요시 파생변수 생성
21회
1. 학생 성적 예측
- 단계마다 적합한 시각화 제시
- 근거 제시
1-1.
1) 탐색적 데이터 분석 & 시각화
2) 결측치 식별하고 최소 2가지 이상의 결측치 예측 방법 제시
ㄴ 그 중 하나의 방법으로 보정
ㄴ 선택 기준과 타당성 반드시 제시
3) 인코딩이 필요한 항목과 이유 제시, 필요한 인코딩 수행
1-2.
1) 학습용 / 테스트용 분할 2가지 방법 제시
2) 학습용 / 테스트용 생성
1-3.
1) 랜덤포레스트, SVM, XGBoost의 공통적인 특징?
2) 위 3개 구축하고 최적 1개 선정
ㄴ 타당성과 성능 개선을 위해 추가 수행할 것?
ㄴ 현업에서 운영할 때 운영 고려사항?
2. 회귀
1. train-test 8:2 분리 → train으로 선형회귀 모델 & test 사용하여 RMSE, 결정계수
2. train-test 8:2 분리 → train으로 Ridge회귀 모델 & test 사용하여 RMSE, 결정계수
ㄴ alpha 0~1까지 0.1 간격으로 조정하여 가장 좋은 결정계수 갖는 alpha 찾기
3. train-test 8:2 분리 → train으로 Lasso 회귀 모델 & test 사용하여 RMSE, 결정계수
ㄴ alpha 0~1까지 0.1 간격으로 조정하여 가장 좋은 결정계수 갖는 alpha 찾기
3. 다항회귀 그래프 시각화 (12점)
다항회귀를 실시하고 (항의 개수는 3차까지) 각 항 별로 그래프를 그려 코드와 함께 제출
4. 이원분산분석 (9점)
- 독립변수 x1과 x2, 종속변수 y에 대하여 이원분산분석(Two-way ANOVA)를 실시
- 분석결과에 대한 통계량을 표로 제출하고 수행 결과를 해석해서 제시
'Mizy's log' 카테고리의 다른 글
[CSS] ::selection에서 사용 가능한 스타일 속성 (0) | 2024.09.12 |
---|---|
[JS] 특정 위치로 스크롤 (scrollTo / scrollIntoView) (0) | 2024.08.07 |
GitHub 블로그 Minimal-mistakes 설정하기 :: MAC (0) | 2021.03.02 |
[컴활] 1급 실기 엑셀(Excel) 프로시저 정리 (0) | 2020.11.13 |
티스토리 광고 애드핏(Ad-fit) 설정하기 + 스킨편집 (0) | 2020.11.13 |
Comments