본문 바로가기

[ADP 실기] 20회-21회 데이터분석전문가 실기시험 문제 :: Python

Mizy's log 2021. 3. 7.

반응형

20회

1. 날씨데이터 : temps.csv (50점)

year 2016
month 1~12
day 1~31
hour 0~23
week 1~52 (이건 자세하게 모르겠어요..)
temp_1 1일 전의 온도
temp_2 2일 전의 온도
actual 최대 온도 (실제값)
average 전년도 평균
friend 친구의 예측값

(100% 정확하지는 않지만 참고하라고 올려놓았습니다..)

 

- RandomForest와 SVM 두 모델 중 하나를 최종 분석 모델로 선택

- 분석 결과 / 근거 / 주장의 타당성 제시

 

1-1. (10점)

- EDA

- 결측치가 있다면 처리하기

- 결측치 처리 이외에 모델링을 하기 위한 전처리하기 

- 최종 분석용 데이터셋의 품질에 문제 없음을 주장

- 학습-시험 데이터 구분

 

1-2. Random Forest 모델링 (15점)

- 해당 모델의 예측 기준선 설정하는 방법 설명하고, 그 중 방법 선택 & 제시

- Random Forest 모델 학습하고, 시험데이터에서 성능 확인

- 예측 결과를 제시하고 필요한 모델 개선 수행

- 특성의 중요성을 분석하고 결과를 시각화

 

1-3. SVM 모델링 (15점)

- 해당 모델의 예측 기준선 설정하는 방법 설명하고, 그 중 방법 선택 & 제시

- SVM 모델 학습하고, 시험데이터에서 성능 확인

- 예측 결과를 제시하고 필요한 모델 개선 수행

- 특성의 중요성을 분석하고 결과를 시각화

 

1-4. (10점)

- 성능 비교하여 최종 우수한 모델 선택

- 모델의 장단점

- 향후 운영에 있어서 어떤 모델을 선택하는게 좋을지..

 

 

2. elec_use.csv (25점)

어쩌구_num 가구번호
Date 2020-09-28
Hour 0~23
Minute 00, 15, 30, 45
P  

(100% 정확하지는 않지만 참고하라고 올려놓았습니다..)

 

 

2-1.

- 주어진 데이터를 가구별, 일자별 15분 간격의 데이터로 변환하고, 5개 그룹으로 클러스터링

- 데이터가 어떻게 나와야한다는 표가 있었음

어쩌구_num Date P group
      클러스터링 한 그룹

(100% 정확하지는 않지만 참고하라고 올려놓았습니다..)

 

2-2.

- 군집한 5개 그룹을 15분 간격의 시간에 대한 요일별 평균으로 만들고, 히트맵 그리기

- 그룹별로 x축은 15분 간격의 시간, y축은 요일인 히트맵 그리기

- 히트맵이 어떻게 나와야한다는 그림이 있었음

 

 

3. sun_power.csv (25점)

- 시간별 발전량(PV) 예측

- 모델링하고 검증으로 RMSE, R^2(R-Squared), 정확도 계산 → 소수점 4번째 자리에서 반올림해서 소수점 3자리가 되도록

- 이때 정확도는 '예측값이 실제값보다 크다면 1-(실제값/예측값)이고, 실제값이 예측값보다 크다면 1-(예측값/실제값)이다.'

- 훈련-테스트 7:3 랜덤하게 나눔

- 필요시 파생변수 생성

 

 


21회

1. 학생 성적 예측

- 단계마다 적합한 시각화 제시

- 근거 제시

 

1-1.

1) 탐색적 데이터 분석 & 시각화

2) 결측치 식별하고 최소 2가지 이상의 결측치 예측 방법 제시

   ㄴ 그 중 하나의 방법으로 보정

   ㄴ 선택 기준과 타당성 반드시 제시

3) 인코딩이 필요한 항목과 이유 제시, 필요한 인코딩 수행

 

1-2. 

1) 학습용 / 테스트용 분할 2가지 방법 제시

2) 학습용 / 테스트용 생성

 

1-3.

1) 랜덤포레스트, SVM, XGBoost의 공통적인 특징?

2) 위 3개 구축하고 최적 1개 선정

   ㄴ 타당성과 성능 개선을 위해 추가 수행할 것?

   ㄴ 현업에서 운영할 때 운영 고려사항?

 

 

2. 회귀

1. train-test 8:2 분리 →  train으로 선형회귀 모델 & test 사용하여 RMSE, 결정계수

 

2. train-test 8:2 분리 →  train으로 Ridge회귀 모델 & test 사용하여 RMSE, 결정계수

   ㄴ alpha 0~1까지 0.1 간격으로 조정하여 가장 좋은 결정계수 갖는 alpha 찾기

 

3. train-test 8:2 분리 →  train으로 Lasso 회귀 모델 & test 사용하여 RMSE, 결정계수

   ㄴ alpha 0~1까지 0.1 간격으로 조정하여 가장 좋은 결정계수 갖는 alpha 찾기

 

 

3. 다항회귀 그래프 시각화 (12점)

다항회귀를 실시하고 (항의 개수는 3차까지) 각 항 별로 그래프를 그려 코드와 함께 제출

 

4. 이원분산분석 (9점)

- 독립변수 x1과 x2, 종속변수 y에 대하여 이원분산분석(Two-way ANOVA)를 실시

- 분석결과에 대한 통계량을 표로 제출하고 수행 결과를 해석해서 제시

 

 

 

728x90

Comments