-
21회 ADP 실기 기출 문제 & 합격 & 공부 방법데이터분석/수상 & 자격증 후기 2021. 7. 6. 17:22
안녕하세요.
ADP실기 합격 후 많은 분들이 과외와 강의를 요청하여 CLASS101에 강의를 오픈하게 되었습니다.
많은 응원 감사합니다~!!
https://101creator.page.link/XmZA
20년 9월 ADsP를 취득
20년 12월 ADP 필기 합격
21년 3월 ADP 실기(20회) 27점 불합격
21년 6월 ADP 실기(21회) 79점 합격
총 공부기간으로는 1년 정도 걸렸다고 볼 수 있겠네요. (정말 열심히 했습니다..)
---- 공부 방법 ----
저는 빅데이터, 블록체인 연구실에서 처음에는 블록체인을 공부하다가 데이터 분석 분야로 진로를 결정한 뒤
9월부터 데이터 분석을 공부하였습니다.
공부하는 방법은 사람마다 다르겠지만 저는 여러 공모전을 준비했던게 도움이 되었습니다.
공모전, 데이콘이나 케글에서 다양한 데이터와 분석방법을 실제로 적용해보면서 실전감각을 익히고
데이터 전처리는 책을 보지 않고 할 수 있는 정도로 준비했습니다.Tip
1. 다양한 데이터를 전처리하고 다양한 방법으로 분석하는 것이 좋습니다.
* 범위가 워낙 넓기때문에 머신러닝은 직접 해보지 않은 부분이 문제에 나온다면 거이 못푼다고 생각해야합니다. 그렇기에 회귀, 분류, 앙상블, 트리모델 , RNN등 다양한 기법들을 한 번씩은 다 실습해보시길 추천드립니다.
2. 자신만의 코딩 북 만들기
* 저는 연구실 3명이 스터디를 하며 실습해 본 코드들은 따로 정리하여 저희만의 책을 만들었습니다.
직접 사용하고 스터디하였던 코드들이라서 시험장에서 금방 찾고 적용할 수 있었습니다.
시험 시간이 넉넉하지 않기때문에 바로 적용할 수 있는 코드들을 가지고 있는 것은 엄청난 이점이 있습니다.
20회 때에는 시간이 부족해서 마지막 문제를 아예 풀지 못했었는데 21회 때에는 저는 30분 가량 시간이 남았고 검토까지 다 할 수 있었으니까요..
스터디를 통해 자신만의 코딩북을 가지고 있다면 도움이 될 것이라 생각합니다.스터디에서 작성한 코딩 북 보라색 책 추천!!! ## 기출문제 출처
https://cafe.naver.com/sqlpd/21090
1. 50점짜리 문제
학생 성적에 관한 데이터세트 제공 약 350행짜리 소규모 데이터. 변수 대략 10개 정도이고 타겟 변수는 성적 등급(grade)인데 0,1,2 ... 11까지의 등급 값으로 구성 됨. 설명에는 1~20이라고 써있었지만, 실제 value_counts 해보면 0-11이었음.
아래가 실제 데이터 세트이고 다음의 변수들만 있었음 school, sex, paid, activities, famrel, freetime, goout, dalc, walc, health, absences, 타겟변수 : grade
https://archive.ics.uci.edu/ml/datasets/student+performance
UCI Machine Learning Repository: Student Performance Data Set
Student Performance Data Set Download : Data Folder , Data Set Description Abstract : Predict student performance in secondary education (high school). Data Set Characteristics: Multivariate Number of Instances: 649 Area: Social Attribute Characteristics: Integer Number of Attributes: 33 Date Dona...
archive.ics.uci.edu
1-1. 시각화 포함 탐색적 자료분석
1-2. 결측치 식별하고 결측치를 예측하는 두 가지 방법 정도를 쓰고, 선택한 이유를 설명.(대충 채우라고 알아들음)
1-3. 범주형 변수 인코딩이 필요한 경우를 식별하고, 변환을 적용하시오. 선택한 이유를 설명.
1.4. 데이터 분할 방법을 2가지 쓰고 적절한 데이터 분할을 적용. 선택한 이유 설명.
1.5. svm, xgboost, randomforest 3개의 알고리즘 공통점을 쓰고 이 예측 분석에 적합한 알고리즘인지 설명.
1.6. 3모델 모두 모델링 해보고 가장 적합한 알고리즘 선택하고 이유 설명. 한계점 설명하고 보완 가능한 부분 설명. 현업에서 사용시 주의할 점 등에 대해 기술.
큰 2번 50점짜리
2. 연속형 독립변수 여러개의 소규모 데이터. 변수명은 순서대로 x1~x10 이라 의미 없음
2-1. 데이터 8:2로 분할하고 선형회귀 적용하시오. 결정계수와 rmse 구하시오
2-2. 데이터 8:2로 분할하고 릿지 회귀 적용하시오. alpha 값을 0부터 1까지 0.1단위로 모두 탐색해서 결정계수가 가장 높을때의 알파를 찾고, 해당 알파로 다시 모델을 학습해서 결정계수와 rmse를 계산
2-3. 라쏘 회귀로 2-2과 동일한 문제
3. 독립변수 하나 종속변수 하나 소규모 데이터.
다항 회귀를 3차까지 적용하고 각 차수별 데이터포인트 스캐터 플롯과 계수와 기울기 선을 그리라고 함(12점) .
4. 9점짜리
변수 3개
하나는 abcde 각각을 값으로 갖는 범주형 변수
나머지 두 개는 수치형 연속변수
이원분산분석을 수행하고 통계표를 작성하시오.