1. 빅데이터분석기사 필기 시험 구조와 공부 순서
빅데이터분석기사 필기는 분석기획, 데이터 탐색, 모델링, 결과 해석 4과목으로 구성되며 과락 없이 평균 60점 이상을 목표로 공부해야 한다.
# 빅데이터분석기사 필기 시험 구조와 공부 순서
1. 정의
빅데이터분석기사는 빅데이터를 수집, 저장, 처리, 분석하고 분석 결과를 해석할 수 있는 능력을 평가하는 국가기술자격이다.
여기서 빅데이터는 일반적인 방식으로 처리하기 어려울 정도로 양이 많고, 종류가 다양하고, 빠르게 생성되는 데이터를 말한다.
예를 들면 다음과 같은 데이터가 있다.
쇼핑몰 구매 기록
앱 접속 로그
병원 진료 데이터
금융 거래 데이터
SNS 글
이미지, 영상, 음성 데이터
공공데이터
센서 데이터
빅데이터분석기사 필기는 이 데이터를 실제로 분석하기 전에 알아야 할 이론을 평가하는 시험이다.
필기시험은 코딩 실력을 직접 평가하는 시험이 아니다. 객관식 문제로 개념, 절차, 통계, 모델링, 평가 방법을 확인한다.
빅데이터분석기사 필기 과목은 총 4과목이다.
1. 빅데이터 분석기획
2. 빅데이터 탐색
3. 빅데이터 모델링
4. 빅데이터 결과 해석
각 과목은 20문항씩 출제된다. 총 80문항이다. 시험 시간은 120분이다.
합격 기준은 다음과 같다.
과목당 40점 이상
전 과목 평균 60점 이상
여기서 과락이라는 개념이 중요하다.
과락은 특정 과목 점수가 기준보다 낮아서 불합격되는 것을 말한다. 빅데이터분석기사 필기는 한 과목이라도 40점 미만이면 평균이 60점 이상이어도 불합격이다.
예를 들어 다음과 같은 점수라면 불합격이다.
빅데이터 분석기획: 80점
빅데이터 탐색: 75점
빅데이터 모델링: 70점
빅데이터 결과 해석: 35점
평균은 65점이다. 하지만 결과 해석 과목이 40점 미만이다. 그래서 과락으로 불합격이다.
빅데이터분석기사 필기는 고득점만 노리는 시험이 아니다. 4과목을 균형 있게 공부해야 하는 시험이다.
---
2. 필요한 이유
빅데이터분석기사 필기 시험 구조를 먼저 알아야 하는 이유는 공부 순서를 정하기 위해서다.
시험 범위를 모르면 다음 문제가 생긴다.
어떤 과목부터 공부해야 할지 모른다.
중요한 개념과 덜 중요한 개념을 구분하지 못한다.
통계, 모델링, 전처리 개념이 섞여서 헷갈린다.
기출문제를 풀어도 어떤 단원 문제인지 파악하기 어렵다.
한 과목만 공부하다가 과락이 날 수 있다.
빅데이터 분석은 순서가 있는 작업이다.
일반적인 흐름은 다음과 같다.
1. 분석할 문제를 정한다.
2. 필요한 데이터를 찾는다.
3. 데이터를 수집한다.
4. 데이터를 정리한다.
5. 데이터를 탐색한다.
6. 분석 모델을 만든다.
7. 모델 성능을 평가한다.
8. 결과를 해석한다.
9. 결과를 보고서나 시각화로 전달한다.
필기 4과목도 이 흐름과 거의 같다.
실제 분석 흐름 | 필기 과목 |
|---|---|
분석 목적 설정 | 빅데이터 분석기획 |
데이터 확인과 정리 | 빅데이터 탐색 |
모델 생성 | 빅데이터 모델링 |
성능 평가와 해석 | 빅데이터 결과 해석 |
따라서 시험 공부도 분석 흐름대로 해야 한다.
처음부터 알고리즘만 외우면 어렵다. 먼저 분석이 왜 필요한지 이해해야 한다. 그다음 데이터를 어떻게 다루는지 배워야 한다. 그 후 모델링을 공부해야 한다. 마지막으로 평가와 해석을 정리해야 한다.
---
3. 핵심 개념
3-1. 빅데이터 분석기획
빅데이터 분석기획은 분석을 시작하기 전에 무엇을 분석할지 정하는 과목이다.
기획은 계획을 세우는 단계다. 데이터 분석에서 기획은 문제 정의, 목표 설정, 데이터 확보 계획, 분석 방법 선택을 포함한다.
예를 들어 쇼핑몰에서 고객 이탈을 줄이고 싶다고 하자.
이때 바로 모델을 만들면 안 된다. 먼저 다음 질문에 답해야 한다.
고객 이탈이란 무엇인가?
어떤 고객을 이탈 고객으로 볼 것인가?
이탈을 예측할 것인가?
이탈 원인을 찾을 것인가?
어떤 데이터가 필요한가?
분석 결과를 어디에 사용할 것인가?
이런 내용을 정하는 것이 분석기획이다.
핵심 개념은 다음과 같다.
빅데이터 정의: 대용량, 다양한 형태, 빠른 속도로 생성되는 데이터
3V: Volume, Variety, Velocity
5V: 3V에 Veracity, Value를 추가한 개념
분석 과제: 해결해야 할 분석 문제
분석 목표: 분석으로 얻고 싶은 결과
데이터 수집 계획: 어떤 데이터를 어디서 가져올지 정하는 계획
분석 방법론: 분석 프로젝트를 진행하는 절차
데이터 거버넌스: 데이터를 조직 차원에서 관리하는 체계
개인정보 보호: 개인을 알아볼 수 있는 정보를 안전하게 관리하는 것
---
3-2. 빅데이터 탐색
빅데이터 탐색은 데이터를 분석하기 전에 데이터를 살펴보고 정리하는 과목이다.
탐색은 데이터를 관찰하는 과정이다. 데이터가 어떤 모양인지, 빠진 값은 없는지, 이상한 값은 없는지 확인한다.
예를 들어 고객 데이터에 나이 컬럼이 있다고 하자.
정상적인 값은 보통 0세 이상이다. 그런데 나이가 -5로 들어가 있으면 이상한 값이다. 나이가 비어 있으면 결측값이다. 같은 고객이 여러 번 들어가 있으면 중복값이다.
이런 문제를 찾고 처리하는 과정이 데이터 탐색과 전처리다.
핵심 개념은 다음과 같다.
EDA: 탐색적 데이터 분석. 데이터를 본격 분석하기 전에 살펴보는 과정
결측값: 비어 있는 값
이상값: 일반적인 범위에서 벗어난 값
중복값: 같은 데이터가 반복된 값
전처리: 분석 전에 데이터를 정리하는 작업
변수: 데이터의 열 또는 컬럼
파생변수: 기존 변수를 이용해 새로 만든 변수
표준화: 평균 0, 표준편차 1이 되도록 바꾸는 것
정규화: 값을 일정 범위로 바꾸는 것
상관관계: 두 변수가 함께 변하는 관계
---
3-3. 빅데이터 모델링
빅데이터 모델링은 데이터를 이용해 예측, 분류, 군집화, 패턴 발견을 수행하는 과목이다.
모델은 데이터에서 규칙을 학습하는 구조다. 예를 들어 고객 정보를 보고 이탈 여부를 예측하는 프로그램을 만들 수 있다. 이때 사용되는 분석 구조가 모델이다.
모델링은 모델을 만드는 과정이다.
모델링 문제는 크게 나눌 수 있다.
분류: 정해진 범주 중 하나를 예측
회귀: 숫자 값을 예측
군집: 비슷한 데이터를 묶음
연관분석: 함께 발생하는 항목 관계를 찾음
예를 들어 다음과 같다.
문제 | 분석 유형 |
|---|---|
고객이 이탈할지 예측 | 분류 |
다음 달 매출 예측 | 회귀 |
비슷한 고객 그룹 찾기 | 군집 |
함께 구매되는 상품 찾기 | 연관분석 |
핵심 개념은 다음과 같다.
지도학습: 정답이 있는 데이터로 학습하는 방법
비지도학습: 정답 없이 데이터 구조를 찾는 방법
분류: 예 또는 아니오, A/B/C 같은 범주 예측
회귀: 가격, 매출, 점수 같은 숫자 예측
의사결정나무: 질문을 따라 데이터를 나누는 모델
랜덤포레스트: 여러 개의 의사결정나무를 사용하는 모델
SVM: 데이터를 나누는 경계를 찾는 모델
KNN: 가까운 이웃을 기준으로 판단하는 모델
군집분석: 비슷한 데이터끼리 묶는 분석
연관분석: 함께 나타나는 항목 관계를 찾는 분석
시계열 분석: 시간 순서가 있는 데이터를 분석하는 방법
---
3-4. 빅데이터 결과 해석
빅데이터 결과 해석은 모델이 낸 결과를 평가하고 의미를 설명하는 과목이다.
모델을 만들었다고 분석이 끝나는 것은 아니다. 모델이 잘 맞는지 확인해야 한다. 그리고 결과가 실제 업무에서 어떤 의미인지 설명해야 한다.
예를 들어 고객 이탈 예측 모델을 만들었다고 하자.
모델이 고객 100명 중 90명을 맞혔다면 좋아 보일 수 있다. 하지만 실제 이탈 고객을 거의 못 찾았다면 좋은 모델이 아니다.
그래서 평가 지표를 알아야 한다.
핵심 개념은 다음과 같다.
혼동행렬: 분류 모델의 예측 결과를 표로 정리한 것
정확도: 전체 중 맞힌 비율
정밀도: 이탈한다고 예측한 고객 중 실제 이탈한 비율
재현율: 실제 이탈 고객 중 모델이 맞힌 비율
F1-score: 정밀도와 재현율을 함께 고려한 지표
ROC-AUC: 분류 모델의 구분 성능을 평가하는 지표
MAE: 예측 오차의 절댓값 평균
MSE: 예측 오차 제곱의 평균
RMSE: MSE에 루트를 씌운 값
R²: 회귀모델이 데이터를 얼마나 설명하는지 나타내는 지표
변수 중요도: 어떤 변수가 예측에 큰 영향을 줬는지 나타내는 값
시각화: 분석 결과를 그래프로 표현하는 것
---
4. 주변 기초 개념
4-1. 데이터
데이터는 분석에 사용하는 값이다.
예를 들어 학생 데이터가 있다면 다음 값들이 데이터다.
이름
나이
점수
출석일수
합격 여부
데이터는 형태에 따라 나눌 수 있다.
정형 데이터는 표 형태로 정리된 데이터다. 엑셀, 데이터베이스 테이블이 대표적이다.
반정형 데이터는 구조가 있지만 표처럼 완전히 정리되지는 않은 데이터다.
ON, XML이 대표적이다.
비정형 데이터는 정해진 표 구조가 없는 데이터다.
문서, 이미지, 영상, 음성이 대표적이다.
---
## 4-2. 변수
변수는 데이터에서 하나의 항목을 뜻한다.
표에서는 컬럼이라고도 한다.
예를 들어 고객 데이터가 다음과 같다고 하자.
| 고객ID | 나이 | 구매금액 | 이탈여부 |
| ---- | -: | ----: | ---- |
| A001 | 31 | 50000 | 아니오 |
| A002 | 45 | 0 | 예 |
여기서 고객ID, 나이, 구매금액, 이탈여부가 변수다.
변수는 역할에 따라 나눌 수 있다.
* 독립변수: 예측에 사용하는 변수
* 종속변수: 예측하려는 결과 변수
* 목표변수: 모델이 맞히려고 하는 변수
* 설명변수: 목표변수를 설명하는 변수
고객 이탈 예측에서는 이탈여부가 목표변수다.
나이와 구매금액은 설명변수다.
---
## 4-3. 통계
통계는 데이터를 숫자로 요약하고 해석하는 방법이다.
대표적인 통계 개념은 다음과 같다.
* 평균: 값을 모두 더한 뒤 개수로 나눈 값
* 중앙값: 값을 순서대로 정렬했을 때 가운데 있는 값
* 최빈값: 가장 자주 나타나는 값
* 분산: 값들이 평균에서 얼마나 떨어져 있는지 나타내는 값
* 표준편차: 분산에 루트를 씌운 값
* 확률: 어떤 일이 일어날 가능성
* 가설검정: 어떤 주장이 통계적으로 맞는지 확인하는 방법
빅데이터분석기사 필기에서는 통계 개념이 중요하다.
특히 탐색, 모델링, 결과 해석 과목과 연결된다.
---
## 4-4. 알고리즘
알고리즘은 문제를 해결하는 절차다.
데이터 분석에서 알고리즘은 데이터를 학습해서 결과를 내는 방법이다.
예를 들어 다음은 알고리즘이다.
* 의사결정나무
* 랜덤포레스트
* KNN
* SVM
* 나이브 베이즈
* K-Means
* ARIMA
초보자는 알고리즘 이름을 먼저 외우기보다 어떤 문제에 쓰는지 먼저 알아야 한다.
분류 문제인지, 회귀 문제인지, 군집 문제인지 구분하는 것이 먼저다.
---
## 4-5. 모델
모델은 알고리즘이 데이터를 학습해서 만든 결과물이다.
알고리즘은 방법이다.
모델은 그 방법으로 학습한 결과다.
예를 들어 의사결정나무 알고리즘을 고객 데이터에 적용하면 고객 이탈 예측 모델이 만들어진다.
정리하면 다음과 같다.
* 알고리즘: 학습 방법
* 모델: 학습이 끝난 결과물
* 예측: 모델이 새 데이터에 대해 결과를 내는 것
---
## 4-6. 평가 지표
평가 지표는 모델이 얼마나 잘 맞는지 확인하는 기준이다.
분류와 회귀는 평가 지표가 다르다.
분류는 범주를 맞히는 문제다.
예를 들어 합격/불합격, 이탈/유지, 정상/비정상을 예측한다.
분류 평가 지표는 다음과 같다.
* 정확도
* 정밀도
* 재현율
* F1-score
* ROC-AUC
회귀는 숫자를 맞히는 문제다.
예를 들어 매출, 가격, 점수, 수요량을 예측한다.
회귀 평가 지표는 다음과 같다.
* MAE
* MSE
* RMSE
* R²
평가 지표는 문제 목적에 맞게 골라야 한다.
---
## 5. 실제 흐름
빅데이터분석기사 필기 공부는 시험 과목 순서대로만 하면 어렵다.
분석 흐름을 기준으로 연결해서 공부하는 것이 좋다.
전체 흐름은 다음과 같다.
## 5-1. 1단계: 시험 구조 파악
먼저 필기 과목, 문항 수, 합격 기준을 확인한다.
확인할 내용은 다음과 같다.1. 필기 과목은 4과목이다.
2. 과목당 20문항이다.
3. 총 80문항이다.
4. 시험 시간은 120분이다.
5. 평균 60점 이상이어야 한다.
6. 과목별 40점 미만이면 과락이다.
이 단계에서는 세부 내용을 외우지 않아도 된다. 시험이 어떤 구조인지 이해하는 것이 목적이다.
---
5-2. 2단계: 분석 흐름 이해
그다음 데이터 분석의 전체 흐름을 이해한다.
분석 흐름은 다음과 같다.
1. 문제 정의
2. 데이터 수집
3. 데이터 저장
4. 데이터 전처리
5. 데이터 탐색
6. 모델링
7. 평가
8. 해석
9. 시각화
10. 활용
이 흐름을 이해하면 과목별 위치가 보인다.
분석기획은 문제 정의와 계획 단계다.
빅데이터 탐색은 전처리와 데이터 확인 단계다.
빅데이터 모델링은 모델 생성 단계다.
결과 해석은 평가, 해석, 시각화 단계다.
---
5-3. 3단계: 용어 먼저 정리
처음부터 기출문제를 풀면 어렵다. 용어를 모르면 문제 문장 자체가 이해되지 않기 때문이다.
먼저 다음 용어를 정리해야 한다.
빅데이터
정형 데이터
비정형 데이터
전처리
결측값
이상값
EDA
변수
모델
알고리즘
분류
회귀
군집
평가 지표
과적합
과소적합
용어를 한 줄로 설명할 수 있으면 다음 단계로 넘어가도 된다.
---
5-4. 4단계: 과목별 기본 개념 학습
과목별로 넓게 한 번 공부한다.
처음부터 모든 내용을 완벽하게 외우려고 하면 안 된다. 먼저 전체 구조를 잡아야 한다.
추천 순서는 다음과 같다.
1. 빅데이터 분석기획
2. 빅데이터 탐색
3. 빅데이터 모델링
4. 빅데이터 결과 해석
이 순서가 좋은 이유는 실제 분석 흐름과 같기 때문이다.
---
5-5. 5단계: 통계와 모델링 집중 학습
초보자가 가장 어려워하는 부분은 통계와 모델링이다.
통계에서 자주 나오는 개념은 다음과 같다.
평균
분산
표준편차
확률
확률분포
가설검정
p-value
t검정
카이제곱 검정
회귀분석
모델링에서 자주 나오는 개념은 다음과 같다.
지도학습
비지도학습
분류
회귀
의사결정나무
랜덤포레스트
SVM
KNN
군집분석
연관분석
이 단계에서는 단순 암기보다 비교가 중요하다.
예를 들어 분류와 회귀를 구분해야 한다. 정밀도와 재현율도 구분해야 한다. 표준화와 정규화도 구분해야 한다.
---
5-6. 6단계: 기출문제 풀이
기본 개념을 한 번 본 뒤에는 기출문제를 풀어야 한다.
기출문제를 풀 때는 정답만 확인하면 안 된다.
다음 순서로 정리해야 한다.
1. 문제를 푼다.
2. 틀린 문제를 표시한다.
3. 어떤 과목 문제인지 확인한다.
4. 어떤 개념을 묻는지 찾는다.
5. 오답 이유를 적는다.
6. 관련 개념을 다시 공부한다.
7. 비슷한 문제를 다시 푼다.
기출문제는 시험 출제 방식에 익숙해지는 데 필요하다. 개념을 알고 있어도 문제 문장에 익숙하지 않으면 틀릴 수 있다.
---
5-7. 7단계: 과락 방지 점검
마지막에는 과락 위험 과목을 확인해야 한다.
평균 점수만 보면 안 된다. 각 과목이 40점 이상인지 확인해야 한다.
과목별로 최소 8문항 이상은 맞혀야 과락을 피할 수 있다. 과목당 20문항이므로 40점은 8문항에 해당한다.
하지만 실제 공부 목표는 과목당 12문항 이상으로 잡는 것이 안전하다. 과목당 12문항이면 60점 수준이다.
---
6. 예시
아래는 빅데이터분석기사 필기 공부 순서 예시다.
1주차: 시험 구조 확인 + 빅데이터 분석기획
2주차: 데이터 탐색 + 전처리
3주차: 통계 기초 + 가설검정
4주차: 모델링 기초 + 주요 알고리즘
5주차: 평가 지표 + 결과 해석
6주차: 기출문제 풀이 + 오답 정리하루 공부 흐름 예시는 다음과 같다.
1. 오늘 공부할 과목 정하기
2. 핵심 용어 10개 정리하기
3. 기본 개념 읽기
4. 예제 문제 풀기
5. 틀린 문제 개념 다시 보기
6. 한 줄 요약 작성하기과목별 목표 점수 예시는 다음과 같다.
빅데이터 분석기획: 65점 이상
빅데이터 탐색: 65점 이상
빅데이터 모델링: 60점 이상
빅데이터 결과 해석: 60점 이상이렇게 잡는 이유는 과락을 피하면서 평균 60점 이상을 안정적으로 넘기기 위해서다.
---
7. 코드 또는 설정 설명
이번 글의 주제는 시험 구조와 공부 순서다. 따라서 실제 코드는 필요하지 않다.
대신 공부 계획 예시를 하나씩 설명한다.
1주차: 시험 구조 확인 + 빅데이터 분석기획1주차에는 시험이 어떻게 구성되는지 확인한다. 그다음 분석기획을 공부한다. 분석기획은 문제 정의와 계획 수립을 다루기 때문에 가장 먼저 공부하기 좋다.
2주차: 데이터 탐색 + 전처리2주차에는 데이터를 확인하고 정리하는 방법을 공부한다. 결측값, 이상값, 변수 변환, EDA를 중심으로 본다.
3주차: 통계 기초 + 가설검정3주차에는 통계 개념을 공부한다. 평균, 분산, 표준편차, 확률분포, 가설검정을 정리한다.
4주차: 모델링 기초 + 주요 알고리즘4주차에는 모델링을 공부한다. 분류, 회귀, 군집, 연관분석을 구분한다. 의사결정나무, 랜덤포레스트, SVM, KNN 같은 알고리즘을 정리한다.
5주차: 평가 지표 + 결과 해석5주차에는 모델 평가를 공부한다. 분류 평가 지표와 회귀 평가 지표를 구분한다. 분석 결과를 어떻게 해석하고 시각화하는지도 정리한다.
6주차: 기출문제 풀이 + 오답 정리6주차에는 기출문제를 반복해서 푼다. 틀린 문제는 단순히 답만 외우지 않는다. 관련 개념을 다시 정리해야 한다.
---
8. 주의점
8-1. 과목별 과락을 조심해야 한다
빅데이터분석기사 필기는 평균만 넘으면 되는 시험이 아니다. 한 과목이라도 40점 미만이면 불합격이다.
따라서 약한 과목을 버리면 안 된다.
특히 초보자는 모델링과 통계에서 과락 위험이 생기기 쉽다. 모델링은 알고리즘 이름이 많고, 통계는 용어가 어렵기 때문이다.
---
8-2. 용어를 모르면 문제를 풀 수 없다
필기시험은 객관식이다. 하지만 용어를 모르면 보기 자체가 헷갈린다.
예를 들어 다음 용어는 반드시 구분해야 한다.
정형 데이터 vs 비정형 데이터
표준화 vs 정규화
분류 vs 회귀
과적합 vs 과소적합
정밀도 vs 재현율
지도학습 vs 비지도학습
상관관계 vs 인과관계
이런 개념은 따로 비교 정리해야 한다.
---
8-3. 알고리즘 이름만 외우면 안 된다
모델링 과목에서 알고리즘 이름만 외우면 문제를 풀기 어렵다.
다음 기준으로 정리해야 한다.
어떤 문제에 쓰는가?
지도학습인가 비지도학습인가?
분류에 쓰는가 회귀에 쓰는가?
장점은 무엇인가?
단점은 무엇인가?
어떤 평가 지표와 연결되는가?
예를 들어 K-Means는 군집분석이다. 정답 라벨이 없는 비지도학습이다. 고객을 비슷한 그룹으로 나눌 때 사용할 수 있다.
이렇게 역할까지 알아야 한다.
---
8-4. 통계 공식만 외우면 안 된다
통계는 공식보다 상황 이해가 중요하다.
예를 들어 평균과 중앙값은 모두 대표값이다. 하지만 이상값이 많으면 평균보다 중앙값이 더 적절할 수 있다.
p-value도 단순히 숫자만 외우면 안 된다. p-value는 관측된 결과가 우연히 나올 가능성을 판단할 때 사용하는 값이다. 일반적으로 p-value가 유의수준보다 작으면 귀무가설을 기각한다.
여기서 귀무가설은 “차이가 없다” 또는 “효과가 없다”는 기본 가설이다. 대립가설은 “차이가 있다” 또는 “효과가 있다”는 주장이다.
---
8-5. 기출문제만 먼저 풀면 오래 걸릴 수 있다
완전 초보라면 기출문제부터 풀면 막히는 부분이 많다.
기출문제는 중요하다. 하지만 최소한의 용어 정리 후에 푸는 것이 좋다.
추천 흐름은 다음과 같다.
1. 시험 구조 확인
2. 핵심 용어 정리
3. 과목별 기본 개념 학습
4. 기출문제 풀이
5. 오답 정리
6. 약한 과목 보완
---
8-6. 필기와 실기를 완전히 분리하면 안 된다
필기는 이론 중심이다. 실기는 분석 작업 중심이다.
하지만 두 시험은 연결되어 있다.
필기에서 배우는 전처리, 모델링, 평가 지표는 실기에서도 사용된다. 따라서 필기를 공부할 때도 실제 분석 흐름을 생각해야 한다.
예를 들어 결측값 처리는 필기에서는 개념 문제로 나오지만 실기에서는 직접 처리해야 할 수 있다. 모델 평가는 필기에서는 지표 해석 문제로 나오지만 실기에서는 모델 성능 판단에 필요하다.
---
9. 요약
빅데이터분석기사 필기는 빅데이터 분석 이론을 평가하는 시험이다.
필기 과목은 4과목이다.
1. 빅데이터 분석기획
2. 빅데이터 탐색
3. 빅데이터 모델링
4. 빅데이터 결과 해석
총 80문항이다. 시험 시간은 120분이다. 합격 기준은 과목당 40점 이상, 전 과목 평균 60점 이상이다.
공부는 분석 흐름대로 하는 것이 좋다.
추천 흐름은 다음과 같다.
1. 시험 구조 확인
2. 분석 전체 흐름 이해
3. 핵심 용어 정리
4. 분석기획 학습
5. 데이터 탐색 학습
6. 통계 기초 학습
7. 모델링 학습
8. 결과 해석 학습
9. 기출문제 풀이
10. 오답 정리
11. 과락 위험 과목 보완
초보자는 용어 정리를 먼저 해야 한다. 그다음 과목별 개념을 넓게 보고, 기출문제로 출제 방식을 익혀야 한다.
이 시험은 한 과목만 잘해서 합격하기 어렵다. 4과목을 균형 있게 공부해야 한다.
---
10. 핵심 용어 정리
빅데이터 = 일반적인 방식으로 처리하기 어려운 대용량·다양한 형태의 데이터
빅데이터분석기사 = 빅데이터 분석 기획, 탐색, 모델링, 결과 해석 능력을 평가하는 국가기술자격
필기시험 = 객관식 문제로 이론 지식을 평가하는 시험
실기시험 = 실제 데이터 분석 작업 능력을 평가하는 시험
분석기획 = 분석할 문제와 목표, 방법, 데이터를 미리 정하는 과정
데이터 탐색 = 데이터를 분석하기 전에 구조와 특징을 확인하는 과정
모델링 = 데이터를 이용해 예측이나 분류를 수행하는 모델을 만드는 과정
결과 해석 = 모델 성능과 분석 결과의 의미를 설명하는 과정
과락 = 특정 과목 점수가 기준보다 낮아 불합격되는 것
평균 점수 = 모든 과목 점수를 더한 뒤 과목 수로 나눈 값
3V = 빅데이터의 세 가지 특징인 양, 다양성, 속도
5V = 3V에 신뢰성과 가치를 추가한 개념
정형 데이터 = 표 형태로 정리된 데이터
반정형 데이터 = JSON, XML처럼 구조가 일부 있는 데이터
비정형 데이터 = 문서, 이미지, 영상처럼 정해진 표 구조가 없는 데이터
전처리 = 분석 전에 데이터를 정리하고 변환하는 작업
결측값 = 데이터가 비어 있는 값
이상값 = 일반적인 범위에서 벗어난 값
EDA = 탐색적 데이터 분석. 데이터를 본격 분석하기 전에 살펴보는 과정
변수 = 데이터에서 하나의 항목 또는 컬럼
독립변수 = 예측에 사용하는 변수
종속변수 = 예측하려는 결과 변수
목표변수 = 모델이 맞히려고 하는 변수
알고리즘 = 문제를 해결하는 절차 또는 학습 방법
모델 = 알고리즘이 데이터를 학습해서 만든 결과물
지도학습 = 정답이 있는 데이터로 학습하는 방법
비지도학습 = 정답 없이 데이터의 구조를 찾는 방법
분류 = 정해진 범주를 예측하는 분석
회귀 = 숫자 값을 예측하는 분석
군집 = 비슷한 데이터를 묶는 분석
연관분석 = 함께 발생하는 항목 관계를 찾는 분석
시계열 분석 = 시간 순서가 있는 데이터를 분석하는 방법
평가 지표 = 모델이 얼마나 잘 맞는지 판단하는 기준
정확도 = 전체 예측 중 맞힌 비율
정밀도 = 양성으로 예측한 것 중 실제 양성인 비율
재현율 = 실제 양성 중 모델이 맞힌 비율
F1-score = 정밀도와 재현율을 함께 고려한 지표
ROC-AUC = 분류 모델의 구분 성능을 평가하는 지표
MAE = 예측 오차의 절댓값 평균
MSE = 예측 오차를 제곱한 값의 평균
RMSE = MSE에 루트를 씌운 값
R² = 회귀모델이 데이터를 얼마나 설명하는지 나타내는 지표
과적합 = 모델이 학습 데이터에만 지나치게 맞는 상태
과소적합 = 모델이 데이터의 패턴을 충분히 학습하지 못한 상태
기출문제 = 이전 시험에 출제된 문제
오답 정리 = 틀린 문제의 원인과 관련 개념을 다시 정리하는 작업
AD
제휴 광고
일부 링크는 제휴 링크이며, 구매 또는 가입 시 일정 수수료를 받을 수 있습니다.
AD