- 데이터 수집
1> 표본 추출
좋은 표본 : 모집단 특성을 정확하게 반영한 표본 (대표성이 있는 표본 확보가 중요)
- 전수 조사 : 대상의 모든 데이터 수집
- 표본 조사 : 대상의 일부 데이터 추출
- 무작위 추출 : 모집단에서 표본을 뽑을 때 각 선택할 확률은 동일 (편의 배제)
- 군집표본추출 : 각 cluster가 동일한 특성 추출
- 층화표본추출 : 각 집단 층이 특성이 다를 때, 그 집단 층별로 표본 선택
2> 예측모형
최근 검색하거나 관심사의 컨텐츠를 보여주기 위한 예측 방식입니다.
- 과거의 구매나 검색했던 패턴을 분석하여 추천(예측)
- 새로운 데이터가 유입되어도 정확하게 예측되어야 한다.
- 훈련데이터 (Training Set) : 전체 데이터에서 일부 데이터를 통해 예측모형 생성
- 검증데이터 (Test Set) : 훈련데이터에서 생성한 예측모형과 정확도 성능 비교 대상
3> 과적합 : 데이터에 너무 적합해서, 새로운 데이터가 유입되었을 때 정확도를 보장할 수 없는 케이스
- 훈련데이터와 검증데이터 오차 간 차이가 최소이면서, 오차비율이 늘어나지 않는 구간이 최적화된 최종 예측 모형
4> 데이터 균형 / 데이터 불균형
데이터 수의 따라 다수범주, 소수범주로 구분 가능
범주에 따라 데이터 양이 달라서 불균형한 상태에서 샘플링 경우도 있다.
- 오버 샘플링 : 소수범주에서 다수범주 수만큼 추출 = 무작위로 소수범주의 데이터 반복 추출
-> 정보 손실 없으나 과적합 가능성
- 언더 샘플링 : 다수범주에서 소수범주 수만큼 추출 = 무작위로 다수 범주의 데이터를 제거
-> 저장 용량이 감소되고, 실행속도가 개선되지만 정보 누락 가능
- 데이터 불균형에서는 하이브리드 샘플링을 통해 분석모델을 구현하여 문제 해결
5> 데이터 탐색
데이터 탐색으로 특징을 이해하고 알맞게 조정하면서 더 분석하기 쉽고 정확한 예측모형을 만들어야 합니다.
- R, Python 사용
- 기술 통계치 : 평균, 분산, 최대값, 최소값, 중간값
- 시계열 변동성 : 시간 별 기온 변화. 시간별 매출 변화 등 변동성을 분석
- 이상치 : 모든 데이터가 정상적인, 이상적인 범위 안에 존재 여부 (예외적인 부분은 분석모델에서 제외)
- 다변량공간 : 여러가지 변량이 있으면 특정 이상치로 변경하여 범위를 좁혀서 이상치를 측정
- 상관계수 : 0 ~ 1 사이의 값으로 1이면 관계가 크고, 0이면 관계가 작다.
6> 차원축소기법
데이터 분석을 위해 3차원을 2차원으로, 2차원을 1차원으로 축소하여 분석하는 방법
변수들 간 높은 상관관계, 상호작용으로 과적합 위험이 증가하고,
타켓값 정보가 어떤 구조인지 파악이 어려울 수 있습니다.
1. 주성분분석 : 데이터에서 분산이 최대인 축 확인
2. 처음의 축과 직각이면서 분산이 최대인 두 번째 축 확인
현업 데이터 분석을 해보면 여러가지 요인, 변수들이 많아 차원 축소하여 분석이 더 용이하다.
기존 원본 데이터의 정보를 보존하면서 다른 불필요한 요소를 제거할 수 있다.
- 변수선택기법 : 특정 변수 선택 모델링, 변수의 수 = 차원의 수
- 특징추출기법 : 새로운 축 생성하여 해당 모델 설명 (불필요한 정보 제거 방식)
7> 통계적 모델링
- 탐색적 데이터 분석 : 히스토그램, 산점도 등 그래프, 구매주기, 기술 통계량 등 데이터 위주 분석
- 통계적 분석 : 분산분석, 카이제곱분석 (상관관계), 상관분석 등
- 데이터 분석 목적 : 예측(Prediction), 분류(Classfication)
'IT ▶ > Database' 카테고리의 다른 글
데이터베이스 VIEW 개념과 VIEW 사용방법 알아보자. – by.SC (0) | 2019.11.02 |
---|---|
데이터베이스 TRIGGER 개념, TRIGGER 사용방법 알아보자. – by.SC (0) | 2019.11.02 |
[빅데이터] 통계 확률 기초 개념 (조건부 확률, 정규분포) (0) | 2019.10.26 |
[빅데이터 분석] 데이터 시각화 개념과 종류 (Data Visualization) (0) | 2019.10.09 |
[DA 전문가 자격] 데이터아키텍처 전문가 DAP 자격증 준비 (0) | 2019.10.04 |