본문 바로가기
IT ▶/Database

[빅데이터] 데이터 수집, 데이터 탐색 (예측모형, 과적합, 불균형)

by Jordan_ 2019. 10. 28.
728x90
반응형

 

 

- 데이터 수집

 

 

1> 표본 추출

 

 

좋은 표본 : 모집단 특성을 정확하게 반영한 표본 (대표성이 있는 표본 확보가 중요)

 

 

- 전수 조사 : 대상의 모든 데이터 수집

 

- 표본 조사 : 대상의 일부 데이터 추출

 

- 무작위 추출 : 모집단에서 표본을 뽑을 때 각 선택할 확률은 동일 (편의 배제)

 

- 군집표본추출 : 각 cluster가 동일한 특성 추출

 

- 층화표본추출 : 각 집단 층이 특성이 다를 때, 그 집단 층별로 표본 선택

 

 

 

2> 예측모형

 

 

최근 검색하거나 관심사의 컨텐츠를 보여주기 위한 예측 방식입니다.

 

 

- 과거의 구매나 검색했던 패턴을 분석하여 추천(예측)

 

- 새로운 데이터가 유입되어도 정확하게 예측되어야 한다.

 

- 훈련데이터 (Training Set) : 전체 데이터에서 일부 데이터를 통해 예측모형 생성

 

- 검증데이터 (Test Set) : 훈련데이터에서 생성한 예측모형과 정확도 성능 비교 대상

 

 

 

3> 과적합 : 데이터에 너무 적합해서, 새로운 데이터가 유입되었을 때 정확도를 보장할 수 없는 케이스

 

 

- 훈련데이터와 검증데이터 오차 간 차이가 최소이면서, 오차비율이 늘어나지 않는 구간이 최적화된 최종 예측 모형

 

 

 

4> 데이터 균형 / 데이터 불균형

 

 

데이터 수의 따라 다수범주, 소수범주로 구분 가능

 

범주에 따라 데이터 양이 달라서 불균형한 상태에서 샘플링 경우도 있다.

 

 

- 오버 샘플링 : 소수범주에서 다수범주 수만큼 추출 = 무작위로 소수범주의 데이터 반복 추출

 

-> 정보 손실 없으나 과적합 가능성

 

- 언더 샘플링 : 다수범주에서 소수범주 수만큼 추출 = 무작위로 다수 범주의 데이터를 제거

 

-> 저장 용량이 감소되고, 실행속도가 개선되지만 정보 누락 가능

 

- 데이터 불균형에서는 하이브리드 샘플링을 통해 분석모델을 구현하여 문제 해결

 

 

 

5> 데이터 탐색

 

데이터 탐색으로 특징을 이해하고 알맞게 조정하면서 더 분석하기 쉽고 정확한 예측모형을 만들어야 합니다.

 

 

- R, Python 사용

 

- 기술 통계치 : 평균, 분산, 최대값, 최소값, 중간값

 

- 시계열 변동성 : 시간 별 기온 변화. 시간별 매출 변화 등 변동성을 분석

 

- 이상치 : 모든 데이터가 정상적인, 이상적인 범위 안에 존재 여부 (예외적인 부분은 분석모델에서 제외)

 

- 다변량공간 : 여러가지 변량이 있으면 특정 이상치로 변경하여 범위를 좁혀서 이상치를 측정

 

- 상관계수 : 0 ~ 1 사이의 값으로 1이면 관계가 크고, 0이면 관계가 작다.

 

 

 

6> 차원축소기법

 

 

데이터 분석을 위해 3차원을 2차원으로, 2차원을 1차원으로 축소하여 분석하는 방법

 

변수들 간 높은 상관관계, 상호작용으로 과적합 위험이 증가하고,

 

타켓값 정보가 어떤 구조인지 파악이 어려울 수 있습니다.

 

 1. 주성분분석 : 데이터에서 분산이 최대인 축 확인

 

 2. 처음의 축과 직각이면서 분산이 최대인 두 번째 축 확인

 

현업 데이터 분석을 해보면 여러가지 요인, 변수들이 많아 차원 축소하여 분석이 더 용이하다.

 

기존 원본 데이터의 정보를 보존하면서 다른 불필요한 요소를 제거할 수 있다.

 

- 변수선택기법 : 특정 변수 선택 모델링, 변수의 수 = 차원의 수

 

- 특징추출기법 : 새로운 축 생성하여 해당 모델 설명 (불필요한 정보 제거 방식)

 

 

 

7> 통계적 모델링

 

 

- 탐색적 데이터 분석 : 히스토그램, 산점도 등 그래프, 구매주기, 기술 통계량 등 데이터 위주 분석

 

- 통계적 분석 : 분산분석, 카이제곱분석 (상관관계), 상관분석 등 

 

- 데이터 분석 목적 : 예측(Prediction), 분류(Classfication)

 

 

728x90
반응형