[빅데이터] 데이터 수집, 데이터 탐색 (예측모형, 과적합, 불균형)

- 데이터 수집

1> 표본 추출

좋은 표본 : 모집단 특성을 정확하게 반영한 표본 (대표성이 있는 표본 확보가 중요)

- 전수 조사 : 대상의 모든 데이터 수집

- 표본 조사 : 대상의 일부 데이터 추출

- 무작위 추출 : 모집단에서 표본을 뽑을 때 각 선택할 확률은 동일 (편의 배제)

- 군집표본추출 : 각 cluster가 동일한 특성 추출

- 층화표본추출 : 각 집단 층이 특성이 다를 때, 그 집단 층별로 표본 선택

2> 예측모형

최근 검색하거나 관심사의 컨텐츠를 보여주기 위한 예측 방식입니다.

- 과거의 구매나 검색했던 패턴을 분석하여 추천(예측)

- 새로운 데이터가 유입되어도 정확하게 예측되어야 한다.

- 훈련데이터 (Training Set) : 전체 데이터에서 일부 데이터를 통해 예측모형 생성

- 검증데이터 (Test Set) : 훈련데이터에서 생성한 예측모형과 정확도 성능 비교 대상

3> 과적합 : 데이터에 너무 적합해서, 새로운 데이터가 유입되었을 때 정확도를 보장할 수 없는 케이스

- 훈련데이터와 검증데이터 오차 간 차이가 최소이면서, 오차비율이 늘어나지 않는 구간이 최적화된 최종 예측 모형

4> 데이터 균형 / 데이터 불균형

데이터 수의 따라 다수범주, 소수범주로 구분 가능

범주에 따라 데이터 양이 달라서 불균형한 상태에서 샘플링 경우도 있다.

- 오버 샘플링 : 소수범주에서 다수범주 수만큼 추출 = 무작위로 소수범주의 데이터 반복 추출

-> 정보 손실 없으나 과적합 가능성

- 언더 샘플링 : 다수범주에서 소수범주 수만큼 추출 = 무작위로 다수 범주의 데이터를 제거

-> 저장 용량이 감소되고, 실행속도가 개선되지만 정보 누락 가능

- 데이터 불균형에서는 하이브리드 샘플링을 통해 분석모델을 구현하여 문제 해결

5> 데이터 탐색

데이터 탐색으로 특징을 이해하고 알맞게 조정하면서 더 분석하기 쉽고 정확한 예측모형을 만들어야 합니다.

- R, Python 사용

- 기술 통계치 : 평균, 분산, 최대값, 최소값, 중간값

- 시계열 변동성 : 시간 별 기온 변화. 시간별 매출 변화 등 변동성을 분석

- 이상치 : 모든 데이터가 정상적인, 이상적인 범위 안에 존재 여부 (예외적인 부분은 분석모델에서 제외)

- 다변량공간 : 여러가지 변량이 있으면 특정 이상치로 변경하여 범위를 좁혀서 이상치를 측정

- 상관계수 : 0 ~ 1 사이의 값으로 1이면 관계가 크고, 0이면 관계가 작다.

6> 차원축소기법

데이터 분석을 위해 3차원을 2차원으로, 2차원을 1차원으로 축소하여 분석하는 방법

변수들 간 높은 상관관계, 상호작용으로 과적합 위험이 증가하고,

타켓값 정보가 어떤 구조인지 파악이 어려울 수 있습니다.

1. 주성분분석 : 데이터에서 분산이 최대인 축 확인

2. 처음의 축과 직각이면서 분산이 최대인 두 번째 축 확인

현업 데이터 분석을 해보면 여러가지 요인, 변수들이 많아 차원 축소하여 분석이 더 용이하다.

기존 원본 데이터의 정보를 보존하면서 다른 불필요한 요소를 제거할 수 있다.

- 변수선택기법 : 특정 변수 선택 모델링, 변수의 수 = 차원의 수

- 특징추출기법 : 새로운 축 생성하여 해당 모델 설명 (불필요한 정보 제거 방식)

7> 통계적 모델링

- 탐색적 데이터 분석 : 히스토그램, 산점도 등 그래프, 구매주기, 기술 통계량 등 데이터 위주 분석

- 통계적 분석 : 분산분석, 카이제곱분석 (상관관계), 상관분석 등

- 데이터 분석 목적 : 예측(Prediction), 분류(Classfication)

728x90

저작자표시 비영리 변경금지

'IT ▶ > Database' 카테고리의 다른 글

데이터베이스 VIEW 개념과 VIEW 사용방법 알아보자. – by.SC (0)	2019.11.02
데이터베이스 TRIGGER 개념, TRIGGER 사용방법 알아보자. – by.SC (0)	2019.11.02
[빅데이터] 통계 확률 기초 개념 (조건부 확률, 정규분포) (0)	2019.10.26
[빅데이터 분석] 데이터 시각화 개념과 종류 (Data Visualization) (0)	2019.10.09
[DA 전문가 자격] 데이터아키텍처 전문가 DAP 자격증 준비 (0)	2019.10.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

새로운 경험을 나눔하기

[빅데이터] 데이터 수집, 데이터 탐색 (예측모형, 과적합, 불균형)

'IT ▶ > Database' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역