본문 바로가기
IT ▶/Data

[Data Science] 데이터 과학 & 데이터 분석 개념

by 오프로 2019. 9. 27.

 

 

[ 데이터 과학 ]

 

 

데이터를 분석해서 무엇인가를 발견하여 인사이트를 창출하는 것

 

 

 

 

데이터 (Data) - 데이터 분석 (Data Analytics) - 인사이트(Insight) 창출

 

 

-> 통계학 관련 개념과 지식, 데이터 기술, 데이터 시각화, 데이터 보안, 데이터 분석능력 필요

 

 

-> 수많은 분야의 데이터를 분석하기 위해서는 해당 분야 이해가 필요합니다.

 

 

 

1. 통계학 (수량화, 객관화)

 

 

데이터를 분석하고, 요약하고, 원하는 방향의 결과를 도출하는 것을 돕는 역할을 합니다.

 

 

과거 데이터를 통해서 미래 데이터를 예측할 수 있습니다.

 

 

2. 빅데이터 (Big Data)

 

 

Volume(많은 양) , Velocity(빠른 속도), Variety (다양한 형태) 의 데이터로

 

 

최근에는 시각화와 정확성, 가변성(Variability) 특성도 추가되는 추세라고 합니다.

 

 

 

 

[ 데이터 분석과 수집 ]

 

 

 

1. 데이터 분석

 

 

데이터 분포도에 따른 평균, 중앙값, 최빈값

 

 

- 중앙값 (median) : 크기순으로 배열하여 중앙의 위치한 값

 

 

- 최빈값 (mode) : 전체 데이터 중 가장 빈도가 높은 값 (데이터가 많아지면 평균과 유사)

 

 

- 정확도 (precise / imprecise)

 

 

표본 추출값들이 얼마나 정확하게 비슷한 값들로 모여서 추출되면 precise / 아니면 impreicse

 

 

- 편의 (biased / unbiased)

 

 

통계치의 기대값이 모수의 값과 유사하면 unbiased (비편의), 모수의 값과 다르면 biased (편의)

 

 

 

-> 적합한 표본 추출 : 정확도가 높으면서, 편의가 없는 Case

 

 

 

- 분산 (=산포정도) 

 

분산 공식

 

 

분산은 데이터가 퍼져있는 정도를 의미하며, 편차들 제곱의 합을 (n-1) 로 나눈다.

 

 

평균에 모여 있을 수록 분산이 작고, 평균값에 가깝지 않고 넓게 퍼져있으면 분산이 크다.

 

 

빨간색은 분산이 작고, 파란색은 분산이 크다

 

 

 

2. 데이터 정직성

 

 

데이터는 신뢰할 수 있도록 수집하고, 공통된 환경에서 정확하게 분석이 될 수 있도록 해야합니다.

 

 

뉴스 기사 경우, '경기도 자영업자 月 평균 1200만원 소득' 같은 경우 잘못된 내용을 제공할 수 있습니다.

 

 

어느 지역인지, 얼마나 많은 표본으로 하였는지 등 명확한 기준 수립이 중요합니다. 

 

 

 

-> 올바른 분석도 중요하지만 올바른 데이터 수집이 필요합니다.

 

 

 

728x90
300x250