[ 데이터 과학 ]
데이터를 분석해서 무엇인가를 발견하여 인사이트를 창출하는 것
데이터 (Data) - 데이터 분석 (Data Analytics) - 인사이트(Insight) 창출
-> 통계학 관련 개념과 지식, 데이터 기술, 데이터 시각화, 데이터 보안, 데이터 분석능력 필요
-> 수많은 분야의 데이터를 분석하기 위해서는 해당 분야 이해가 필요합니다.
1. 통계학 (수량화, 객관화)
데이터를 분석하고, 요약하고, 원하는 방향의 결과를 도출하는 것을 돕는 역할을 합니다.
과거 데이터를 통해서 미래 데이터를 예측할 수 있습니다.
2. 빅데이터 (Big Data)
Volume(많은 양) , Velocity(빠른 속도), Variety (다양한 형태) 의 데이터로
최근에는 시각화와 정확성, 가변성(Variability) 특성도 추가되는 추세라고 합니다.
[ 데이터 분석과 수집 ]
1. 데이터 분석
- 중앙값 (median) : 크기순으로 배열하여 중앙의 위치한 값
- 최빈값 (mode) : 전체 데이터 중 가장 빈도가 높은 값 (데이터가 많아지면 평균과 유사)
- 정확도 (precise / imprecise)
표본 추출값들이 얼마나 정확하게 비슷한 값들로 모여서 추출되면 precise / 아니면 impreicse
- 편의 (biased / unbiased)
통계치의 기대값이 모수의 값과 유사하면 unbiased (비편의), 모수의 값과 다르면 biased (편의)
-> 적합한 표본 추출 : 정확도가 높으면서, 편의가 없는 Case
- 분산 (=산포정도)
분산은 데이터가 퍼져있는 정도를 의미하며, 편차들 제곱의 합을 (n-1) 로 나눈다.
평균에 모여 있을 수록 분산이 작고, 평균값에 가깝지 않고 넓게 퍼져있으면 분산이 크다.
2. 데이터 정직성
데이터는 신뢰할 수 있도록 수집하고, 공통된 환경에서 정확하게 분석이 될 수 있도록 해야합니다.
뉴스 기사 경우, '경기도 자영업자 月 평균 1200만원 소득' 같은 경우 잘못된 내용을 제공할 수 있습니다.
어느 지역인지, 얼마나 많은 표본으로 하였는지 등 명확한 기준 수립이 중요합니다.
-> 올바른 분석도 중요하지만 올바른 데이터 수집이 필요합니다.
'IT ▶ > Database' 카테고리의 다른 글
[DA 전문가 자격] 데이터아키텍처 전문가 DAP 자격증 준비 (0) | 2019.10.04 |
---|---|
[데이터베이스 SQL 기본쿼리] MERGE() 쿼리 사용방법 (0) | 2019.09.30 |
[데이터베이스 SQL 기본쿼리] COUNT, SUM, AVG, MAX, MIN 함수 쿼리 사용방법 (0) | 2019.09.22 |
데이터베이스 SQL 기본 쿼리 정리 (DML) (0) | 2019.08.28 |
알고리즘 개념 및 용어정리 (시간복잡도, 공간복잡도, 재귀함수) (0) | 2019.07.22 |