본문 바로가기
IT ▶/Database

[Data Science] 데이터 사이언스 개념 정리 (데이터 시각화 종류)

by Jordan_ 2019. 6. 8.
반응형

 

 

# 데이터 사이언스 (Data Science 데이터 과학)

 

- 다양한 형태의 데이터에서 필요한 지식과 인사이트를 추출하기 위해 과학적 방법론, 프로세스, 알고리즘, 시스템, 소프트웨어를 통해 다루는 분야라고 합니다.

 

- 프로그래밍 + 해당 분야의 전문성 + 수학과 통계

 

# 데이터 사이언스 관련 주요 프로그래밍 (Programming)

 

- R 프로그래밍 : 통계와 시각화에 주로 용이한 툴입니다.

- 파이썬 : 데이터 관련 개발 가능, 웹이나 다른 분야도 컨트롤 가능합니다.

 

# 데이터 사이언스 단계 (Process)

 

1> 문제 정의 : 연구하거나 분석할 문제를 정의하고, 필요한 데이터를 정한다.

2> 데이터 수집 : 여러 곳에서 필요한 자료를 수집한다.

3> 데이터 정리 : 수집한 데이터에서 오류나 필요없는 데이터를 정리한다.

4> 데이터 분석 : 정리한 데이터를 통해 원하는 형태로 바꾸면서 필요한 의미와 결과를 도출한다. 

5> 데이터 공유 : 결과를 시각화하여 커뮤니케이션을 통해 공유한다.

 

 

# 데이터 시각화

 

- 선그래프 : 흐름 변화 확인용도로 주로 X축 (시간), Y축 (데이터값)

 

- 막대그래프 : 카테고리(항목) 별로 수치 비교에 좋습니다.

 

 

- 파이그래프 : 원형으로 비율을 표시

 

 

- 히스토그램 : 막대그래프와 비슷하나 구간을 지정하여 그래프화

 

 

- 박스플롯 : 박스 형태로 그래프화하여 최소, 최대 구간을 표시하여 박스크기와 위치에 따라 데이터를 분석가능

 

 

- 산점도 : 점을 그래프에 표시한 형태로 분포도를 파악할 수 있습니다.

 

 

이후 데이터 사이언스 내용 지속적으로 추가할 예정입니다.

감사합니다.

728x90
반응형