본문 바로가기
코딩

부스트코스 - Hello, 데이터 사이언스!

by 윤따란 2023. 4. 12.
반응형

 

 

다 함께 배우고 성장하는 부스트코스

부스트코스(boostcourse)는 모두 함께 배우고 성장하는 비영리 SW 온라인 플랫폼입니다.

www.boostcourse.org

부스트캠프 "Hello, 데이터 사이언스!  - 데이터홀릭" 기반으로 작성.


1. 데이터 사이언스란 ?

 

"데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데  과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다. "

- by Wikipedia

 

 

2. 데이터 분석에 어떤 역량이 필요한가 ?

 

벤 다이어그램의 정의가 데이터 사이언스를 가장 적절하게 표현하였다고 볼 수 있다. 

 

 

비즈니스 컨설팅 영역 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등

분석적 영역 : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등 

데이터 처리 관련 IT 영역 : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 워어하우스, 고성능 컴퓨팅

 

* 현업지식(마케팅, 의학), 분석 기법(통계학, 머신러닝), 분석 도구(R, Python)

 

 

 

 

3. 데이터 사이언스는 어떤 준비를 해야 하는가 ?

데이터 분석적 사고방식

- 비판적 사고 

정보를 비판적으로 받아들이는 사고 방식을 연습해야 한다. 자신의 주장을 데이터로 뒷받침하기 위해서도 필요한 훈련. 

- 숫자 기반의 사고 

직관에 의해 판단하기 보다는 숫자를 확인하는 사고 방식을 연습하지만 훈련된 직관은 새로운 통찰력을 제공하므로 균형이 필요.

* 데이터 수집 및 사용 할 때 개인 정보 이슈, 크롤링 등 법적이슈 주의 필요. 

 

코딩툴: 전쟁에 나가라면 칼이 있어야 한다. 

1. sql - 많은 곳에서 기본으로 사용하는 도구

2. 새로 코딩을 시작하면 무조건 python - 문외한으로 배우기 상대적으로 쉽고 자료가 방대

3. 데이터를 다루는 전문가 R - 학계 생태계의 든든한 서포트를 받을 수 있는 R

 

협업 : 코딩은 혼자만의 싸움이 아니다. 

1. 주피터 노트북 - 분석 결과물 공유 도구 (구글 Colab, hue 등도 많이 사용)

2. git - 코드 버전 관리하는 협업툴 (팀원이 같이 사용하고 누가 몇시에 어떤부분 수정하였는지 확인 가능)

 

 

4. 데이터 분석 프로세스 

1. 기획 

- 문제 정의: 어떤 문제를 해결할 것인가?

- 분석 방법론 정의 1) 기술 통계 분석 2) 가설 검증 3) 예측 모델 개발 

2. 데이터 수집 

- 담당 부서로부터 데이터 입수

- 데이터 탐색, 오류 검토 

3. 분석 

- 데이터 탐색 및 전처리

기술 통계 분석 - 집단 간 비교, 시계열 비교 

- 가설 검정 - 가설 지지 확인 

- 예측 모형 개발, 고도화 

4. 보고 

- 표, 그래프 제작 

- 보고서 작성 - 문서화, 대시보드 개발

 

 


* 참고자료 *

노션 홈페이지 | https://bit.ly/dataholic4

 

데이터홀릭

모두가 궁금해하는 데이터의 모든 것을 알려드립니다. 안녕하세요. 데이터홀릭입니다.

www.notion.so

유튜브 | https://www.youtube.com/dataholic4

 

데이터홀릭

모두가 궁금해하는 데이터 과학의 모든 것을 알려드립니다. 데이터에 미쳐있는 사람들과 함께하는 데이터 이야기, 데이터홀릭! 지금 시작합니다. 데이터홀릭 후원계좌 : 카카오뱅크 7979-20-70920 (

www.youtube.com

 

반응형

댓글