728x90
728x90
SMALL
💡 요약
- 데이터란?
- Digitization
- 빅데이터
- 클라우드란?
- 특징 · 장점
- AWS (Amazon Web Services)
- 데이터 팀
- Data Informed Decisions VS Data Driven Decisions
- 역할
- 데이터 팀의 발전 단계
- 데이터 인프라 구축
- 데이터 엔지니어
- 데이터 레이크 vs 데이터 웨어하우스
- 데이터 분석
- 데이터 분석가
- ETL vs ELT
- KPI (Key Performance Indicator)
- 시각화 대시보드
- 데이터 과학
- 데이터 과학자
- 머신러닝 모델링 사이클
- A/B 테스트
- 데이터 인프라 구축
- 데이터 조직 구성원
- 데이터 문해력 (Data Literacy)
- 데이터 교훈
💭 느낀 점
오늘부터 프로그래머스 데이터 분석 데브코스가 시작됐다!
데이터 분석 업무를 처음부터 끝까지 체계적으로 배울 프로그램이 필요했는데 아무데서나 배우기는 싫었다.
알아보던 중 프로그래머스의 커리큘럼이 가장 실무와 가까우면서 깔끔해 보였고, 무엇보다 실제 채용공고에 나와있는 역량들이 커리큘럼에 들어가 있어서 가장 맘에 들었다. 너무 간절했는데, 서류와 테스트를 거쳐 정말 운 좋게 합격한 데브코스,,💛
데이터 분석에 대한 원론적인 내용들로 구성된 첫 날의 수업을 듣고 느낀 점은 '너무 느리다' 이다!
데이터리안 SQL 강의를 먼저 들으면서도 느낀 점인데, TIL을 정리하는 데 너무 오래 걸린다.
정작 강의 듣고 훈련하는 시간보다 TIL 정리하는 시간이 더 오래걸림.. 😢
평소 공부할 때 하나하나 다 보고 정리하고 넘어가느라 느린 편인데, 이 속도로 많은 양을 다 소화하려니 벌써부터 벅차다.
오늘도 더 공부할 것들이 많았는데.. 이 상태로는 안 되겠다는 생각이 들었다!
내일부터는 요점만 빠르게 기록하는 연습을 해야겠다. TIL은 무조건 2시간 안으로 끝내기!
🌳 데이터란?
데이터
- 일상생활에서 관찰할 수 있는 모든 것
- 데이터를 바탕으로 의미 있는 정보 도출 가능
- 데이터를 바탕으로 의미 있는 정보 도출 가능
Digitization
- 데이터를 기록하고 수집하는 것
- 기술 발전(클라우드, 빅데이터, 인공지능 등)으로 오프라인 → 온라인화
빅데이터
- 데이터의 크기 변화
- 웹, 휴대폰 사용 보편화 → 데이터 크기 폭발적으로 증가
- 클라우드, 빅데이터 기술 성장 → 큰 데이터 처리 기술 발전
- WEB
- 검색엔진 : 진정한 대용량 데이터 처리 (ex) 구글
- 검색어, 클릭 정보 자체도 대용량 → 마이닝하여 개인화, 별도 서비스 개발 가능
ex) 검색어를 바탕으로 트렌드 파악, 통계 기반 번역 등 - 웹 자체가 언어 모델(NLP)을 만드는 훈련 모델
- 데이터에서 중요한 것 : 품질 > 크기
- 모바일 위치정보, 스마트TV, IoT센서 등
🌳 클라우드란?
클라우드 (클라우드 컴퓨팅)
- 컴퓨팅 자원(하드/소프트웨어)을 네트워크를 통해 서비스 형태로 사용하는 것
특징
- No Provisioning
- 준비과정 없이 클라우드 업체가 셋업해놓은 하드/소프트웨어를 빌려 씀 → 시간 단축
- Pay As You Go
- 구매, 설치 초기비용 없이 사용한 만큼만 비용 지불 → 비용 절감
- 자원(서버)을 탄력적으로 필요한 만큼 유지하는 것이 중요
장점
- 초기 투자 비용 절감
- CAPEX(Capital Expenditure) 가 아닌 OPEX(Operating Expense)
- Capex : 자본적 지출. 미래의 이윤 창출, 가치의 취득을 위해 지출된 투자 과정에서의 비용
- Opex : '업무지출' 또는 '운영비용'. 갖춰진 설비를 운영하는데 드는 제반 비용
- CAPEX(Capital Expenditure) 가 아닌 OPEX(Operating Expense)
- 리소스 준비 시간 감소
- 노는 리소스 제거 → 비용 감소
- 글로벌 확장 용이
- 소프트웨어 개발 시간 단축
AWS (Amazon Web Services)
- 가장 큰 클라우드 컴퓨팅 서비스 업체
- 아마존이 놀고 있는 서버를 돈을 받고 빌려주면서 시작됨
- 한국 : 네이버 클라우드
- 서버 호스팅, 대용량 클라우드 스토리지, 데이터베이스, AI, ML 관련 다양한 서비스 제공
🌳 데이터 팀
미션
- 신뢰할 수 있는 데이터를 바탕으로 부가 가치 생성
Data Informed Decisions VS Data Driven Decisions
- Data Informed Decisions(데이터를 고려한 결정)
- 뚜렷한 가설 및 방향으로 가는 데에 데이터를 참고 (더 선호해야 함)
- 아직 많이 해보지 않은 일, 탐험의 단계일 때
- Data Driven Decisions(데이터 기반 결정)
- 내 생각보다 데이터가 말하는 대로 결정한다는 의미가 강함
- 과거 기록이 있고, 더 잘하기 위해서 최적화 할 때
역할
- Decision Science
- 데이터 분석가(Data Analyst)가 수행
- 의사 결정권자가 과학적으로 결정할 수 있도록 도움
- Product Science
- 데이터 과학자(Data Scientist)가 수행
- 제품 사용자의 서비스 경험 개선, 프로세스 최적화
🌳 데이터 팀의 발전 단계 - 데이터 인프라 구축
데이터 엔지니어
- 데이터 파이프라인 구축
- ETL(Extract, Transform, Load) 수행
- 내 · 외부 데이터 추출 → 변환 → 데이터 웨어하우스에 저장
- 다루는 데이터의 크기가 커지면 빅데이터 처리 기술(Spark) 필요
데이터 웨어하우스
- 필요한 모든 데이터를 모아놓은 중앙 데이터베이스 (SQL 기반의 관계형 데이터베이스)
- 클라우드 기반(일반적) : AWS Redshift, 구글 클라우드 BigQuery, Snowflake 등
- 오픈소스 기반 : Hive, Presto
- 데이터 분석을 위한 별도의 데이터베이스여야 함 (프로덕션 데이터베이스와 별개)
- 프로덕션 데이터베이스 : 서비스 운영에 필요한 최소한의 정보 저장 (ex) 서비스 사용자 · 회원 · 상품 정보, 구매기록 등
데이터 레이크 vs 데이터 웨어하우스
데이터 레이크(Data Lake) | 데이터 웨어하우스(Data Warehouse) |
- 대용량의 비구조화 데이터 저장 (ex) 이벤트 로그 - 보존 기한 없는 모든 데이터를 원래 형태로 보존 - 더 큰 데이터를 낮은 가격으로 보관 가능 |
- 보존 기한 있는 구조화된 데이터를 저장 · 처리 - 비용이 더 비쌈 |
- 병행해서 사용하는 것이 좋음
- 용도가 불분명한 비구조화 데이터를 데이터 레이크에 저장
→ 크기 줄이거나 의미있게 만들어서 데이터 웨어하우스에 저장
- 용도가 불분명한 비구조화 데이터를 데이터 레이크에 저장
🌳 데이터 팀의 발전 단계 - 데이터 분석
데이터 분석가
- 의사 결정권자가 데이터 기반 의사결정을 할 수 있도록 함
- 지표 정의, 시각화, 리포트 작성
- ELT 수행
- ETL된 데이터를 조합하여 새로운 정보 생성
- DBT 툴 사용
ETL vs ELT
ETL | ELT |
- 데이터 엔지니어가 수행 - 데이터 시스템 바깥에 있는 데이터들을 처리하여 데이터 시스템(데이터 레이크 · 웨어하우스) 안으로 가져옴 |
- 데이터 분석가가 수행 - 이미 데이터 시스템(데이터 레이크 · 웨어하우스) 안에 들어온 데이터들을 조합하여 새로운 데이터 생성 |
KPI (Key Performance Indicator)
- 조직 내에서 달성하고자 하는 중요한 목표
- 일반적으로 정량적인 숫자 선호
- 명확한 정의가 필요
- (ex) 매출액이 리턴된 매출액 포함 여부, 서로 상충하는 KPI의 우선순위 등
- OKR(Objectives and Key Results)
- 목표 설정 프레임워크
- 지표처럼 수치화 할 수 있는 정보를 바탕으로 목표 및 성공/실패율을 정의
시각화 대시보드
- 중요한 지표를 시간의 흐름과 함께 보여줌
- 3A (Accessible, Actionable, Auditable)
- Accessible : 쉽게 볼 수 있어야 함
- Actionable : 지표를 봤을 때 상황 판단이 가능해야 함 (어떤 액션을 해야 하는지 방향성)
- Auditable : 지표가 제대로 계산이 되었는지 감사할 수 있어야 함
🌳 데이터 팀의 발전 단계 - 데이터 과학
데이터 과학자
- 머신러닝 모델 이용 → 사용자의 과거 패턴을 바탕으로 미래 예측
- 사용자의 제품 사용 경험 개선 (추천, 검색 등의 개인화)
머신러닝 모델링 사이클
- 가설 (문제 정의)
- 훈련용 데이터 수집
- 모델 빌딩 및 테스트
- 모델 배포
- 모델 A/B 테스트
- A/B 테스트 결과 분석
- 비즈니스 개선
A/B 테스트
- 실제 사용자 대상
- 가설을 설정하여 사용자 그룹 간의 차이를 특정 지표를 기준으로 비교
- 2개 이상의 Variant로 구성
- 하나의 컨트롤(기존 버전)과 하나 이상의 테스트(새로운 기능)
🌳 데이터 조직 구성원
- 조직에 따라 다수 역할을 동시 수행하는 것이 일반적
구성원
- 데이터 엔지니어 (Data Engineer)
- 데이터 분석가 (Data Analyst)
- 데이터 과학자 (Data Scientist)
- ML 엔지니어
- 데이터 과학자 + 데이터 엔지니어
- MLOps
- 데이터 엔지니어 + 데이터 과학자
- 머신러닝 모델 만들기 + 테스트, 배포, 운영, 관리
- 애널리틱스 엔지니어
- DBT 툴 사용하여 ELT 수행
- 데이터 분석가 + ELT 전문성
- 프라이버시 엔지니어
- 개인정보 같이 중요한 정보들을 서비스 디자인 초기 단계부터 관리할 수 있도록 함
- 구글이 처음 만들고 얼마 안 된 역할 → 앞으로 중요한 역할 할 것
🌳 데이터 문해력 (Data Literacy)
- 데이터를 읽고 쓰고 활용할 수 있는 능력
- 기업 도메인 및 성숙도에 따라 다양한 수준이 존재
발전 트렌드
- 데이터 / IT 조직만의 책임(중앙 집중적) → 회사 전체 구성원들의 기본 능력(분산된 형태)
- 데이터가 자산이라는 인식이 먼저 필요
- Decentralization : 데이터 문해력 발전 트렌트의 중요한 축
- 생산형 AI를 사용하여 생산성 증대 (Gen AI, ChatGPT 등)
- No Code, Low Code 발전
데이터 거버넌스
- 데이터 관리 및 활용 프로세스 전반에 걸친 정책이 필요
🌳 데이터 교훈
- 데이터를 통해 매출이 생겨야 함
- 회사의 존재 이유 → 매출
- 회사의 존재 이유 → 매출
- 데이터 조직의 수장의 역할이 중요
- 주변 팀들이 데이터 팀에게 원하는 기대 수준 관리
- 회사 중요 지표에 객관적, 신뢰 가능한 영향을 끼쳐야 함
- 데이터 인프라가 첫 번째 스텝
- 데이터 인프라 없이 데이터 분석 및 모델링 불가능
- 클라우드 위에서 구축하는 것이 일반적
- 데이터 품질이 중요
- Garbage In Garbage Out
- 데이터 과학자의 모델링 업무 중 70%는 데이터 클린업
- 항상 지표부터 생각
- 업무의 성공 척도(지표)를 먼저 생각
- 객관성 있는 지표 계산
- 간단한 솔루션으로 시작
- 모든 문제를 딥러닝으로 해결할 필요 X → IF문 몇 개의 간단한 논리로 먼저 고민
- 반복 기반의 점진적 개발 방식 → 원하는 결과 나오면 중단
본 내용은 프로그래머스 '데이터 분석 데브코스' 를 수강하며 작성한 내용입니다.
728x90
728x90
SMALL
'🐥 Education > 프로그래머스 데이터분석데브코스' 카테고리의 다른 글
프로그래머스 데이터 분석 데브코스|Week1|1주차 회고 (0) | 2023.11.24 |
---|---|
[TIL] 프로그래머스 데이터 분석 데브코스|Week1|데이터 활용 시 고려할 점 (0) | 2023.11.24 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week1|Gen AI를 이용한 생산성 증대 (1) | 2023.11.23 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week1|데이터 기반 제품 개선 (1) | 2023.11.23 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week1|데이터 기반 의사결정 (1) | 2023.11.21 |