💡 요약
- 캐글 시작하기
- [실습] 타이타닉 생존자 예측하기
- [실습] 레드, 화이트 와인 분류하기
💭 느낀 점
이번 수업은 특강으로 진행됐는데, 지난번에 간략히 만져봤던 타이타닉 생존자를 데이터셋을 가지고 예측하는 것, 그리고 레드/화이트 와인을 예측하여 분류하는 것 이 두 가지를 진행했다. 먼저 타이타닉은 지난 번에 알려주셨던 '여자가 생존률이 더 높다', '객실 등급이 높을수록 생존률이 더 높다'를 가지고 분석할 수 있었다. 이 두 가지 말고 적중률을 더 높일 수 있는 조건이 또 없을까, 하고 구글링을 해봤더니 2등급 객실에 머물었던 어린이는 100% 생존했다는 정보를 얻을 수 있었고, 세 가지 조건을 가지고 예측 후 캐글에 넣어봤더니 약 74% 정도가 나왔다. 와인 문제도 비슷한 과정으로 구글링 후 엑셀에서 IF 함수를 통해 예측을 하고 나서 캐글에 넣어봤더니 약 73%가 나왔다. 더 분석을 해보려고 고민하다가 지난 번에 배운대로 구글시트에서 simple ML을 돌려봤는데, 캐글에 넣어보니 63%로 더 떨어지는 걸 볼 수 있었다. 표본이 너무 적어서인지 모르겠지만, 98%라고 뜨는 머신러닝의 결과값도 무조건적으로 믿어선 안 되겠다고 생각했다. 확실히 도메인에 대한 지식이 없으니 데이터를 예측하는 게 어려웠던 것 같다. 코드를 짜고, 못 짜고를 떠나서 어떤 기준으로 바라봐야 할 지가 감이 안 잡혀서 한참을 시작을 못 했었다. 데이터리안 스터디를 하면서도 느끼는 거지만 데이터 분석 스킬만 배운다고 데이터 분석가가 될 수 있는 건 아닌 것 같다. 도메인 지식부터 분석한 정보를 이익 창출에 연결시키기까지 전반적인 지식이 없으면 쓸모있는 분석가가 되기 힘들겠구나, 하는 생각이 많이 들었다. 조오금 막막해지기도 한 어제, 오늘이었지만 해봐야지 별 수 있나! 막연한 미래를 바라보기보다 오늘 하루에 집중하자💪
🌳 캐글 시작하기
🔗 Kaggle
- 2017년 구글에서 인수한 데이터 분석 플랫폼
🌳 [실습] 타이타닉 생존자 예측하기
🔗 https://www.kaggle.com/competitions/titanic
🌳 [실습] 레드, 화이트 와인 분류하기
🔗 https://www.kaggle.com/competitions/programmers-dev-wine
본 내용은 프로그래머스 '데이터 분석 데브코스' 를 수강하며 작성한 내용입니다.
'🐥 Education > 프로그래머스 데이터분석데브코스' 카테고리의 다른 글
프로그래머스 데이터 분석 데브코스|Week2|2주차 회고 (0) | 2023.12.01 |
---|---|
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|결측치 (1) | 2023.12.01 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|엑셀 데이터 및 함수 (0) | 2023.11.29 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|데이터의 종류 & Gen AI 특강 (0) | 2023.11.28 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|데이터란 무엇인가 (0) | 2023.11.27 |