데이터분석가

💡 요약 결측치 결측치란? 결측치가 발생하는 이유 결측치를 처리해야 하는 이유 결측치 대체하기 평균으로 대체하기 완전 제거하기 회귀대체법 💭 느낀 점 🔗 프로그래머스 데이터 분석 데브코스|Week2 |2주차 회고 🌳 결측치 결측치(Missing Value)란? 0이 아닌 값 NA(Not Available) : 유효하지 않음 NaN(Not a Number) : 숫자가 아님 Null : 아무것도 존재하지 않음 결측치가 발생하는 이유 실제로 값을 입력하지 않은 경우 설문조사 특정 질문에 미응답 데이터의 오류 결측치를 처리해야 하는 이유 결측치는 데이터의 손실을 불러올 수 있음 결측치 대체에 따라 데이터에서 편향이 생길 수 있음 결측치 처리에 따라 분석 결과가 매우 달라질 수 있음 🌳 결측치 대체하기 평균으로 ..
💡 요약 LEFT JOIN 왼쪽 테이블 + 교집합 테이블 옆으로 연결 RIGHT JOIN 오른쪽 테이블 + 교집합 테이블 옆으로 연결 FULL OUTER JOIN 두 테이블의 모든 데이터를 옆으로 연결 FULL OUTER JOIN + 조건 서로 겹치지 않는 데이터만 옆으로 연결 SELF JOIN 하나의 테이블 활용하여 데이터 붙이기 🌳 테이블 옆으로 연결하기 (OUTER JOIN) LEFT JOIN LEFT JOIN : 왼쪽 테이블 + 교집합 데이터 옆으로 연결 LEFT OUTER JOIN → OUTER 생략 왼쪽에 있는 데이터는 무조건 출력, 왼쪽 기준으로 오른쪽 데이터 출력 RIGHT JOIN RIGHT JOIN : 오른쪽 테이블 + 교집합 데이터 옆으로 연결 실무에서는 거의 LEFT JOIN 한 가..
💡 요약 캐글 시작하기 [실습] 타이타닉 생존자 예측하기 [실습] 레드, 화이트 와인 분류하기 💭 느낀 점 이번 수업은 특강으로 진행됐는데, 지난번에 간략히 만져봤던 타이타닉 생존자를 데이터셋을 가지고 예측하는 것, 그리고 레드/화이트 와인을 예측하여 분류하는 것 이 두 가지를 진행했다. 먼저 타이타닉은 지난 번에 알려주셨던 '여자가 생존률이 더 높다', '객실 등급이 높을수록 생존률이 더 높다'를 가지고 분석할 수 있었다. 이 두 가지 말고 적중률을 더 높일 수 있는 조건이 또 없을까, 하고 구글링을 해봤더니 2등급 객실에 머물었던 어린이는 100% 생존했다는 정보를 얻을 수 있었고, 세 가지 조건을 가지고 예측 후 캐글에 넣어봤더니 약 74% 정도가 나왔다. 와인 문제도 비슷한 과정으로 구글링 후 엑..
💡요약 UNION ALL 테이블을 중복값 포함하여 위아래로 연결 UNION 테이블을 중복값 제외하고 위아래로 연결 INNER JOIN 교집합 데이터 옆으로 연결 🌳 데이터 위아래로 연결하기 UNION ALL : 테이블을 중복값 포함하여 위아래로 연결 UNION : 테이블을 중복값 제외하고 위아래로 연결 양쪽 테이블 형식이 같아야 함 🌳 테이블 옆으로 연결하기 (INNER JOIN) INNER JOIN : 교집합 데이터 옆으로 연결 테이블에 공통으로 들어가 있는 데이터만 출력 INNER 은 기본값 → JOIN 만 입력해도 됨 3개 이상의 테이블 → JOIN 반복 사용 2개 이상의 테이블을 JOIN 을 통해 한꺼번에 볼 때 가독성을 위해 Column명 앞에 테이블명 붙여주는 것이 좋음 테이블명에 별칭 붙이기..
💡 요약 개념 설명 SQL로 피봇 테이블 만들기 CASE 문 사용 COUNT , DISTINCT 사용 그룹 기준 추가 🌳 개념 설명 피봇(Pivot) : 축을 바꾼다 피봇 테이블(Pivot Table) : 실무에서 데이터를 효율적으로 파악하기 위해 사용하는 시각화 방법 GROUP BY → 한 가지 기준으로 데이터를 집계할 때 사용 두 가지 기준 이상일 때 : 피봇 테이블로 데이터를 파악하는 것이 훨씬 효율적 예시 날짜별로 상품 카테고리별 매출 구할 때 고객 분류별로 상품 카테고리별 데이터 볼 때 🌳 SQL로 피봇 테이블 만들기 1. CASE 문 사용 해당 기준일 때의 출력할 결과값을 CASE 문을 이용해 출력 예시 상품 카테고리가 ‘Furniture’일 때의 주문 수 → ‘order_id’를 출력 상품 ..
💡 요약 데이터의 종류 논리 데이터 논리 함수 수식 데이터 집계 함수 논리 함수 IF AND / OR 함수의 다중 사용 집계 함수 SUM MAX MIN AVERAGE 💭 느낀 점 엑셀의 논리, 집계 함수에 대해 배웠다. 사실 이 부분은 예전에 컴활 1급을 취득했고, 직장생활도 3년 반을 했기 때문에 알고 있는 내용이었다. 그래도 엑셀 함수를 최근 몇 달동안 굳이 쓸 일이 없었고, SQL을 처음 배울 땐 엑셀 함수가 훨씬 익숙했는데 겨우 한 달 정도 SQL을 계속 썼다고 '='으로 시작하는 엑셀 함수를 보고 '아 맞다!' 하기도 했다😂 그러면서도 이젠 SQL 문법이 훨씬 익숙한 것이 참 뿌듯하기도 허고 그래도 한 달동안 나 열심히 했네! 싶었다😊 엑셀에 대해 더 깊은 내용을 배우고 싶었는데, 이 점이 아쉽..
윰 yumm
'데이터분석가' 태그의 글 목록 (2 Page)