728x90
728x90
SMALL
💡 요약
- 결측치
- 결측치란?
- 결측치가 발생하는 이유
- 결측치를 처리해야 하는 이유
- 결측치 대체하기
- 평균으로 대체하기
- 완전 제거하기
- 회귀대체법
💭 느낀 점
🔗 프로그래머스 데이터 분석 데브코스|Week2 |2주차 회고
🌳 결측치
결측치(Missing Value)란?
- 0이 아닌 값
- NA(Not Available) : 유효하지 않음
- NaN(Not a Number) : 숫자가 아님
- Null : 아무것도 존재하지 않음
결측치가 발생하는 이유
- 실제로 값을 입력하지 않은 경우
- 설문조사 특정 질문에 미응답
- 데이터의 오류
결측치를 처리해야 하는 이유
- 결측치는 데이터의 손실을 불러올 수 있음
- 결측치 대체에 따라 데이터에서 편향이 생길 수 있음
- 결측치 처리에 따라 분석 결과가 매우 달라질 수 있음
🌳 결측치 대체하기
평균으로 대체하기
- 변수의 결측값을 평균값으로 대체
- 특정 정보가 존재하지 않을 경우, 평균값이 가장 좋은 샘플이라는 논리에 기인
- 정보의 손실은 줄어들 수 있으나, 결측치에 대한 불확실성을 고려하지 못함
완전 제거하기
- 결측치가 포함된 값을 분석 대상에서 제거하기
- 분석에서 편향이 발생할 가능성이 적음
- 정보의 손실 및 검정력 약화 가능성
회귀대체법
- 회기 방정식을 통해 결측값을 예측값으로 대체하는 방법
- 변수의 특성에 따라 회귀식을 구성해 예측력 향상을 꾀함
본 내용은 프로그래머스 '데이터 분석 데브코스' 를 수강하며 작성한 내용입니다.
728x90
728x90
SMALL
'🐥 Education > 프로그래머스 데이터분석데브코스' 카테고리의 다른 글
[TIL] 프로그래머스 데이터 분석 데브코스|Week3|SQL|SQL 기초 구문 (1) | 2023.12.05 |
---|---|
프로그래머스 데이터 분석 데브코스|Week2|2주차 회고 (0) | 2023.12.01 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|캐글 시작하기 (0) | 2023.11.30 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|엑셀 데이터 및 함수 (0) | 2023.11.29 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|데이터의 종류 & Gen AI 특강 (0) | 2023.11.28 |