💡 요약
- 데이터의 종류
- 숫자데이터
- 문자데이터
- 날짜데이터
- 논리/시간/수식 데이터
- 도메인 지식
- 도메인 지식이란?
- 데이터 분석가에게 도메인 지식이란?
- [실습] 타이타닉 승객 생존여부 예측하기
- [특강] 생산성 향상을 위한 Gen AI
- 주요 종류 및 모델
- 프롬프트 엔지니어링
- [실습] 나만의 업무 보조 AI 인턴
- 신뢰할 수 있는 AI로 성장시키는 팁
- AI와 대화할 떄 참고사항
💭 느낀 점
타이타닉 승객의 생존여부를 예측하는 실습을 통해 도메인 지식이 얼마나 중요한가에 대해 배울 수 있었다.
처음에는 그냥 승객의 이름, 나이, 성별, 객실등급 등의 정보만 주고 생존/사망을 예측해봤는데, 이건 말 그대로 '찍기'였다.
다음으로는 강사님께서 타이타닉호가 침몰했을 당시의 시대적 배경, 당시 타이타닉 내부 상황 등을 알려주신 후 예측을 해봤을 땐 더 논리적인 예측이 가능했다. 이론으로만 봤다면 그저 당연한 얘기로 치부하고 쓱 보고 넘어갔을 것 같은데, 직접 실습을 통해 느껴보니 도메인 지식이라는 게 어떤 식으로 업무에 적용이 되는지를 직접 체감해 볼 수 있었다.
교육을 받기 전, 데이터 분석 업무에 대해 한창 알아볼 때 '도메인'이라는 말을 참 많이 들었었다. 처음엔 그저 '이쪽 계통에선 산업군을 도메인이라는 단어로 부르나보다' 했었는데, 공부할수록 '도메인'이라는 것이 데이터 분석가에게 얼마나 필수적인 스킬셋인지 깨닫고 있다. 하기야 기업의 성과 창출을 위해 분석을 하는 데이터 분석가가 그 기업의 생리에 대해 알지도 못한다면 얼마나 신뢰성이 떨어지는 결과가 나올까! 단순히 기술적인 부분에서의 분석 스킬을 훈련하는 것보다 내가 가고자 하는 기업의 생리를 전반적으로 바라볼 수 있는 넓은 시야를 가져야겠다고 다짐했다.
그리고 오늘은 2시부터 4시까지 특강도 진행됐다. 지난 주에 배운 Gen AI와 관련한 Chat GPT 프롬프트 실습이었는데, 굉장히 유익했다. 지난 주에는 Gen AI의 이론적인 부분을 배우고서 Chat GPT를 간단히 실습해보는 것에서 끝났었는데, 그 때 Chat GPT에게 뭘(What) 어떻게(How) 물어봐야 할지가 조금 어려웠었다. 그 부분을 오늘 딱 배운 것이다!
Chat GPT를 사용할 때 나름의 프롬프트가 존재한다는 건 알고 있었지만, 형식이 있다는 것까지는 몰랐다. 오늘 배운 프롬프트를 직접 입력해보고 대화를 해보니 정말 대화를 주고받는 게 가능해졌고, 내가 원하는 내용을 정확하게 제시해주는 것이 너무 신기했다. 어떤 점에서 업무에 Chat GPT를 사용하라는 건지 오늘 명확하게 느낄 수 있었다.
그럼에도 '분명히 실무에서 분석을 하는 툴들이 있을 텐데, Chat GPT로 대신한다는 건가? 정확히 어떤 상황일 때 Chat GPT를 사용한다는 거지?' 이 부분이 궁금했다. 그래서 강사님께 질문을 했는데, 업무 전 초안 작업을 할 때나 다양한 관점으로 데이터를 보고싶을 때 사용해서 업무적으로 시너지를 높힌다고 하셨다. 구체적인 상황을 들으니 Chat GPT가 데이터 분석 업무에 왜 필요한지 더 명확하게 알 수 있었고, 어떤 식으로 업무에 활용해야 할 지 머릿속에 그려볼 수 있었다. Chat GPT에 대해 사소하지만 궁금했던 것들이 해결되어 너무 유익하고 속 시원한 특강이었다!😄
🌳 데이터의 종류
숫자데이터
- 숫자로 이루어져 있는 데이터
- 숫자(0~9), +, -, 화폐기호, 소수점, %, 지수 등으로 이루어진 데이터
- (ex) 4, 1002, 92%, $1000
문자데이터
- 핸드폰번호, 주민등록번호, 숫자, 기호, 명칭과 같은 데이터
- 문자 + 숫자 → 문자데이터
- 특정 함수 사용이 불가능
- 문자열 함수 사용 가능
- (ex) 010-1111-1111, 프로그래머스
날짜데이터
- 년, 월, 일 등 날짜를 표시하기 위한 데이터
- 하이픈(-)이나 슬래시(/)로 표현 가능
- 날짜도 숫자데이터처럼 계산 가능
- 숫자 1은 하루를 의미(1 → 24시간 / 0.5 → 12시간)
- 특정 함수 사용 가능
- (ex) 2023-10-01, 2023/10/02
기타
- 논리/시간/수식 데이터
🌳 도메인 지식
도메인 지식(Domain Knowledge)이란?
- 특정한 전문화된 학문 / 분야의 지식
데이터 분석가에게 도메인 지식이란?
- 프로그래밍 지식
- 컴퓨터 과학 지식(CS)
- 프로그래밍 언어
- 데이터베이스
- 각종 프레임워크
- AWS, Firebase
- 수학&통계학 지식
- Machine Learning
- Statistical Modeling
- 각종 수학 지식
- 선형대수, 미적분
- Optimization
- 도메인 지식
- 비즈니스 이해/지식
- 전략적 사고/기획력
- 문제 해결능력
- 전문화된 특정 분야 지식
- 프로그래밍 지식 + 수학&통계학 지식 + 도메인 지식 → 모두 갖춰야 데이터 분석가로서의 실무 가능
- 프로그래밍 지식 + 수학&통계학 지식 → 머신러닝
- 수학&통계학 지식 + 도메인 지식 → 전통적 통계 분석
- 프로그래밍 지식 + 도메인 지식 → 위험할 수 있음
🌳 [실습] 타이타닉 승객 생존여부 예측하기
- 승객의 데이터를 보고 사망/생존 여부 예측 (사망: 0 / 생존: 1)
도메인 지식
- 전문적 · 시대적인 배경에 대한 지식 습득 후 실습 진행
- 1912년 당시 ‘Lady First’라는 개념이 존재 → 여성, 아이를 우선적으로 구출
- 부자, 일반인, 가난한 이민자 등의 부류가 있었음 → 객실은 1등급, 2등급, 3등급으로 분류
- 가난한 이민자는 주로 3등급 객실에 머뭄
- 3등급 객실은 미로처럼 복잡했으며 영어가 불가능한 사람들도 다수 존재
- 도메인 지식을 가지고 분석하면 더 신뢰성있는 분석 가능
🌳 [특강] 생산성 향상을 위한 Gen AI
주요 종류 및 모델
- Text
- 텍스트 생성은 가장 많이 발전된 영역
- 일반적인 반복 작업이나 초안 작성을 넘어 보고서나 프레젠테이션을 제공할 수 있는 수준
- (ex) Chat GPT, Bard
- Code Generation
- 개발자를 대신해서 코드 생성
- (ex) 최근 GPT에 Code Interpreter가 추가
- Image
- 캐쥬얼한 이미지 생성 또는 광고 분야에 적용될 이미지까지 훌륭한 성능
- (ex) Midjourney, Adobe의 Firefly
- Speech synthesis
- 음성 합성 기술
- 이미 소비자와 기업용 애플리케이션으로 많이 사용
- 현재는 텍스트만 입력하면 특정인의 음성으로 구어체 음성이 생성됨
- 영화, 팟캐스트 등에 널리 쓰임
- (ex) Apple의 Siri, Amazon의 Alexa
- Video / 3D models
- 영화, 게임, VR, 건축, 실제 제품 디자인 같은 대규모 크리에이티브 시장을 새롭게 개척할 수 있는 잠재력을 가짐
- 아직은 다양한 시도 중 → 대체현실, 디지털 트윈과 연계되어 빠르게 발전하고 있음
- Audio, Music / 다양한 산업군
- 음악 작곡, 생물학, 화학 등 다양한 분야에서 인간처럼 창의성 있는 작업 가능
프롬프트 엔지니어링
- 프롬프트란?
- 내가 원하는 결과물을 얻을 수 있도록 AI에게 지시하는 명령어
- Design Thinking 5단계
- 사용자의 문제 공감하기
- 사용자의 문제 정의하기
- 사용자의 문제 해결 기획
- 프로토타입
- 사용자 테스트
- 사용자 문제 해결 중심의 프롬프트 엔지니어링
- 사용자 및 사용자의 문제를 프롬프트 구조 안에 입력 (Design Thinking 1, 2단계)
- 사용자 문제 해결책을 단계별로 프롬프트 구조 안에 입력 (Design Thinking 3단계)
- 사용자 테스트 후 사용자 대화 로그를 기반으로 프롬프트를 개선 (Design Thinking 4, 5단계)
[실습] 나만의 업무 보조 AI 인턴
- 해결하고 싶은 나의 문제 정의
{사용자}는 {사용자의 문제}에 도움이 필요하다.
그 이유는 {사용자의 문제} 때문이다.
- ’사용자 중심’ 프롬프트 입력
너는 {사용자}를 도와주는 {역할}입니다.
너의 역할은 {문제}를 돕는 것입니다.
너는 먼저 대화를 시작하며 나의 답변을 받은 후 다음 단계로 넘어가야 합니다.
다음 대화의 순서를 따라서 반드시 한 단계씩 나눠서 나와 대화를 합니다.
- AI 인턴에게 요청할 단계별 업무 나열
(예시)
1단계 먼저 너는 어떤 목적으로 사용자 조사를 진행하는지 물어봅니다.
2단계 너는 내가 답변한 목표를 기반으로 구체적인 3가지 사용자 조사 방법을 장점과 단점과 함께 소개합니다.
3단계 ···
- ChatGPT에게 입력
신뢰할 수 있는 AI로 성장시키는 팁
- AI에게 일의 순서(단계)는 내가 설정
- AI는 한 번에 많은 일을 소화하기 어려울 수 있음
- 간결한 문장으로 단계를 나눠서 얘기 (하나의 문장에 접속어로 연결 X)
- 간결한 문장으로 단계를 나눠서 얘기 (하나의 문장에 접속어로 연결 X)
- AI는 아직 전문지식이 부족하거나 부정확할 수 있음
- AI의 답변에 대해 구체적인 근거 및 레퍼런스를 질문
- (ex) ‘너가 선정한 방법의 구체적인 장점과 단점을 설명해줘’
- (ex) ‘너가 작성한 내용에 대한 근거를 설명해줘’
- (ex) ‘너가 기획한 내용에 대한 레퍼런스를 추가해줘’
- AI의 답변에 대해 구체적인 근거 및 레퍼런스를 질문
- AI에게 나의 피드백을 제공하여 성장할 수 있도록 도움
AI와 대화할 때 참고사항
- 나의 피드백으로 AI의 결과의 질을 높이고 기존 프롬프트 개선도 함
- AI의 답변에서 빠진 내용이 있다면 AI가 배울 수 있도록 질문
- 설계한 단계 중간에 대화가 끊겼다면 ‘다음’이라고 얘기
- 개인정보는 절대 입력하지 말 것!
개인 질문
- 실무에서 툴을 사용하지 않고 Chat GPT를 사용하는 구체적인 경우?
- 초안 작업을 빠르게 5분 정도 대화해보고 거기에 살을 붙여서 업무에 적용
- 다양한 관점으로 데이터를 보고 싶을 때 사용
- 바로 업무에 들어가는 방법보다 Chat GPT로 시너지 효과
- Chat GPT보다 업무 툴의 가치가 더 높다고 판단되면 업무 툴 사용
본 내용은 프로그래머스 '데이터 분석 데브코스' 를 수강하며 작성한 내용입니다.
'🐥 Education > 프로그래머스 데이터분석데브코스' 카테고리의 다른 글
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|캐글 시작하기 (0) | 2023.11.30 |
---|---|
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|엑셀 데이터 및 함수 (0) | 2023.11.29 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week2|Excel|데이터란 무엇인가 (0) | 2023.11.27 |
프로그래머스 데이터 분석 데브코스|Week1|1주차 회고 (0) | 2023.11.24 |
[TIL] 프로그래머스 데이터 분석 데브코스|Week1|데이터 활용 시 고려할 점 (0) | 2023.11.24 |