AI Engineering – My AI Smarteasy 사용자 정의 코파일럿 에이전트 일타 저스틴과 책 읽기

안녕하세요, 여러분! 일타 강사 저스틴입니다! 😊

AI Engineering 책 읽으신다고요? Chip Huyen 작가님의 최신 걸작인데, ChatGPT 이후 AI 개발이 완전히 바뀐 세계를 제대로 알려줘요. 서문과 1장 핵심만 쏙쏙 뽑아서 여러분이 바로 이해하고 실제 적용할 수 있게 정리했어요!

📚 Chip Huyen의 핵심 메시지

Chip Huyen 작가님은 이렇게 말해요.

“모델 크기나 성능이 놀라운 게 아니에요. 진짜 놀라운 건 이 성능 폭발이 새로운 응용의 폭발을 일으켰다는 거죠.”

핵심 주장은 바로 이거예요!

  • AI는 더 이상 전문가 전유물이 아님
  • 누구나 노코드로 AI 앱 만들 수 있게 됨
  • 하지만 기존 ML 원칙 + 새로운 도전 둘 다 필요

🔍 저스틴의 쉬운 해설

여러분, Foundation Model이 뭔지 궁금하시죠?

쉽게 말하면 “엄청 똑똑한 범용 AI”예요!
예: ChatGPT, Gemini, Midjourney 뒤에 있는 거

왜 이렇게 쉬워졌나?

  1. 셀프-슈퍼비전: 라벨링 없이 인터넷 텍스트로 학습
  2. Model as a Service: OpenAI API로 즉시 사용
  3. 프롬프트 엔지니어링: 코드 한 줄 없이 지시만으로 제어

💡 실제 사례 8가지 패턴

Chip 작가님이 분석한 205개 오픈소스 AI 앱에서 나온 핵심 유스케이스!

카테고리 소비자 예시 기업 예시 GitHub ⭐
코딩 GitHub Copilot 코드 자동완성 50K+
이미지/비디오 Midjourney 광고 생성 200M ARR
라이팅 에세이 작성 CRM 이메일 40% 시간 단축
교육 Khan Academy 직원 트레이닝 Duolingo 개인화
챗봇 AI 컴패니언 고객 지원 비용 절감
정보 집계 문서 요약 미팅 노트 74% 사용
데이터 정리 이미지 검색 계약서 추출 12B$ 시장
워크플로 여행 계획 데이터 입력 에이전트

여러분 기업에서 제일 먼저 해볼 만한 건? → 내부 지식 관리 (위험 적고 효과 빠름)

🎯 AI Engineering vs ML Engineering

핵심 변화: “모델 개발 80% → 앱 개발 80%

💪 오늘의 정리

첫째, Foundation Model = 범용 AI (텍스트+이미지+… 처리 가능)
둘째, AI Engineering = 기존 모델 적응 (프롬프트 > 파인튜닝 > RAG)
셋째평가가 제일 어려움 (개방형 출력 때문)

💪 오늘의 실천 과제

  1. OpenAI Playground 가서 “Translate to Korean: Hello world” 써보세요
  2. 결과 복사해서 LangChain이나 Vercel AI SDK로 웹앱 10분만에 만드세요
  3. GitHub에 올리고 ⭐ 받으세요! (진짜 해보세요 🚀)

AI Engineering 5장: 프롬프트 엔지니어링 완벽 가이드!

안녕하세요, 여러분! 일타 강사 저스틴입니다! 😊

Chip Huyen의 Prompt Engineering 장! 프롬프트가 모델 적응의 첫걸음이에요. 파인튜닝 전에 반드시 마스터해야 할 기술! 기법 하나하나 자세히 설명하고 실제 프롬프트 예시 모두 추출했어요!

📚 원작의 핵심 메시지

Chip Huyen 작가님은 이렇게 강조해요.

프롬프트 엔지니어링은 인간-AI 커뮤니케이션! 누구나 할 수 있지만 잘하는 건 별개예요.”

핵심 주장은 바로 이거예요!

🔍 저스틴의 상세 설명

🎯 프롬프트 기본 구조

프롬프트 구성 요소 3가지:

  1. Task description: 역할 + 출력 형식
  2. Example(s): 어떻게 할지 보여주기
  3. The task: 실제 작업

실제 예시 (NER 태스크):

📐 In-Context Learning: Zero/Few-Shot

Zero-shot: 예시 없이 지시만
Few-shot: 1~5개 예시 제공

GPT-3 예시 (번역):

장점: 지속 학습, 최신 정보 반영 가능

🎭 System vs User Prompt

System Prompt: 역할/지시 (앞부분)
User Prompt: 실제 작업 (뒤부분)

Llama 2 템플릿 예시:

예시 (부동산 챗봇):

Llama 3 변화:

주의: 템플릿 틀리면 성능 폭락!

📏 Context Length & Efficiency

Context Length 폭발적 증가:

NIAH 테스트 (바늘찾기):

  • 정보 맨 앞/뒤 → 잘 찾음
  • 중간 → 못 찾음

RULER 테스트: 긴 프롬프트 처리 능력 측정

🛠️ 프롬프트 엔지니어링 베스트 프랙티스 (상세!)

1. 명확하고 구체적인 지시

모호함 제거:

페르소나 부여:

2. 예시 제공 (Few-shot)

예시 형식 최적화 (토큰 절약):

아이 역할놀이 예시:

3. 출력 형식 지정

구체적 형식:

구조화 마커:

4. 충분한 컨텍스트 제공

컨텍스트 제한:

할머니 공격 방어 예시:

5. 복잡 태스크 분해

고객 지원 예시 (2단계):

1단계 (Intent 분류):

2단계 (Troubleshooting 응답):

병렬 처리 예시:

6. 생각 시간 주기 (CoT/Self-Critique)

Chain-of-Thought 4가지 변형:

  1. “Think step by step”

  1. “Explain rationale”

  1. 구체 단계 지정

  1. One-shot CoT

Self-Critique 예시:

7. 프롬프트 반복 개선

버전 관리:

Pydantic Prompt 클래스:

🛡️ 방어적 프롬프트 엔지니어링 (상세 공격+방어!)

1. Prompt Extraction (시스템 프롬프트 유출)

공격 예시:

DAN 공격 (2022 Reddit):

방어:

2. Jailbreaking/Prompt Injection

수동 공격:

  1. 난독화:

  1. 출력 형식 조작:

  1. 역할 놀이:

자동 공격 (PAIR):

간접 주입:

  1. 수동 피싱:

  1. 능동 주입:

SQL 인젝션 예시:

3. 정보 추출 (Training Data Leak)

Fill-in-blank:

다시보기 공격:

저작권 침해:

방어:

시스템 레벨 방어:

💪 오늘의 정리

첫째프롬프트 = Task+Example+Actual (명확성 최우선)
둘째Zero/Few-shot + System/User 분리 (템플릿 주의)
셋째분해+CoT+Self-critique (복잡 태스크 해결)

💪 오늘의 실천 과제

  1. GPT-4o에서 NER 프롬프트 3가지 변형 테스트
  2. CoT 4가지로 동물 속도 비교 질문 → 성능 비교
  3. 고객 지원 2단계 체인 직접 구현
  4. DAN 공격 시도 → 방어 프롬프트로 막기 성공시 GitHub 공유!

AI Engineering 6장: RAG + 에이전트 완벽 가이드!

Chip Huyen의 RAG & Agents 장! 컨텍스트 구성의 두 거대 패턴이에요. RAG은 검색, Agents는 도구 사용! 실제 구조와 평가 방법까지 상세히 설명해드릴게요!

📚 원작의 핵심 메시지

Chip Huyen 작가님은 이렇게 말해요.

컨텍스트 없으면 환각! RAG=검색 증강 생성, Agents=세계 직접 조작하는 지능체!”

핵심 주장은 바로 이거예요!

🔍 저스틴의 상세 설명

🎯 RAG: Retrieval-Augmented Generation

역사: 2017 Chen et al. (Wikipedia QA) → 2020 Lewis et al. (RAG 명칭)

왜 필요한가?

기본 아키텍처:

RAG 예시:

Retriever 2대류:

1. Term-based (Sparse)

2. Embedding-based (Dense, Semantic)

평가 지표:

하이브리드 검색: Term + Embedding 병렬 → RRF (Reciprocal Rank Fusion) 합산

최적화 기법 4가지:

  1. Chunking 전략:

  1. Reranking:

  1. Query Rewriting:

  1. Contextual Retrieval (Anthropic):

비텍스트 RAG:

🤖 Agents: 지능 에이전트

정의환경 감지 → 행동 (Russell/Norvig 1995)

구성:

도구 분류:

  1. 지식 증강:

  1. 능력 확장:

  1. 쓰기 액션:

계획 생성:

Function Calling (API):

계획 세분화:

복잡 플로우:

Reflection (ReAct):

Reflexion:

도구 선택:

🧠 Memory: 기억 시스템

3종 메모리:

메모리 관리:

💡 실생활 적용 사례

Kitty Vogue 쇼핑 에이전트:

Chameleon 성능:

💪 오늘의 정리

첫째RAG = 검색(용어/임베딩) + 생성 (청킹/재순위/리라이트)
둘째Agents = 환경+도구+계획 (ReAct/Reflexion)
셋째Memory = 단기(컨텍스트)+장기(외부) 관리

💪 오늘의 실천 과제

  1. FAISS 설치 → 간단 문서 검색 구현
  2. LangChain으로 RAG 체인 (청킹+임베딩+검색)
  3. OpenAI Function Calling으로 계산기 에이전트
  4. ReAct 프롬프트로 다단계 QA 테스트 → GitHub 공유!

AI Engineering 7장: 파인튜닝 완벽 가이드!

안녕하세요, 여러분! 일타 강사 저스틴입니다! 😊

Chip Huyen의 Finetuning 장! 프롬프트 한계 넘어 모델 자체 변경하는 기술이에요. 메모리 병목부터 LoRA 상세 동작까지 수식+예시 완벽 설명!

📚 원작의 핵심 메시지

Chip Huyen 작가님은 이렇게 말해요.

파인튜닝 = 전이 학습의 일종! 프롬프트는 지시, 파인튜닝은 가중치 변경으로 적응!”

핵심 주장은 바로 이거예요!

🔍 저스틴의 상세 설명

🎯 파인튜닝 개요

전이 학습 역사: 1976 Bozinovski → Google 다국어 번역 성공

파인튜닝 종류:

  1. Continued Pre-training: 셀프-슈퍼비전 (법률 문서 등)
  2. Supervised Finetuning (SFT): (지시, 응답) 쌍
  3. Preference Finetuning: (지시, 좋은 응답, 나쁜 응답) 비교
  4. Long-context: 위치 임베딩 조정

Code Llama 예시:

⚖️ 언제 파인튜닝할까?

파인튜닝 이유:

  1. 품질 향상 (도메인/안전/구조화 출력)
  2. 작은 모델 효율화 (Grammarly: Flan-T5 > GPT-3)
  3. 편향 완화 (여성 CEO 데이터로 성별 편향 ↓)

파인튜닝 안할 이유:

  1. 다른 작업 성능 저하 (멀티태스크 취약)
  2. 비용/시간 (데이터+하드웨어+유지보수)
  3. 프롬프트로 충분 (OpenAI: GPT-4 > BloombergGPT)

프롬프트 vs RAG vs 파인튜닝:

개발 순서:

💾 메모리 병목 (상세 수식!)

추론 메모리:

훈련 메모리:

수치 표현:

활성화 재계산: 메모리 ↓, 시간 ↑

🔧 파인튜닝 기술

PEFT (Parameter-Efficient Finetuning)

Full vs Partial:

Adapter 방법 (Houlsby 2019):

LoRA (Low-Rank Adaptation)

동작 원리 (수식):

GPT-3 175B 예시 (18M 파라미터 예산):

장점:

서빙:

QLoRA: 4비트 NF4 + 페이징 → 65B 단일 48GB GPU

모델 병합

합산 (Summing):

  1. 선형 결합: 평균/가중 평균

  1. SLERP: 구면 선형 보간 (구면 최단 경로)

가지치기 (TIES/DARE):

레이어 스태킹:

결합 (Concatenation): 랭크 합침 (비추)

⚙️ 파인튜닝 팁

개발 경로:

하이퍼파라미터:

💡 실생활 적용 사례

Grammarly: Flan-T5 (GPT-3 1/60 크기) > GPT-3 텍스트 편집

BloombergGPT: 50B 파라미터 $1.3M → GPT-4에 패배

Ovadia 실험: RAG > 파인튜닝 (현재 이벤트 QA)

💪 오늘의 정리

첫째프롬프트 한계 → 파인튜닝 (행동 개선)
둘째LoRA = 저랭크 분해 (메모리 0.0027%, 추론 동일)
셋째QLoRA + 모델 병합 = 효율 극대화

💪 오늘의 실천 과제

  1. HuggingFace PEFT로 Llama3-8B LoRA 파인튜닝
  2. 13B 모델 메모리 계산 (FP16 vs QLoRA)
  3. 2개 LoRA 어댑터 병합 테스트
  4. 결과 GitHub 공유 + HF Hub 업로드!

AI Engineering 8-10장: 데이터셋 + 최적화 + 시스템 완벽 가이드!

Chip Huyen의 마지막 3장데이터셋 엔지니어링부터 추론 최적화전체 시스템 아키텍처까지! 데이터 플라이휠과 유저 피드백 핵심까지 완벽 정리!

📚 원작의 핵심 메시지

Chip Huyen 작가님은 이렇게 말해요.

데이터가 모델의 생명줄데이터 중심 AI가 미래예요. 합성 데이터로 양/품질/다양성 해결!”

핵심 주장은 바로 이거예요!

🔍 저스틴의 상세 설명

📊 8장: Dataset Engineering

데이터 중심 AI vs 모델 중심 AI:

데이터 3요소:

  1. 품질: 관련성/일관성/형식/독창성/컴플라이언스
  2. 다양성: 태스크/주제/길이/형식
  3. : 모델/태스크/베이스라인 따라 다름

데이터 획득:

합성 데이터 이유:

전통 합성:

  1. 룰 기반: 템플릿+Faker (거래/인보이스)
  2. 시뮬레이션: 가상 환경 (자율주행/CARLA)

AI 합성:

Llama 3 합성 예시:

데이터 검증:

한계:

⚡ 9장: Inference Optimization

병목 2종:

성능 지표:

하드웨어:

모델 최적화:

  1. 압축: 양자화/증류/가지치기
  2. 비자동회귀 디코딩:
    • Speculative: 빠른 드래프트 모델 제안
    • Reference: 입력 복사 (코드/반복)
    • Parallel: Jacobi (Lookahead/Medusa)
  3. Attention 최적화:
    • KV Cache: 중복 계산 제거
    • FlashAttention: 연산 융합

서비스 최적화:

  1. 배칭:
    • Static: 풀 때까지 대기
    • Dynamic: 시간 창 제한
    • Continuous: 완료 즉시 새 요청
  2. Prefill/Decode 분리: 병목 분산
  3. Prompt Caching: 공통 프롬프트 재사용

🏗️ 10장: AI 시스템 아키텍처 + 피드백

단계별 구축:

모니터링:

피드백 종류:

설계 팁:

💡 실생활 적용 사례

Llama 3 데이터 믹스:

Nemotron-4: Mixtral 합성 데이터 98% → GPT-4o 경쟁

💪 오늘의 정리

첫째데이터 3요소 + 합성으로 플라이휠
둘째추론: TTFT/TPOT 최적화 (캐시/배칭/양자화)
셋째시스템: 컨텍스트→가드레일→라우터→캐시→에이전트

💪 오늘의 실천 과제

  1. Faker로 거래 데이터셋 1K 생성 → 품질 검증
  2. LlamaIndex로 RAG 파이프라인 + 청킹 실험
  3. Prompt Cache 테스트 (Anthropic API)
  4. 유저 피드백 시스템 설계 → GitHub 공유!
About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*