오늘 이 시간, 저스틴과 함께 AI 기술의 최전선을 꿰뚫어 볼 아주 특별한 강의를 시작하겠습니다! 우리가 오늘 함께 파헤쳐 볼 주제는 바로 AI 에이전트입니다. 이 용어, 이제는 정말 모르면 안 되는 핵심 키워드가 됐죠?

그런데 말입니다, 이 AI 에이전트라는 녀석을 그저 말 잘하는 인공지능 정도로만 생각하고 있다면, 오늘 이 강의를 통해 그 생각을 완전히 뒤집어 드리겠습니다! 오늘 강의는 “Analytics Vidhya”에서 제시한 최신 분석 자료를 기반으로, AI 에이전트의 8가지 유형을 완벽하게 해부하는 시간입니다.

오늘 강의의 최종 목표는 이겁니다. AI 에이전트는 결코 하나의 획일적인 개념이 아니다! 마치 우리 사회의 수많은 전문가들처럼, 각자의 전문 분야를 가지고 효율성을 극대화하는 맞춤형 인재들의 시스템으로 진화하고 있다는 사실을 완벽하게 이해하는 겁니다.

자, 그럼 눈 크게 뜨고 귀 쫑긋! 지금부터 저스틴의 명품 강의, 시작합니다!

AI 에이전트, 8가지 전문가들의 모든 것!

“Analytics Vidhya”의 분석에 따르면, AI 에이전트는 추론, 인지, 행동, 추상화 등 각 분야에 특화된 다양한 아키텍처로 발전하고 있습니다. 지금부터 그 8가지 전문가들을 하나씩 만나보시죠.

1. GPT (Generative Pretrained Transformer) – 만능 재주꾼

첫 번째 타자는 역시 우리에게 가장 익숙한 GPT입니다. 이들은 범용 텍스트 생성기로, 유창함과 다재다능함이 최대 강점이죠. 이걸 쉽게 말하면, 마치 맥가이버 칼 같아요! 텍스트 생성에 있어서는 못 하는 게 거의 없는 만능꾼입니다.

이런 다재다능함은 GPT의 핵심 구조인 복잡한 트랜스포머(Transformer) 아키텍처에서 나옵니다. 특히 디코더(Decoder) 구조를 중심으로 설계되어 있으며, 그 안에는 Multi-Head Attention(다중 헤드 어텐션) 같은 여러 장치들이 겹겹이 쌓여 있습니다. 이 구조 덕분에 GPT는 문맥을 기가 막히게 파악하고, 앞뒤가 자연스럽게 이어지는 글을 술술 써 내려가는 겁니다.

대표 모델: OpenAI의 GPT-4o, GPT-4 Turbo, Anthropic의 Claude 3.5 Sonnet

2. MoE (Mixture of Experts) – 효율 끝판왕

두 번째는 MoE, 전문가 혼합 모델입니다. 자, 이 부분은 별표 세 개! 이 모델은 작업을 가장 잘 처리할 수 있는 전문가(Expert) 네트워크에만 선별적으로 보내 효율성을 극대화합니다. 이건 마치 초고층 병원의 진료 시스템과 같아요. 모든 환자를 한 명의 의사가 다 보는 게 아니라, 증상에 딱 맞는 전문의에게 보내는 거죠!

그 중심에는 라우터(Router)라는 교통경찰 같은 녀석이 있습니다. 이 라우터가 들어온 질문의 성격을 순식간에 파악해서 수십 개의 전문가 네트워크 중에서 가장 적합한 2~3개의 전문가에게만 일을 분배합니다. 모든 전문가를 다 깨워서 일 시키는 게 아니라, 딱 필요한 전문가만 호출하니까 계산 비용은 줄이면서 성능은 유지하거나 오히려 향상되는 겁니다.

대표 모델: Mistral AI의 Mixtral 8x7B, Mixtral 8x22B, Google의 Gemini 1.5 (내부적으로 MoE 사용)

3. LRM (Large Reasoning Model) – 명탐정 셜록

세 번째, LRM은 다단계 논리적 추론(Multi-step Reasoning)에 최적화된 모델입니다. 복잡한 문제를 해결하는 셜록 홈즈처럼, 여러 단계를 거쳐 논리적으로 생각하고 결론을 도출하는 고차원적인 사고력을 담당하죠.

특히 LRM은 RAG(검색 증강 생성, Retrieval Augmented Generation)라는 강력한 기술과 결합하여 사용됩니다. 이건 LLM이 자신의 학습된 지식뿐만 아니라 최신 정보나 전문 지식을 실시간으로 외부 데이터베이스나 웹에서 검색해 와서 답변의 정확도를 높이는 기술입니다. 명탐정 셜록이 자신의 두뇌뿐만 아니라, 도서관의 방대한 자료까지 참고해서 사건을 해결하는 것과 똑같은 원리입니다.

최근에는 CoT(Chain-of-Thought, 사고의 연쇄) 프롬프팅 기법을 통해 모델이 단계별로 추론 과정을 명시적으로 보여주도록 훈련시켜 복잡한 수학 문제나 논리 퍼즐 해결 능력을 극대화하고 있습니다.

대표 모델: OpenAI의 o1, o3, Google DeepMind의 Gemini 1.5 Pro (긴 컨텍스트 추론), Anthropic의 Claude 3 Opus

4. VLM (Vision-Language Model) – 보고 말하는 통역사

네 번째, VLM은 시각(Vision)과 언어(Language)를 연결하여 멀티모달 작업을 수행합니다. 사진을 보고 완벽하게 설명할 수 있는, 눈과 입이 연결된 AI 통역사 같은 존재라고 할 수 있죠.

이런 통역사는 어떻게 탄생할까요? 바로 이미지-텍스트 쌍(Image-text pair)을 함께 학습하는 훈련을 통해서입니다. 이 그림은 강아지라는 식으로 그림과 글을 짝지어서 수백만, 수억 개를 보여주면, 나중에는 그림만 봐도 글을 쓸 수 있고, 글만 읽어도 그림을 상상할 수 있게 되는 겁니다.

VLM은 일반적으로 비전 인코더(Vision Encoder, 예: ViT)와 언어 모델(Language Model)을 결합한 구조로 되어 있으며, 이미지 캡셔닝, 시각적 질의응답(Visual QA), 이미지 기반 추론 등 다양한 작업을 수행할 수 있습니다.

대표 모델: OpenAI의 GPT-4o, GPT-4 Vision, Google의 Gemini 1.5 Pro, Anthropic의 Claude 3.5 Sonnet

5. SLM (Small Language Model) – 작지만 강한 경차

다섯 번째, SLM은 경량화되어 비용 효율적이고 엣지 배포(Edge Deployment)에 적합한 모델입니다. 작지만 강한 엔진을 가진 경차처럼, 스마트폰 같은 작은 기기에서도 빠르게 작동할 수 있도록 최적화되었죠.

대표 주자인 Llama 3.2, Phi-3, Gemma 2 같은 모델의 엔진을 들여다보면, Grouped Query Attention(그룹화된 쿼리 어텐션), 지식 증류(Knowledge Distillation), 양자화(Quantization) 같은 최신 기술들이 들어가 있습니다. 바로 이런 기술들 덕분에 모델의 크기는 확 줄이면서도 성능은 최대한 유지할 수 있는 겁니다.

특히 개인정보 보호가 중요하거나, 인터넷 연결 없이 작동해야 하거나, 실시간 응답이 필요한 환경에서 그 진가를 발휘합니다.

대표 모델: Microsoft의 Phi-3, Phi-3.5, Google의 Gemma 2B/7B, Meta의 Llama 3.2

6. LAM (Large Action Model) – 유능한 실무형 비서

여섯 번째, LAM은 코드 실행, API 호출, 파일 조작 등 자율적인 작업 수행을 위해 만들어졌습니다. 말만 하는 게 아니라, 실제 업무를 수행하는 유능한 실무형 비서라고 생각하면 쉽습니다.

이 비서는 ReAct(Reason and Act)라는 프레임워크에 따라 움직이는데, 관찰(Observation) → 생각(Thought) → 행동(Action)을 계속 반복합니다. 이 과정에서 검색 엔진, 계산기, 코드 인터프리터, 데이터베이스 쿼리 같은 외부 도구(Tool)를 자유자재로 사용해서 실제로 문제를 해결해내죠.

예를 들어, “오늘 서울 날씨를 확인하고, 비가 온다면 우산 구매 링크를 찾아줘”라는 요청을 받으면, LAM은 (1) 날씨 API를 호출하고, (2) 결과를 분석하고, (3) 쇼핑 검색을 수행하고, (4) 최종 답변을 생성하는 일련의 작업을 자율적으로 수행합니다.

대표 모델/프레임워크: LangChain + GPT-4o, AutoGPT, BabyAGI, Google의 PaLM-E (로보틱스), Microsoft Copilot

7. HLM (Hierarchical Language Model) – 프로젝트 매니저

일곱 번째, HLM은 문제를 하위 작업(Subtask)으로 분해해서 장기적인 계획을 가능하게 합니다. 거대한 프로젝트를 총괄하는 프로젝트 매니저(PM)처럼 큰 그림을 보고 업무를 나누는 지혜로운 에이전트죠.

그 구조를 보면, 상위 모델(사용자 LLM)이 사용자의 큰 의도를 파악하면, 하위 모델(아이템 LLM)이 그 의도에 맞춰 구체적인 결과물을 생성하는 계층적 형태로 이루어져 있습니다. 딱 PM의 조직도 같은 구조입니다.

예를 들어, “신제품 출시 전략 보고서를 작성해줘”라는 요청을 받으면, 상위 에이전트가 이를 (1) 시장 조사, (2) 경쟁사 분석, (3) 마케팅 전략 수립, (4) 예산 계획으로 분해하고, 각 하위 에이전트가 담당 작업을 수행한 뒤 그 결과를 통합하여 최종 보고서를 완성하는 방식입니다.

대표 모델/프레임워크: Microsoft AutoGen (다중 에이전트 시스템), LangGraph, CrewAI

8. LCM (Large Concept Model) – 본질을 꿰뚫는 철학자

마지막으로 LCM은 추상적이고 고차원적인 지식을 포착하여 일반화(Generalization)하는 데 중점을 둡니다. 단순히 정보를 아는 것을 넘어 지혜를 가진, 세상을 깊이 있게 이해하는 AI 철학자라고 할 수 있습니다.

이 철학자는 단어(WORDS)를 개념 인코더(Concept Encoder)를 통해 추상적인 개념(CONCEPTS)의 세계로 보내고, 이 개념을 다시 개념 디코더(Concept Decoder)를 통해 현실의 단어로 꺼내오는 방식으로 사고합니다. 사과라는 단어를 넘어 과일, 달콤함, 빨간색, 건강 같은 본질적인 개념의 관계를 다루는 것이죠.

이 분야는 아직 연구 단계에 있지만, 실용적으로는 지식 그래프(Knowledge Graph)를 활용한 시스템으로 구현할 수 있습니다. 예를 들어, Google의 지식 그래프는 수십억 개의 개념과 그들 간의 관계를 저장하고 있으며, 이를 LLM과 결합하면 더 깊이 있는 추론과 맥락 이해가 가능해집니다.

대표 연구/기술: Google DeepMind의 LCM 연구, 지식 그래프 기반 시스템, Symbolic AI와 LLM의 결합

[강의 마무리] AI 에이전트, 미래를 이끌 ‘전문가 시스템’을 이해하라!

자, 오늘 어떠셨나요? 8가지 AI 에이전트 모델의 개념과 작동 원리, 그리고 실제 적용 가능한 대표 모델들까지 머릿속에 완벽하게 정리되지 않습니까?

“Analytics Vidhya”의 분석이 우리에게 던지는 최종 메시지는 단 하나입니다. “AI 에이전트는 더 이상 하나의 획일적인 아이디어가 아니며, 각각 다른 지능 계층에 최적화된 상호 보완적인 전문가들의 시스템으로 진화하고 있다!”

결국 미래의 AI는 하나의 만능 AI가 세상을 지배하는 것이 아니라, 각자의 전문성을 가진 다양한 AI 에이전트들이 협력하여 복잡한 문제들을 해결해나가는 모습이 될 거라는 사실! 오늘 저스틴의 강의를 통해 이 거대한 흐름을 완벽하게 이해하셨기를 바랍니다.