Prompt Engineering 채널의 “컨텍스트 엔지니어링 – 현재 AI에서 가장 인기 있는 기술” 영상에 대한 블로그 글 초안을 작성해 보겠습니다. 이 영상은 컨텍스트 엔지니어링의 정의, 프롬프트 엔지니어링과의 차이점, 컨텍스트 관리 시 발생할 수 있는 문제점, 그리고 효과적인 컨텍스트 관리 솔루션을 다루고 있습니다.

컨텍스트 엔지니어링: AI 시대, 성공적인 에이전트를 위한 필수 기술

AI 분야는 끊임없이 새로운 아이디어가 등장하고, 그에 따라 새로운 용어가 쏟아져 나옵니다. 최근 가장 뜨거운 감자는 바로 **컨텍스트 엔지니어링(Context Engineering)**입니다. Shopify CEO인 Toby는 “프롬프트 엔지니어링보다 컨텍스트 엔지니어링이라는 용어가 더 마음에 든다”라며, LLM이 과제를 해결할 수 있도록 모든 컨텍스트를 제공하는 기술이라고 정의했습니다. Andrej Karpathy 역시 컨텍스트 엔지니어링을 “다음 단계를 위해 컨텍스트 창을 적절한 정보로 채우는 섬세한 예술이자 과학”이라고 칭하며 지지를 표명했습니다.

컨텍스트 엔지니어링이란 무엇일까요?

Langchain에 따르면, 컨텍스트 엔지니어링은 LLM이 과제를 성공적으로 수행할 수 있도록 적절한 정보와 도구를 적절한 형식으로 제공하는 동적 시스템을 구축하는 것입니다. 여기서 핵심은 단순히 사용자 지시뿐만 아니라 시스템에 초점을 맞춘다는 점입니다. 에이전트의 요구에 따라 컨텍스트를 동적으로 제공하고 변경할 수 있어야 하며, 적절한 도구 세트가 필요합니다. 물론, 이러한 도구와 정보를 전달하기 위해서는 프롬프트 엔지니어링에서 사용했던 적절한 형식이 필요합니다.

결국, 컨텍스트 엔지니어링에서 가장 중요한 것은 “LLM이 과제를 성공적으로 수행할 수 있는가?”입니다. 에이전트 시스템을 구축할 때, 기반 모델이 제공된 컨텍스트를 바탕으로 실제로 과제를 수행할 수 있는지 파악해야 합니다.

컨텍스트 엔지니어링 vs 프롬프트 엔지니어링

Langchain 팀은 프롬프트 엔지니어링을 컨텍스트 엔지니어링의 하위 집합으로 간주합니다. 아무리 좋은 컨텍스트가 있더라도, 프롬프트를 어떻게 구성하느냐가 여전히 중요하기 때문입니다. 다만, 프롬프트 엔지니어링은 단일 입력 데이터 세트에 맞춰 프롬프트를 설계하는 반면, 컨텍스트 엔지니어링은 동적으로 변화하는 데이터 세트를 적절하게 형식화하는 데 초점을 맞춥니다. 즉, 컨텍스트 엔지니어링은 동적으로 변화하는 데이터와 도구 세트에 대한 프롬프트 엔지니어링의 확장이라고 볼 수 있습니다.

핵심은 가장 관련성 높은 정보를 적절한 시기에 에이전트 또는 모델에 제공하는 것입니다. 관련 없는 정보가 컨텍스트에 포함되면 모델 성능이 저하될 수 있습니다.

컨텍스트 엔지니어링의 일반적인 문제점

LLM의 컨텍스트 창에 잘못된 정보를 제공하는 경우, 다음과 같은 문제가 발생할 수 있습니다:

컨텍스트 포이즈닝 (Context Poisoning): 환각 또는 오류가 컨텍스트에 포함되어 반복적으로 참조되는 경우 발생합니다. Gemini 2.5 기술 보고서에 따르면, 포켓몬 게임을 하는 Gemini 에이전트가 때때로 환각을 일으키는 경우가 있었습니다. 이는 에이전트의 목표와 관련된 환각 또는 잘못된 정보가 대화 전체에 전파되어 비합리적인 행동을 초래하기 때문입니다.
컨텍스트 주의 산만 (Context Distraction): 컨텍스트가 너무 길어지면 모델이 학습된 내용을 무시하고 컨텍스트에 지나치게 집중하는 경우 발생합니다. Gemini Pro 팀은 에이전트 설정에서 컨텍스트가 10만 토큰을 초과하면 새로운 계획을 종합하기보다는 이전 행동을 반복하는 경향을 보인다고 밝혔습니다. Databricks 연구에 따르면, Llama 3 405B 모델의 정확도는 32,000 토큰에서 저하되기 시작했으며, 소규모 모델에서는 더 일찍 저하되었습니다.
컨텍스트 혼란 (Context Confusion): 컨텍스트에 불필요한 콘텐츠가 포함되어 모델이 저품질 응답을 생성하는 경우 발생합니다. 특히, 에이전트에서 다양한 도구 설명과 함께 여러 도구를 사용하는 경우 문제가 될 수 있습니다. 연구에 따르면, 모델은 둘 이상의 도구가 제공될 때 성능이 저하되며, 관련 없는 기능이 제공되는 경우에도 도구를 호출하는 경향이 있습니다.
컨텍스트 충돌 (Context Clash): 컨텍스트에 새로운 정보와 도구를 추가할 때 기존 정보와 충돌하는 경우 발생합니다. 이는 컨텍스트 혼란보다 더 심각한 문제입니다. Microsoft와 Salesforce 팀의 연구에 따르면, 모든 컨텍스트를 한 번에 제공하는 것보다 여러 턴에 걸쳐 분할하여 제공하는 것이 LLM에게 더 나쁜 결과를 초래합니다. 이는 정보가 서로 모순되는 것처럼 보일 수 있기 때문입니다.

효과적인 컨텍스트 관리 솔루션

컨텍스트 관련 문제를 해결하고 효과적으로 컨텍스트를 관리하기 위해 다음과 같은 솔루션을 활용할 수 있습니다:

RAG (Retrieval Augmented Generation): LLM이 더 나은 응답을 생성하도록 관련 정보를 선택적으로 추가하는 기술입니다. 검색 외에도, 에이전트가 50개의 도구에 액세스할 수 있는 경우, 사용자 쿼리와 도구 설명을 기반으로 순위를 매겨 사용자 쿼리에 관련된 하위 집합을 선택적으로 선택할 수 있습니다.
컨텍스트 격리 (Context Quarantine): 컨텍스트를 전용 스레드에서 격리하여 하나 이상의 LLM이 개별적으로 사용하도록 하는 기술입니다. 이는 다중 에이전트 시스템에서 글로벌 공유 컨텍스트 대신 자체 컨텍스트를 가진 특수 에이전트를 구축하는 데 유용합니다.
컨텍스트 가지치기 (Context Pruning): 관련 없거나 불필요한 정보를 컨텍스트에서 제거하는 기술입니다. RAG 시스템에서 초기 검색된 청크를 재정렬하여 LLM에 전달되는 컨텍스트를 줄이는 데 사용할 수 있습니다. Provenance라는 특수 모델은 사용자 쿼리를 기반으로 관련 없는 컨텍스트를 제거하고 간결한 컨텍스트를 모델에 제공합니다.
컨텍스트 요약 (Context Summarization): 컨텍스트를 응축된 요약으로 줄이는 기술입니다. 채팅 모델에서 이전 대화 내용을 요약하여 컨텍스트 창이 가득 차는 것을 방지하는 데 사용할 수 있습니다.
컨텍스트 오프로딩 (Context Offloading): LLM의 컨텍스트 외부에 정보를 저장하는 기술입니다. 일반적으로 데이터를 저장하고 관리하는 도구를 통해 단기 및 장기 메모리 시스템을 구축하는 데 사용할 수 있습니다.

마무리

컨텍스트 엔지니어링은 LLM 기반 에이전트 시스템을 구축하는 데 중요한 기술입니다. 이 영상에서는 컨텍스트 엔지니어링의 정의, 프롬프트 엔지니어링과의 차이점, 컨텍스트 관리 시 발생할 수 있는 문제점, 그리고 효과적인 컨텍스트 관리 솔루션을 살펴보았습니다. 제시된 솔루션들을 통해 더욱 깔끔한 프롬프트, 더 적은 토큰, 더 나은 답변을 얻을 수 있을 것입니다.

비록 컨텍스트 엔지니어링이 기존 아이디어를 재정의하는 것처럼 보일 수도 있지만, AI 에이전트를 성공적으로 구축하고 관리하는 데 필수적인 기술임에는 틀림없습니다.

참고 자료: