My AI Smarteasy 사용자 정의 코파일럿 에이전트 – 일타강사 저스틴 – AI 에이전트, 왜 자꾸 헛다리 짚을까? 당신의 LLM이 모르는 ‘진짜 비밀’

What LLMs Don’t Know | Stardog

안녕! 여러분, 일타 강사 저스틴입니다! 오늘도 여러분의 기업 AI 전략에 혁명적인 통찰을 안겨줄 특급 강의를 준비했습니다. 오늘 우리가 함께 파헤쳐 볼 자료는 바로 스타독(Stardog)의 공동 창업자인 Kendall Clark와 Evren Sirin이 작성한 “LLM이 모르는 것(What LLMs Don’t Know)”이라는 제목의 블로그 포스트입니다. 기업들이 AI 도입에서 왜 번번이 실패하는지, 그리고 그 해결책은 무엇인지, 저스틴과 함께 핵심만 쏙쏙 뽑아봅시다!


AI 에이전트, 왜 자꾸 헛다리 짚을까? 당신의 LLM이 모르는 ‘진짜 비밀’

여러분, 요즘 LLM(거대 언어 모델) 기반의 AI 에이전트 도입이 기업의 화두죠? “우리 회사도 AI 도입해서 업무 효율을 확 높여야지!” 하고 야심 차게 시작했지만, 막상 써보니 영 시원찮아서 좌절하는 경우가 많을 겁니다. 가격 책정 에이전트는 엉뚱한 가격을 내놓고, 고객 서비스 에이전트는 지난주 상담 내역도 모르고, 컴플라이언스 에이전트는 옛날 규정만 읊조리죠. IT팀은 데이터 연결하느라 야근에 시달리고, 결국 현업 담당자들은 “에이, 그냥 내가 하던 대로 할래!” 하면서 옛날 방식으로 돌아가 버리는 악순환이 반복됩니다.

저스틴) 업무 전문가가 코파일럿 AI 에이전트와 협업하는 과정을 먼저 거쳐야 합니다. 목표만 주는 파일럿 AI 에이전트로 바로 가면 좋겠지만, AI와 협업하는 사람도 단계적 적응이 필요합니다.

이 블로그의 저자들은 이 현상을 아주 날카롭게 꼬집습니다. “AI 마법”에 대한 기대가 “혹독한 현실”에 부딪혔다는 거죠. 대충 데모에서는 그럴싸해 보여도, 실제 현장에 투입되면 신뢰할 수 없는 ‘흔들리는 기반’ 위에 세워졌다는 겁니다.

자, 이 부분은 별표 세 개! 저자들이 말하는 핵심은 이거예요. “문제는 AI 모델의 정교함에 있지 않다. 문제는 그 모델들이 무엇을 접근할 수 있고, 무엇을 접근할 수 없는지에 있다.” 즉, AI 에이전트가 멍청해서가 아니라, 우리 기업의 중요한 정보에 ‘접근’할 수 없기 때문에 제 역할을 못 한다는 겁니다. 마치 아무리 똑똑한 요리사라도 냉장고에 재료가 없으면 아무것도 만들 수 없는 것과 같아요.

1. 기업 AI 에이전트의 ‘기억력’을 해부하다: 4가지 데이터 사분면

이 글의 저자들은 기업 AI 에이전트가 왜 제대로 작동하지 못하는지 이해하기 위해, 정보의 세계를 두 가지 핵심 기준으로 나누어 설명합니다. 바로 ‘비즈니스와의 관련성(relevance)’과 ‘에이전트의 접근성(accessibility)’이죠. 이 두 가지를 조합하면 네 가지 데이터 사분면이 나옵니다.

  • Public + Relevant (핵심 지식 기반, Core Knowledge Base):
    • 에이전트의 ‘공유된 기억’입니다. 모두 접근 가능하고, 검증 가능하며, 서비스 설명이나 규정 준수에 필수적인 정보죠. 모든 에이전트에게 기본이 되는 지식입니다.
    • 예시: 최신 주택담보대출 금리, 증권거래위원회(SEC) 마감일, 제조 산업의 ISO 안전 표준, 신약 승인 가이드라인 등.
  • Public + Irrelevant (노이즈 억제 구역, Noise Suppression Zone):
    • 이건 AI 에이전트가 일찍이 ‘걸러내야 할’ 방대한 공개 정보들입니다. 이걸 제대로 걸러내지 못하면 에이전트가 ‘환각(Hallucination)’을 일으키거나 초점을 잃을 수 있습니다.
    • 예시: 경쟁사 슈퍼볼 캠페인, 레딧(Reddit)의 암호화폐 투기 정보, 구식 핀테크 보도자료 등.
  • Private + Irrelevant (체르노빌, Chernobyl):
    • 자, 이 부분은 별표 세 개! ‘위험 지대’입니다. 조직 내부에 쌓인 불필요한 정보들이 저장 공간만 차지하고 ‘기억 위생’을 해치는 곳이죠. 여기서 에이전트의 환각과 편향이 스며들 수 있습니다. 기본적으로 저장되어 있지만, 절실하게 제거(purging), 압축(compression), 또는 지능적인 태깅(intelligent tagging)이 필요합니다.
    • 예시: 직원들의 점심 선호도, 사무실 좌석 배치도, 기한이 지난 마케팅 자산, 은퇴한 제품 사양 문서 등.
  • Private + Relevant (고가치 구역, High Value Zone):
    • 바로 여기서 기업 AI 에이전트의 ‘성공과 실패’가 갈립니다. 이 영역의 데이터는 개인화, 추론, 그리고 업무 연속성을 위한 연료입니다. 일반적인 AI 비서가 강력한 비즈니스 에이전트로 변모하는 마법 같은 공간이죠.
    • 예시: 내부 모델에서 산출된 고객 위험 점수, 관계 관리자와의 대화 기록, 계좌별 포트폴리오 성과, 실시간 생산 라인 효율성, 환자 등록 데이터 등.

저자들은 여기서 ‘잔혹한 아이러니’를 지적합니다. “대부분의 기업 AI 이니셔티브는 엉뚱한 사분면에 집중한다. LLM이 이미 잘 처리하는 공개 지식에 최적화하면서, 정작 ‘고가치 구역’은 에이전트가 접근하기 어렵게 방치한다.” 여러분, 이게 바로 문제의 본질입니다!

2. 통합의 악몽과 정확도 위기: 왜 AI는 부정확할까?

IT팀은 이 진실을 잘 알고 있습니다. 에이전트 구축은 어렵고, 유지보수는 ‘악몽’입니다. 새로운 데이터 소스마다 맞춤형 연결이 필요하고, 스키마가 변경되면 기존 통합이 깨지며, 새로운 사용 사례마다 데이터 파이프라인과 모델링을 다시 해야 하죠. 결과는요? 끊임없이 관리하고 디버깅해야 하는 ‘취약한 서비스’들의 산더미입니다.

비즈니스 담당자들도 처음에는 기대가 컸죠. 하지만 가격 에이전트가 최신 재고 수준에 접근하지 못하고, 컴플라이언스 에이전트가 최근 정책 업데이트를 놓치며, 고객 서비스 에이전트가 지난주 상담 내용을 모르면, AI에 대한 신뢰는 급격히 무너집니다.

저자들은 “전통적인 접근 방식은 확장성이 떨어진다”고 말합니다. 수십 개의 점대점(point-to-point) 통합이 난무하고, 문제가 생기면 어디가 문제인지 파악하기 어렵습니다. 요구 사항이 바뀌면 파급 효과는 예측 불가능하죠. 결국 “AI 전환”은 “기술 부채 증폭”으로 변질되고 맙니다.

그리고 중요한 사실! “에이전트의 낮은 정확도는 주로 모델의 문제가 아니다. 바로 ‘데이터 접근’의 문제다.” 가격 에이전트가 50% 정확도밖에 내지 못하는 건 LLM이 수학을 못해서가 아닙니다. 최신 가격 데이터, 재고 수준, 고객 이력, 시장 상황에 일관되고 시의적절하게 접근할 수 없기 때문이죠. 아무리 모델을 미세 조정해도, 이 근본적인 ‘데이터 접근 격차’는 해결할 수 없습니다.

3. 사례 연구: 글로벌 에너지 제조업체 ‘메가콥 에너지’

저자들은 한 글로벌 에너지 제조업체인 “메가콥 에너지(MegaCorp Energy)”의 사례를 통해 ‘고가치 구역 접근 문제’를 생생하게 보여줍니다.

  • 문제: 영업팀은 지정학적 사건, 관세, 공급망 중단, 항만 물류, 경로 계획, 기존 고객 계약, 규제 변경 등을 고려한 복잡한 가격 제안서를 작성해야 했습니다. 각 제안서에는 내부 시스템과 외부 피드를 포함하여 10개 이상의 다른 소스에서 데이터가 필요했죠.
  • 결과: AI 에이전트의 가격 추천 정확도는 겨우 54%에 불과했습니다. 수억 달러 규모의 매출 결정을 책임지는 영업 전문가들은 시스템에 대한 신뢰를 잃었고, 한 지역에서만 7천만 달러의 매출 손실을 포함해 연간 1억 달러 이상의 손실을 입었습니다.
  • 데이터 악몽: 메가콥은 관계형 데이터베이스와 NoSQL 데이터베이스에 걸쳐 수천 개의 데이터 사일로를 가지고 있었습니다. 영업 결정을 위해서는 여러 시스템에서 수동으로 데이터를 수집해야 했고, 제안서 작성에 12시간이 걸려 중요한 정보가 이미 구식이 되어버렸죠. 데이터는 여러 시스템에 23번 복제되어 일관성 문제와 규정 준수 격차를 야기했습니다.
  • 고가치 구역 격차: 메가콥의 ‘Private + Relevant’ 사분면에는 실시간 정유 공장 처리량 데이터, 선적 추적, 재고 수준, 고객 계약 조건, 시장 정보 등 에이전트에게 필요한 모든 정보가 있었습니다. 하지만 이 중요한 정보는 사일로에 갇혀 수동 프로세스를 통해서만 접근할 수 있었고, 이는 지연과 오류를 유발했습니다.
  • 결정적인 순간: 영업팀은 Excel 스프레드시트를 통해 수동으로 데이터를 공유했고, 이는 규정 준수 및 법적 위험을 초래했습니다. 결국 정교한 AI 야망과 단편적인 데이터 현실 사이의 단절은 지속 불가능한 수준에 이르렀습니다.

이 사례는 저자들이 말하는 ‘보편적인 진실’을 보여줍니다. “아무리 모델이 정교해도 근본적인 데이터 접근 문제를 극복할 수는 없다.” 에이전트가 똑똑하지 않아서 실패한 것이 아니라, 정확한 비즈니스 결정을 내리는 데 필요한 ‘고가치 구역 정보’에 접근할 수 없었기 때문이라는 거죠.

4. 단일 인터페이스의 필요성: 시맨틱 레이어의 등장!

비즈니스 담당자들은 서로 소통하지 않는 여러 AI 에이전트들을 관리하는 것에 지쳤습니다. 모든 에이전트가 통합된 경험에 기여하는 ‘단일 인터페이스’를 원하죠. 하지만 단순히 UI를 통합하는 것만으로는 부족합니다. 에이전트가 조직의 지식에 접근하고 공유하는 방식에 근본적인 변화가 필요합니다.

저자들은 여기서 명확한 답을 제시합니다. “해답은 더 많은 통합이 아니다. AI 에이전트가 구조화된 데이터에 접근하는 방식을 변화시키는 ‘시맨틱 레이어(Semantic Layer)’이다.”

5. 지식 그래프 기반 시맨틱 레이어: AI의 진정한 두뇌!

지식 그래프 기반 시맨틱 레이어는 기업 AI 데이터 접근에 대한 근본적으로 다른 접근 방식을 제시합니다. 에이전트와 데이터 소스 간에 점대점 통합을 구축하는 대신, 조직 지식을 지배하는 관계, 컨텍스트 및 비즈니스 로직을 이해하는 ‘통합된 시맨틱 인터페이스’를 만드는 것입니다.

이것이 앞에서 설명한 네 가지 데이터 사분면을 어떻게 변화시키는지 살펴봅시다.

  • 핵심 지식 기반 강화: 공개되고 관련성 높은 정보들이 제대로 태그되고 구조화되어, 모든 에이전트가 일관되게 접근할 수 있는 신뢰할 수 있는 기반을 만듭니다.
  • 노이즈 억제: 불필요한 공개 정보가 에이전트 응답을 오염시키거나 환각에 기여하지 않도록 고급 필터링 메커니즘을 적용합니다.
  • 체르노빌 청소: 지능형 데이터 거버넌스가 불필요한 사내 정보를 자동으로 식별하고 격리하여, 메모리 낭비와 편향 증폭을 방지합니다.
  • 고가치 구역 활성화: 자, 이 부분은 별표 세 개! 바로 여기서 마법이 일어납니다. 시맨틱 레이어는 조직 내의 모든 관련 사실을 단일한 자연어 쿼리(natural language query)를 통해 접근 가능하게 만듭니다. 고객 위험 점수, 대화 기록, 포트폴리오 성과 데이터 — 이 모든 것이 의미 있는 관계로 연결되어 에이전트가 직관적으로 탐색할 수 있게 됩니다.

6. 자연어의 돌파구: AI가 진짜 ‘말을 알아듣게’ 하다!

시맨틱 레이어는 단순히 데이터 접근 문제를 해결하는 것을 넘어, 인터페이스 자체를 변화시킵니다. 에이전트가 수십 개의 API와 데이터 형식을 헤매고 다니는 대신, 자연어를 사용하여 조직의 모든 지식에 질문할 수 있게 됩니다.

  • “3분기에 계좌를 개설하고 주택담보대출 신청이 보류 중인 고액 자산 고객의 위험 조정 수익률은 얼마인가요?”
  • “지난 30일 동안 우리 자산 관리팀과 이전에 상호 작용한 고객의 모든 규정 위반 사례를 보여주세요.”
  • “포트폴리오 성과가 하락하고 있으며, 곧 정책 갱신이 다가오는데 관계 관리자가 연락하지 않은 고객은 누구인가요?”

시맨틱 레이어는 시스템 간 데이터 결합, 비즈니스 규칙 적용, 그리고 접근 제어 및 데이터 거버넌스 정책을 준수하는 결과를 반환하는 복잡한 작업을 모두 처리합니다.

7. 벡터 데이터베이스는 훌륭하지만… 병목 현상이 될 수도!

저자들은 덧붙입니다. “젠AI(Generative AI)에 벡터 데이터베이스가 없으면 안 된다.” 하지만 그것이 컨텍스트 엔지니어링의 ‘전체 스택’이 될 수는 없습니다. 벡터 데이터베이스에서 검색한 데이터만 에이전트나 LLM에 공급하는 것만으로는 충분하지 않습니다. 왜냐고요? 그건 기본적으로 RAG(Retrieval Augmented Generation)인데, RAG에는 다음과 같은 문제가 있습니다.

  • 텍스트 외에는 벡터화할 수 없습니다. 관계형 데이터베이스 및 기타 구조화된 기록은 컨텍스트에 매우 중요합니다.
  • RAG는 환각을 일으킬 수 있으며, 이는 규제 대상 비즈니스에는 좋지 않습니다. (저자들은 “RAG is a Fancy, Lying Search Engine”이라는 다른 글도 인용하며 강조합니다.)
  • 모델은 매우 지능적이지만, RAG 데이터 병목 현상은 정확히 청킹(chunking), 벡터화(vectorization) 등의 문제와 ‘구조화된 데이터 사각지대’입니다.

저자들은 “시맨틱 레이어는 관련 데이터를 컨텍스트화하여 에이전트와 사람들이 진정한 컨텍스트를 얻도록 함으로써 이러한 단점을 직접적으로 해결한다”고 말합니다.

8. 모든 사실을 가용하게 만들다: 미래를 위한 길

이 글의 저자들이 제시하는 비전은 야심 차면서도 필수적입니다. “조직 내의 모든 관련 사실을 단일한 자연어 쿼리를 통해 접근 가능하게 만드는 것.” 이건 단순히 또 다른 데이터 웨어하우스나 비즈니스 인텔리전스 도구를 구축하는 것이 아닙니다. 모든 AI 에이전트, 모든 애플리케이션, 모든 사용자에게 힘을 실어줄 기업 데이터에 대한 ‘시맨틱 이해’를 창출하는 것이죠.

에이전트가 완전한 고객 컨텍스트에 즉시 접근할 수 있다면, 위험 평가는 더욱 정확해집니다. 시장 데이터와 내부 성과 지표를 실시간으로 연관시킬 수 있다면, 전략적 결정은 더욱 정보에 기반하게 됩니다. 규제 요구 사항을 운영 절차와 특정 거래까지 추적할 수 있다면, 규정 준수는 반응적이기보다 ‘사전 예방적’이 됩니다.


마무리하며:

여러분, 오늘 Stardog의 블로그 포스트를 통해 우리는 기업 AI 도입의 성공과 실패를 가르는 진짜 요인이 무엇인지 명확하게 깨달았습니다. 더 크고 좋은 LLM 모델을 쫓는 것이 아니라, 우리 기업의 핵심 자산인 ‘데이터’를 AI가 제대로 이해하고 접근할 수 있도록 ‘시맨틱 레이어’라는 견고한 기반을 구축하는 것이 중요하다는 점을 말입니다.

저자들은 결국 “내일의 기업 AI 에이전트는 더 큰 언어 모델에 의해서만 구동되는 것이 아니라, 일반적인 AI 능력과 특정 비즈니스 지식 사이의 간극을 메우는 시맨틱 레이어에 의해 구동될 것”이라고 강조합니다. 여러분의 현재 AI 접근 방식이 만족스럽지 않다면, 에이전트가 실패하고 IT팀이 통합의 복잡성에 허덕이며, 비즈니스 이해 관계자들이 AI의 잠재력에 대한 신뢰를 잃고 있다면, 바로 이 ‘시맨틱 레이어’에 투자할 때입니다.

결국, 기업 AI 배포 경쟁에서 승자는 “가장 정교한 모델을 가진 기업이 아니라, 데이터 접근 문제를 가장 먼저 해결하는 기업”이 될 것이라는 저자들의 강력한 메시지를 기억하십시오. 왜냐하면 LLM이 여러분의 비즈니스에 대해 모르는 것, 바로 그것이 AI 에이전트가 진정으로 유용해지기 위해 알아야 할 것이기 때문입니다.

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*