My AI Smarteasy 사용자 정의 코파일럿 에이전트 – 일타강사 저스틴 – AI는 왜 거짓말을 할까? “환각 현상”의 비밀을 파헤치다!

why-language-models-hallucinate.pdf

자, 반갑습니다, 여러분! 대한민국 최고의 명쾌한 강의, 일타 강사 저스틴입니다. 오늘 강의실 열기가 아주 뜨거운데, 그만큼 여러분의 학구열이 불타오르고 있다는 증거겠죠? 좋습니다!

오늘 우리가 함께 파헤쳐 볼 주제는 바로 인공지능, 특히 대규모 언어 모델(LLM)에 관한 아주 중요한 논문입니다. 바로 Adam Tauman Kalai와 그의 동료들이 2025년 9월 4일에 발표한 “Why Language Models Hallucinate(왜 언어 모델은 환각을 일으키는가?)” 라는 제목의 연구 자료를 기반으로 강의를 진행하겠습니다. 챗GPT 같은 AI가 왜 그럴싸한 거짓말을 하는지, 그 근본적인 원인을 속 시원하게 긁어드리겠습니다. 다들 필기구 준비됐죠? 그럼 힘차게 시작해봅시다!


여러분, AI한테 질문했는데 뭔가 이상한 답변을 받아본 적 있나요? 예를 들어, “아담 칼라이의 생일이 언제야?”라고 물었더니, 어떤 AI는 “3월 7일”, 다른 AI는 “6월 15일”이라고 대답합니다. 심지어 정답은 가을인데도 말이죠. [표 1] 더 황당한 건, “DEEPSEEK이라는 단어에 D가 몇 개야?”라고 물었더니 “2개” 또는 “3개”, 심지어 “7개”라는 답변까지 나왔다는 겁니다.

이런 현상을 우리는 **’환각(Hallucination)’**이라고 부릅니다. AI가 마치 환각을 보는 것처럼 그럴싸하지만 사실이 아닌 정보를 자신감 있게 내뱉는 거죠. 이 논문의 저자들은 이 환각 현상이 무슨 신비로운 현상이 아니라고 딱 잘라 말합니다. 자, 그럼 그 원인이 뭘까요?

자, 이 부분은 별표 세 개! 저자들이 주장하는 핵심은 이겁니다. “AI가 환각을 일으키는 이유는, 현재의 훈련 및 평가 방식이 불확실함을 인정하는 것보다 추측하는 것에 더 큰 보상을 주기 때문이다!”

마치 어려운 시험 문제를 푸는 학생과 같아요. 모르는 문제가 나왔을 때 “모르겠습니다”라고 쓰는 것보다, 뭐라도 그럴싸하게 추측해서 쓰는 게 한 문제라도 더 맞힐 확률이 높다면 당연히 추측을 하겠죠? 지금의 AI가 딱 그 짝이라는 겁니다.

1부: 환각의 탄생 – 사전 훈련(Pretraining)의 비밀

AI 모델이 똑똑해지기 위해 가장 먼저 하는 게 바로 ‘사전 훈련’입니다. 인터넷에 있는 방대한 텍스트 데이터를 먹으면서 언어의 패턴을 배우는 단계죠. 그런데 이 논문의 저자들은 놀라운 이야기를 합니다. 훈련 데이터가 100% 완벽하고 오류가 하나도 없어도, AI는 오류를 만들어낼 수밖에 없다는 겁니다. [1.1]

왜 그럴까요? 저자들은 아주 기발한 비유를 합니다. 바로 ‘Is-It-Valid(이거-유효해?)’라는 이진 분류 문제로 설명하죠. [1.1]

자, 쉽게 설명해 드릴게요. “안녕하세요”라는 올바른 문장을 ‘생성’하는 것과, “안녕하새요”라는 문장을 보여주고 “이거 맞아, 틀려?”라고 ‘판단’하는 것 중 어느 게 더 쉬울까요? 당연히 판단하는 게 훨씬 쉽죠.

저자들은 언어 모델의 생성 오류율이 이 ‘맞아, 틀려?’를 판단하는 이진 분류의 오류율보다 최소 2배 이상 높다고 수학적으로 증명합니다. [정리 1] 자, 여기 밑줄 쫙! 이게 이 논문의 핵심적인 발견 중 하나입니다! 즉, AI가 올바른 문장과 이상한 문장을 완벽하게 구분하지 못하는 한, 필연적으로 이상한 문장을 만들어낼 수밖에 없다는 뜻입니다.

그렇다면 AI는 왜 이런 기본적인 판단조차 어려워할까요? 저자들은 몇 가지 원인을 짚어줍니다.

  1. 패턴 없는 임의의 사실들 (Arbitrary Facts): 세상에는 특별한 패턴 없이 그냥 외워야 하는 사실들이 너무 많습니다. [3.3.1] 예를 들어 유명인들의 생일 같은 거죠. 훈련 데이터에 딱 한 번 등장한 사실(논문에서는 이걸 ‘싱글톤’이라고 불러요)은 AI 입장에서 이게 진짜 정보인지, 아니면 그냥 한번 스쳐 지나간 노이즈인지 알 길이 없습니다. 그래서 추측을 하게 되고, 환각이 발생하는 거죠. [정리 2]
  2. 부적절한 모델 (Poor Models): AI 모델의 구조 자체가 특정 과제를 수행하기에 적합하지 않을 때도 있습니다. [3.3.2] 마치 동그라미를 그려야 하는데 자(ruler)만 가지고 있는 상황과 같아요. 앞서 말한 “DEEPSEEK”의 철자 개수를 세는 문제에서 최신 모델이 계속 틀렸던 이유도, 모델이 단어를 글자 단위가 아닌 ‘토큰(token)’이라는 덩어리(예: D/EEP/SEE/K)로 인식하기 때문일 수 있다는 겁니다. [3.3.2]
  3. 기타 요인들 (Additional Factors): 그 외에도 “쓰레기가 들어가면 쓰레기가 나온다(GIGO)”는 말처럼, 훈련 데이터 자체에 오류나 거짓 정보가 섞여 있으면 AI가 그대로 배울 수 있고요. [3.4] 또, 너무 생소하거나 이상한 질문(분포 변화)을 받으면 당황해서 오류를 내뱉기도 합니다. [3.4]

2부: 환각의 지속 – 후처리(Post-training)의 역설

자, 그러면 사전 훈련에서 생긴 문제들을 ‘후처리’ 단계에서 고치면 되지 않을까요? 인간이 피드백을 주면서 모델을 미세조정하는 이 단계에서 환각을 줄이려는 노력이 많이 이루어집니다. 하지만 저자들은 이것이 **”오르막길 싸움”**이라고 말합니다. 왜냐고요?

자, 다시 한번 별표 세 개! 바로 AI 업계의 평가 방식과 리더보드(순위 경쟁) 자체가 환각을 부추기고 있기 때문입니다. [4, 4.1]

대부분의 AI 성능 평가는 이진 채점(Binary Grading), 즉 ‘정답’ 아니면 ‘오답’으로만 점수를 매깁니다. [표 2] AI가 “죄송하지만 그 정보는 확실하지 않습니다” 또는 “모르겠습니다”라고 대답하면 그냥 ‘0점’ 처리해버리는 거죠.

다시 시험 보는 학생의 비유로 돌아가 봅시다. 정답이면 1점, 오답이나 빈칸은 0점. 이런 시험에서는 모르는 문제라도 무조건 찍는 게 이득이죠? AI도 마찬가지입니다. 현재의 평가 시스템은 AI를 “겸손하고 정직한 전문가”가 아니라 **”어떻게든 점수만 잘 따는 수험생”**으로 만들고 있는 셈입니다. [4.1] 그래서 불확실한 상황에서도 자신감 있게 추측(환각)을 내뱉는 모델이 리더보드에서 더 높은 순위를 차지하는 역설이 발생하는 겁니다.

그렇다면 이 문제를 어떻게 해결해야 할까요? 저자들은 아주 현실적인 제안을 합니다.

“새로운 환각 평가 지표를 만드는 것만으로는 부족하다. 지금 널리 쓰이는 주요 벤치마크들의 채점 방식을 바꿔야 한다!” [4.2]

예를 들면, 오답에 감점을 주거나, “모르겠습니다”라고 솔직하게 답했을 때 부분 점수를 주는 식으로 바꾸자는 겁니다. [4.2] 마치 우리가 학교 시험에서 “틀린 답은 감점 처리됩니다”라는 안내를 받는 것처럼, AI에게도 “확실할 때만 답하라”는 명확한 신호를 주자는 거죠.


강의 마무리: 저스틴의 총정리

자, 오늘 정말 중요한 내용을 배웠습니다. 한번 정리해볼까요?

이 논문의 저자들은 AI의 환각 현상이 신비로운 문제가 아니라, 통계적 압력과 잘못된 보상 시스템의 결과라고 명쾌하게 설명합니다.

  1. 환각의 탄생: 사전 훈련 단계에서, 언어의 패턴을 배우는 과정 자체가 ‘판단 오류’를 낳고, 이 판단 오류가 필연적으로 ‘생성 오류(환각)’로 이어진다.
  2. 환각의 지속: 후처리 단계에서는 AI의 성능을 평가하는 방식이 문제다. ‘모름’을 인정하면 0점, ‘추측’해서 맞으면 1점을 주는 현재의 시스템이 AI를 정직함 대신 도박을 선택하도록 내몰고 있다.

결국 저자들의 최종 메시지는 이것입니다. 더 신뢰할 수 있는 AI를 만들고 싶다면, AI 모델 자체만 붙들고 씨름할 게 아니라, AI를 평가하고 경쟁시키는 우리 사회와 기술 커뮤니티의 “게임의 룰” 자체를 바꿔야 한다는 것입니다.

정말 깊은 통찰을 주는 논문이었습니다. 여러분도 이제 AI가 왜 가끔 엉뚱한 소리를 하는지 친구들에게 멋지게 설명해줄 수 있겠죠?

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*