자, 학생 여러분! 대한민국 최고의 일타 강사, 저스틴입니다! 반갑습니다.

오늘 아주 뜨끈뜨끈하고 충격적인 주제를 가져왔습니다. 바로 AI가 미래를 예측한다는 건데요. “에이, 선생님. 또 무슨 공상 과학 영화 같은 소리세요?” 싶죠? 아닙니다. 이건 진짜입니다.

오늘 강의는 ‘Discover AI’라는 유튜브 채널에서 다룬 애플의 최신 AI 연구 논문 스크립트를 기반으로 합니다. 이 유튜버가 아주 흥분해서 설명하는데, 그럴 만한 이유가 있습니다. 여러분의 노트북, PC를 바꾸지 않고도 AI 속도를 5배나 올릴 수 있는 기술이거든요.

자, 정신 바짝 차리고! 지금부터 LLM이 어떻게 미래를 보게 됐는지, 그 비밀을 제가 머리에 쏙쏙 박히게 씹어 먹여 드리겠습니다. 출발하죠!

🚀 [저스틴의 1타 강의] LLM, 미래를 보다! 애플의 충격적인 멀티 토큰 예측 기술

1. 현재 LLM의 답답한 현실: 한 글자씩 쓰는 소설가

자, 먼저 지금 우리가 쓰는 챗GPT 같은 LLM이 어떻게 작동하는지 알아야 합니다. 얘네들은 기본적으로 ‘다음 단어 예측(Next Token Prediction)’ 모델이에요. “나는 오늘 학교에…”라고 쓰면 그 다음에 올 단어 ‘간다’를 예측하는 식이죠. 한 단어 예측하고, 그걸 다시 입력해서 다음 단어 예측하고… 이걸 계속 반복합니다.

이게 바로 자기회귀(auto-regressive) 방식인데, 이 유튜버의 말을 빌리자면, 토큰을 하나씩 생성하기 때문에 본질적으로 느릴 수밖에 없어요. 마치 소설가가 한 글자 쓰고 고민하고, 또 한 글자 쓰고 고민하는 것과 같아요. 답답하죠?

2. 애플의 혁명적 발견: “사실 LLM은 이미 미래를 알고 있다!”

자, 그런데 여기서 애플 소속 연구팀이 완전 세상을 뒤집을 만한 주장을 합니다.

“기존 LLM의 머릿속을 들여다보니, 사실 다음 단어뿐만 아니라 그 뒤에 올 여러 단어들에 대한 정보까지 이미 다 가지고 있더라!”

자, 이 부분 별표 세 개! ★★★ 이게 오늘 강의의 모든 것을 관통하는 핵심입니다. LLM은 이미 미래를 알고 있었다는 거죠. 단지 우리가 그 잠재력을 꺼내 쓸 방법을 몰랐을 뿐!

이 유튜버가 소개한 애플의 실험이 아주 간단하고 재밌습니다. LLM에게 “2 + 2 = ?” 라는 질문을 던져놓고, 그 뒤에 빈칸 토큰(placeholder)을 여러 개 붙여줬어요. 그리고 모델의 머릿속, 즉 **은닉 상태(hidden state)**를 들여다봤죠.

결과가 어땠을까요? 첫 번째 빈칸에서는 ‘2’라는 단어의 확률이 높았고, 두 번째에서는 ‘+’, 세 번째에서는 ‘2’, 네 번째에서는 ‘=’ … 이런 식으로 “2 + 2 = 4″라는 정답 시퀀스 전체가 이미 상위 200위 예측 안에 전부 들어있었다는 겁니다! 소름 돋죠?

이제 남은 과제는 하나입니다. 상위 200위 안에 흩어져 있는 이 미래의 조각들을 어떻게 1위로 끌어올려서 한 번에 쫙! 뽑아낼 것이냐.

3. 미래를 여는 5가지 마법 도구

애플은 이 문제를 해결하기 위해 5가지 기가 막힌 아이디어를 제시합니다. 이 유튜버는 이걸 보고 거의 예술의 경지라고 표현하는데, 하나씩 뜯어봅시다. 어렵지 않아요.

1) 마스크 정보 공식 (Mask Information Formulation)

쉽게 말해 ‘빈칸 채우기’ 훈련법입니다. 문장 끝에 [MASK]라는 특수 토큰을 여러 개(K개) 붙여서 모델에게 “자, 이 빈칸들을 한 번에 예측해봐!”라고 시키는 거죠. 기존의 다음 ‘한’ 단어 예측을 NTP(Next Token Prediction), 마스크를 이용한 ‘여러’ 단어 예측을 **MTP(Multi-Token Prediction)**라고 부릅니다.

2) 샘플러 헤드 (Sampler Head)

MTP 토큰들, 즉 여러 개의 빈칸을 똑똑하게 채우기 위한 **’전담 조교’**를 하나 추가하는 겁니다. 이 유튜버는 이게 간단한 2계층 MLP(다층 퍼셉트론) 블록이라고 설명해요. 이 조교는 그냥 각 빈칸을 따로따로 채우는 게 아니라, 바로 앞에서 채운 답을 참고해서 다음 빈칸을 채워 나갑니다. 이렇게 하면 문맥에 맞는 자연스러운 문장이 만들어지겠죠?

3) 게이티드 LoRA (Gated LoRA)

자, 이건 진짜 미쳤습니다. 별표 다섯 개! ★★★★★ 이게 기술의 핵심이에요.
LoRA는 기존 모델의 뇌(가중치)는 그대로 얼려두고(frozen), 아주 작은 부분만 추가해서 파인튜닝하는 기법입니다. 그러면 원래 모델이 가진 지식을 잃어버리는 **’치명적 망각(Catastrophic Forgetting)’**을 막을 수 있죠.
애플은 여기서 한 발 더 나아가 ‘게이티드(Gated)’, 즉 ‘문을 단’ LoRA를 씁니다. 이 문은 MTP 토큰, 즉 우리가 새로 예측하려는 미래 토큰들이 지나갈 때만 열려요. 원래 하던 NTP(한 단어 예측) 작업에는 이 LoRA가 전혀 영향을 주지 않는 거죠.
이 유튜버가 강조하듯이, 이건 기존 모델의 성능은 조금도 해치지 않으면서, 새로운 능력(미래 예측)만 쏙 추가하는 정말 영리한 방법입니다.

4) 이차 추측 디코딩 (Quadratic Speculative Decoding)

한 번에 여러 단어를 예측했으면, 이게 정말 원래 모델이 한 단어씩 예측했을 때와 같은 결과인지 **’검산’**을 해봐야겠죠?
단순한 방법은 예측한 단어들을 순서대로 하나씩 검사하다가 하나라도 틀리면 그 뒤에 있는 예측을 전부 버리는 겁니다(선형 디코딩). 너무 비효율적이죠.
애플이 제안한 ‘이차 디코딩’은 훨씬 견고합니다. 이 유튜버의 설명에 따르면, 검산 과정에서 중간에 하나가 틀리더라도 전체 시퀀스를 버리지 않고, 그 지점부터 다시 새로운 예측을 생성하도록 설계됐어요. 덕분에 예측의 정확성과 일관성이 훨씬 높아집니다.

5) 잠재 일관성 손실 (Latent Consistency Loss)

이것도 이름만 어렵지 개념은 간단합니다. ‘정답 보고 베끼기’ 훈련법이에요.
목표: 우리가 한 방에 예측한 MTP 토큰의 은닉 상태(모델의 생각)를, 원래 모델이 한 땀 한 땀 만들어낸 정답 NTP 토큰의 은닉 상태와 최대한 비슷하게 만드는 겁니다.
어떻게? 그냥 두 은닉 상태 값의 **차이(difference)**를 계산해서, 그 차이가 최소화되도록 모델을 훈련시키는 거예요. 이 유튜버는 이걸 ‘자기 증류(self-distillation)’의 한 형태로 비유하는데, 스스로에게 과외를 시켜서 MTP 경로가 원래의 NTP 경로를 완벽하게 모방하도록 가르치는 거죠. 정말 우아한 해결책입니다.

4. 결과: 속도는 5배, 품질은 그대로!

자, 그래서 결과가 어땠을까요? 이 유튜버가 보여주는 자료에 따르면, 애플은 Llama 3 모델을 가지고 이 방법론을 테스트했습니다.

엄청난 속도 향상: 코딩 작업에서는 최대 5.35배, 지식 생성에서는 2.5배의 속도 향상을 보였습니다!
놀라운 효율성: 자, 여기서 또 놀랍니다. 이 유튜버가 특히 감탄하는 부분인데요. LoRA 랭크(모델을 얼마나 미세하게 조정할지 정하는 값)를 분석해보니, 랭크를 아주 낮게(예: 2 또는 4) 설정해도 성능이 거의 최대치에 도달했습니다. 랭크가 낮다는 건 추가되는 파라미터가 적다는 뜻이고, 이는 메모리 사용량 증가가 1% 미만이라는 놀라운 결과로 이어집니다!
완벽한 품질 보존: 속도를 얻는 대신 품질을 잃으면 아무 소용 없겠죠? 하지만 걱정 마세요. 위에서 설명한 ‘게이티드 LoRA’ 덕분에, 파인튜닝 과정이 기존의 NTP 토큰에는 아무런 영향을 주지 않습니다. 유튜버가 보여주는 손실 그래프를 보면, 기존 LoRA 방식은 원래 작업의 성능이 저하되는(손실이 증가하는) 반면, 애플의 방식은 손실 그래프가 완벽한 수평선을 그립니다. 성능 저하가 전혀 없다는 뜻이죠!