스마티지와 글 읽기 – Reasoning in Continuous Latent Space: COCONUT & Recurrent Depth Approaches

https://www.youtube.com/watch?v=BaTjJJsz0rY

안녕하세요, 여러분! 저는 일타 강사 저스틴입니다. 오늘은 AI의 최신 기술 트렌드 중 하나인 **”Reasoning in Continuous Latent Space: COCONUT & Recurrent Depth Approaches”**에 대해 함께 탐구해보겠습니다. 이 강의는 유튜브 채널 ‘AI Makerspace’에서 2025년 2월 20일에 실시간 스트리밍된 영상을 바탕으로 구성되었습니다. 대형 언어 모델(LLM)의 추론 능력을 확장하는 두 가지 혁신적인 방법, COCONUT(Continuous Chain of Thought)와 Recurrent Depth 접근법을 중심으로, 여러분이 이 개념을 쉽게 이해하고 최신 연구 동향을 파악할 수 있도록 안내드리겠습니다. 자, 그럼 시작해볼까요?


강의 시작 – Latent Space에서의 추론이란? (0:00 – 4:04)

여러분, 오늘 주제는 **Latent Space에서의 추론(Reasoning in Latent Space)**입니다. AI Makerspace 영상에서 호스트들은 이를 ‘Test-Time Compute’와 연결 지으며, 대형 언어 모델(LLM)의 추론 능력을 확장하는 두 가지 중요한 아이디어를 소개합니다. 바로 **COCONUT (Continuous Chain of Thought)**와 Recurrent Depth 접근법입니다. 이 두 방법은 모두 추론(inference) 과정에서 모델의 성능을 높이기 위해 Latent Space를 활용하는 방식으로, 언어 모델이 단어(토큰)로 바로 변환하지 않고, 수학적이고 계산적인 공간에서 더 깊이 사고하는 것을 목표로 한다고 하죠.

영상에서는 Latent Space를 ‘생각하는 공간’으로 비유하며, 우리가 단어로 사고를 표현하지 않아도 되는 것처럼, 모델도 토큰 공간(Token Space)으로 바로 돌아가지 않고 Transformer의 ‘Mind Palace’에서 더 오래 머물며 추론할 수 있다고 설명합니다. 이를 통해 새로운 확장 축(Scaling Axis)을 발견할 가능성이 있다고 하니, 정말 흥미롭지 않나요? 자, 오늘 강의에서는 이 개념을 깊이 파헤치고, 두 접근법을 구체적으로 살펴보며, 데모까지 확인해보겠습니다.


Latent Space와 추론의 정의 (4:04 – 8:10)

먼저, 기본 개념부터 정리해보죠. 영상에서 ‘Reasoning(추론)’은 논리적인 방식으로 무언가를 생각하는 행위로 정의됩니다. 한편, ‘Latent Space’는 데이터의 본질적 특징을 포착한 표현 공간으로, 임베딩 공간(Embedding Space)이나 수학적 계산 공간으로 생각할 수 있다고 하죠. 이는 자연어(단어) 공간이 아니라 숫자와 계산의 공간입니다.

Transformer 아키텍처를 예로 들어 설명하면, 입력 시퀀스가 자연어 공간에서 들어가고, 출력으로 다음 토큰이 자연어로 나오지만, 그 사이의 과정은 Latent Space에서 이루어진다고 합니다. 영상에서는 이를 ‘압축(Compression)’ 과정으로 비유하며, LLM이 수많은 가능성 공간을 하나의 토큰으로 압축해내는 거대한 알고리즘이라고 하죠. 흥미롭게도, 모델 자체는 토큰이 필요하지 않으며, 우리가 토큰을 필요로 한다는 점을 강조합니다. 그래서 ‘Tokenless Reasoning(토큰 없는 추론)’이라는 개념이 등장한다고 하네요. 이 아이디어는 Latent Space에서 추론을 수행함으로써 확장성을 높일 수 있다는 가설로 이어진다고 합니다.


Tokenless Scaling의 직관적 이해 (8:10 – 12:11)

이제 ‘Tokenless Scaling(토큰 없는 확장)’의 직관을 알아보죠. 영상에서는 Tokenless라는 용어를 통해, 토큰으로 바로 변환하지 않고 Latent Space에서 계속 반복(looping)하며 사고를 깊이 할 수 있다는 점을 설명합니다. 이는 추론 과정에서 더 많은 정보를 추가하며 더 나은 응답을 얻을 수 있는 방식이라고 하죠. 예를 들어, 5개의 토큰을 생성하는 것과 7만 개의 토큰을 생성하는 것의 차이처럼, 추론 단계에서 더 많은 계산을 추가하는 것이 확장 축이 될 수 있다고 합니다.

호스트들은 이를 인간의 사고 과정에 비유하며, 우리가 어려운 문제를 풀 때 단어로 완전히 생각을 표현하지 않고 머릿속에서 가능성 공간을 탐색하는 것과 비슷하다고 하죠. 즉, Latent Space에서 추론을 하면 토큰 공간으로 변환하는 부담 없이 더 풍부한 사고를 할 수 있다는 직관을 제시합니다. 영상에서 한 호스트는 “아이디어를 이해했지만 단어로 표현하기 어려울 때”의 경험을 언급하며, 모델도 토큰으로 변환하기 전에 Latent Space에서 더 깊이 이해할 수 있다고 설명하니, 이 비유가 꽤 설득력 있지 않나요?


Test-Time Compute와 확장의 역사 (12:11 – 15:49)

다음으로, 영상은 Test-Time Compute(테스트 시간 계산) 개념과 확장의 역사에 대해 다룹니다. Test-Time Compute는 추론 과정에서 더 많은 시간을 들여 사고하는 것을 의미한다고 하죠. 이는 인간이 어려운 문제에 더 오래 생각하는 것처럼, 기계도 더 오래 생각하도록 하는 아이디어라고 합니다.

확장의 역사를 보면, 초기 다층 퍼셉트론(MLP)에서부터 딥러닝으로 이어지며 더 큰 모델을 학습시킬수록 더 나은 결과를 얻었다고 하죠. Anthropic의 CEO 다리오 아모데이(Dario Amodei)의 발언을 인용하며, 현재도 이 원칙이 유효하다고 합니다. 영상은 Pre-Training(사전 학습), Post-Training(사후 학습), 그리고 Test-Time Compute 단계로 확장의 발전 과정을 구분합니다. 특히, Google의 2023년 8월 논문 ‘Scaling Test-Time Compute’를 언급하며, 추론 시간에 더 많은 계산을 투입하는 것이 새로운 확장 축이라고 설명하니, 이 점이 오늘 주제와 밀접하게 연결되는군요.


최신 Test-Time Compute 방법의 발전 (15:49 – 19:33)

영상은 최근 몇 주와 몇 달 동안 등장한 Test-Time Compute의 발전 사례를 소개합니다. DeepSeek-R1 같은 모델은 답변 전에 생각하는 시간을 갖는다고 하죠. DeepSeek-V1은 한 번에 하나의 토큰을 생성하며, 더 많은 시간을 처리에 할애하고, Chain of Thought(사고의 연쇄)를 설명하는 ‘Thinking Tokens’를 생성한다고 합니다. 이는 추론 과정을 설명 가능하게 만드는 멋진 발전이라고 하네요.

호스트들은 Test-Time Compute와 Reasoning이 엄밀히 동일한 것은 아니지만, 2025년 현재의 맥락에서는 거의 같은 의미로 사용된다고 하죠. 현재 LLM은 ‘System 1(직관적)’ 기계로, 즉각적인 반응에 강하지만, 추론 도메인으로 확장하려면 Test-Time Compute 같은 방법이 필요하다고 합니다. 에이전트(Agent) 역시 Test-Time Compute의 한 예로, 더 많은 계산을 활용해 더 멋진 일을 할 수 있다고 하니, 이 점이 기술의 현재와 미래를 이해하는 데 중요한 포인트입니다.


Latent Space 추론의 적절한 시기 (19:33 – 23:58)

이제 왜 지금이 Latent Space 추론을 탐구하기에 적절한 시기인지 알아보죠. 영상에서 호스트들은 딥러닝의 역사와 비교하며, MLP 발견 당시에는 추가 깊이(Depth)가 실용적이지 않았지만, 현재는 하드웨어와 상황이 이를 가능하게 한다고 하죠. 특히, 사전 학습(Pre-Training)이 데이터 부족으로 정체되고 있다는 Ilia Sutskever의 말을 인용하며, 다음 단계로 추론(Inference)에 더 많은 시간을 투자하는 것이 자연스러운 선택이라고 합니다.

추론 속도가 빨라진 현재, 하루나 몇 시간 내에 결과를 얻는 것이 가능해졌다고 하죠. 이는 Nvidia, Grok, 그리고 기타 가속기 회사들의 기술 발전 덕분이라고 합니다. 또한, 연구나 박사 수준의 수학 문제처럼 응답 지연이 중요하지 않은 애플리케이션에서는 이 접근법이 특히 유용하다고 하니, Latent Space 추론이 현재 기술 생태계에서 적절한 시점에 등장한 혁신임을 알 수 있습니다.


COCONUT: Continuous Chain of Thought (23:58 – 27:17)

이제 구체적인 접근법으로 들어가, 먼저 **COCONUT(Continuous Chain of Thought)**을 살펴보죠. 영상은 COCONUT을 Latent Space에서 추론을 수행하는 방법으로 소개하며, 언어 공간(Language Space)이 항상 추론에 최적은 아니라고 논문에서 언급한다고 하죠. COCONUT은 LLM의 마지막 숨겨진 상태(Last Hidden State)를 추론 상태(Reasoning State)로 활용한다고 합니다.

일반적인 Chain of Thought 모델에서는 질문을 던지고 토큰을 생성하며 ‘소리 내어 생각’하는 과정을 거친다고 하죠. 반면, COCONUT은 마지막 숨겨진 상태를 입력 임베딩으로 사용해, 토큰을 생성하기 전에 Latent Space에서 계속 반복하며 사고한다고 합니다. 이는 토큰으로의 압축(Compression)을 피하고, 더 깊은 추론을 가능하게 한다고 하니, 정말 혁신적인 접근법이군요.


Recurrent Depth: Latent Space에서의 반복적 깊이 (27:17 – 35:49)

다음으로, Recurrent Depth 접근법을 알아보죠. 영상은 이 논문이 2025년 2월에 발표된 최신 연구로, 역시 Latent Space에서 추론을 수행하며 반복적 깊이(Recurrent Depth)를 통해 확장성을 높인다고 소개합니다. 논문의 핵심 인사이트는 ‘비싼 내부 추론을 항상 하나의 언어화된 토큰으로 투영하는 것은 낭비’라는 점이라고 하죠. 모델이 연속적인 Latent Space에서 원래 언어로 생각할 수 있다면 더 유능해질 것이라는 가설을 제시한다고 합니다.

Recurrent Depth는 Prelude, Recurrent Block, Coda라는 세 가지 블록으로 구성된 Transformer 아키텍처를 제안한다고 하네요. Prelude는 입력을 Latent Space로 임베딩하고, Recurrent Block은 반복적으로 최종 Latent 상태를 계산하며, Coda는 이를 다시 토큰으로 디코딩한다고 합니다. 이 접근법은 Recurrent Block의 수를 동적으로 조정해 추론 시간을 확장할 수 있다고 하니, COCONUT과 유사하지만 아키텍처적 변화에 더 중점을 둔 접근법임을 알 수 있습니다.


COCONUT과 Recurrent Depth의 비교 (35:49 – 39:37)

이제 두 접근법을 비교해보죠. 영상에서 호스트들은 Recurrent Depth가 COCONUT보다 ‘더 나은’ 것은 아니며, 서로 다른 접근 방식을 취한다고 설명합니다. Recurrent Depth는 모델 아키텍처 자체를 변경해 추론을 내재화하도록 학습시키는 반면, COCONUT은 기존 아키텍처에 추가하여 추론 기능을 강화한다고 하죠. Recurrent Depth는 ‘Budget Forcing’으로 설계되어 필요에 따라 확장 가능하지만, COCONUT은 모델 내부에서 Chain of Thought를 구현하는 방식이라고 합니다. 두 접근법 모두 Latent Space 추론을 꽃피우는 시점에 있다고 하니, 앞으로의 발전이 기대됩니다.


데모: COCONUT과 Recurrent Depth 구현 (39:37 – 52:08)

이제 영상에서 보여준 데모를 통해 두 접근법의 실제 작동 방식을 알아보죠. 호스트들은 COCONUT의 공식 구현과 Recurrent Depth 모델을 살펴보며, Recurrent Depth의 가중치가 공개되어 이를 중심으로 데모를 진행한다고 합니다. COCONUT은 Latent Space에서 반복적으로 사고하며, 토큰 세계로 나가기 전까지 ‘Thinking Steps’를 설정해 사고를 깊이 한다고 하죠. 학습 과정에서는 ‘Beginning of Thinking’과 ‘End of Thinking’ 토큰을 사용해 점차 추론 단계를 Latent Space로 숨기는 방식으로 모델을 훈련시켰다고 합니다.

Recurrent Depth 데모에서는 Hugging Face 모델을 사용해 GSM 8K 수학 문제를 테스트한다고 하죠. Recurrent Block 수를 4, 8, 16으로 늘리며 결과를 비교하는데, 4개일 때는 잘못된 답(96)을, 8개와 16개일 때는 올바른 답(72)을 얻었다고 합니다. 다른 문제에서도 4개일 때는 쓰레기 답변, 8개일 때는 부정확한 답변, 16개일 때는 정확한 답변과 단계별 사고 패턴이 나타났다고 하니, Block 수를 늘릴수록 더 깊은 추론이 가능하다는 점이 인상적입니다. 영상은 이를 통해 질문의 난이도에 따라 Block 수를 동적으로 조정할 수 있는 가능성을 시사한다고 하죠.


Q&A와 주요 논의 (52:08 – 1:01:21)

마지막으로, 영상에서 진행된 Q&A 세션을 통해 몇 가지 중요한 논의를 정리해보죠. 첫째, Latent Space에서 추론 후 언어로 표현할 때 결과가 왜곡될 가능성이 있느냐는 질문에, 호스트들은 전략에 따라 다르지만 토큰 세계로 돌아가는 것이 가능하다고 답변합니다. 둘째, ‘Stochastic Parrots(확률적 앵무새)’ 문제를 해결하느냐는 질문에는, 이 기술이 근본적 문제를 해결하지는 않는다고 하죠. 셋째, Recurrent Depth에서 위치 인코딩(Positional Encoding)을 제거하는 실험이 있었는지에 대해, 아직 없지만 언어의 순서를 고려해야 하므로 필요할 것이라는 의견을 제시합니다.

넷째, 다른 임베딩 방식이 Recurrent Depth에 미치는 영향에 대한 연구는 아직 초기 단계이지만, 분명히 영향을 미칠 것이라고 하죠. 마지막으로, Latent Space에서의 추론이 투명성을 위해 일부 추론 과정을 추출할 수 있는지에 대해, 가능하지만 추가 계산 부담이 있을 수 있다고 하니, 이 점도 주목할 만합니다.


마무리 – Latent Space 추론의 미래 (1:01:21 – 끝)

여러분, 오늘 AI Makerspace 영상을 바탕으로 Latent Space에서의 추론, 특히 COCONUT과 Recurrent Depth 접근법을 함께 알아봤습니다. 토큰을 직접 사용하지 않고 Latent Space에서 추론을 수행하는 이 방법들은 압축을 줄이고, 잠재적으로 더 적은 토큰으로 더 나은 응답을 더 빠르게 얻을 가능성을 보여준다고 하죠. 이는 2025년 실제 제품과 산업에 큰 영향을 미칠 수 있는 기술이라고 하니, 정말 흥미롭지 않나요?

꼭 알아야 할 점! 영상은 Tokenless 접근법이 확장성을 높일 수 있는 새로운 축을 제시한다고 강조합니다. 앞으로의 LRM(Large Reasoning Models) 이벤트에서 더 많은 세부 사항을 다룰 예정이라고 하니, 이 분야에 관심 있는 분들은 계속 주목해보세요. 오늘 강의는 여기서 마무리할게요. 다음 강의에서 더 최신 AI 기술로 찾아뵙겠습니다. 저스틴이었습니다. 안녕!

저스틴) 이 기법을 프롬프트로 적용하는 방법을 제안해주세요.

Latent Space 추론 기법을 프롬프트로 적용하는 방법 제안

안녕하세요, 여러분! 저는 일타 강사 저스틴입니다. 오늘은 AI Makerspace 영상에서 다룬 Latent Space에서의 추론 기법(Reasoning in Continuous Latent Space), 특히 COCONUT(Continuous Chain of Thought)과 Recurrent Depth 접근법을 프롬프트에 적용하는 방법을 제안드리겠습니다. 이 기법들은 대형 언어 모델(LLM)이 토큰으로 바로 변환하지 않고 Latent Space에서 더 깊은 추론을 수행하도록 하는 혁신적인 접근법입니다. 이를 프롬프트 설계에 반영하여 모델의 추론 능력을 극대화하는 방법을 단계별로 안내하겠습니다.


1. 프롬프트 설계의 기본 원칙 이해

Latent Space 추론 기법의 핵심은 모델이 자연어 토큰으로 바로 응답하지 않고, 내부적으로 더 많은 계산과 사고를 수행하도록 유도하는 것입니다. 영상에서 설명된 것처럼, 이는 모델이 ‘Mind Palace’에서 더 오래 머물며 압축(Compression)을 피하고 깊은 추론을 할 수 있게 합니다. 프롬프트에서는 모델이 단계적 사고를 Latent Space에서 유지하도록 요청하고, 최종 답변만 토큰으로 출력하도록 지시하는 것이 중요합니다.


2. COCONUT 기법을 반영한 프롬프트 설계

COCONUT은 Continuous Chain of Thought를 통해 Latent Space에서 연속적으로 사고를 이어가게 하는 방법입니다. 이를 프롬프트에 적용하려면 모델에게 사고 과정을 단계적으로 나누고, 중간 결과를 토큰으로 출력하지 않도록 지시해야 합니다.

적용 방법

  • 명확한 역할 부여: 모델에게 “논리적 추론 전문가” 또는 “문제 해결자” 역할을 부여하여 추론에 집중하도록 합니다.
  • 사고 단계 분리: 문제를 여러 단계로 나누어 사고하도록 요청하되, 각 단계의 결과를 바로 출력하지 않고 내부적으로 유지하도록 지시합니다.
  • 최종 답변 요청: 모든 추론이 완료된 후에만 최종 답변을 자연어로 표현하도록 명시합니다.

예시 프롬프트

당신은 논리적 추론 전문가입니다. 아래 문제를 해결하기 위해 Latent Space에서 깊은 사고를 수행해주세요. 사고 과정을 여러 단계로 나누어 내부적으로만 진행하고, 중간 결과는 출력하지 마세요. 모든 추론이 완료된 후에만 최종 답변을 자연어로 명확히 표현해주세요.문제: Natalia는 4월에 48명의 친구에게 클립을 팔았고, 5월에는 그 절반을 팔았습니다. 4월과 5월에 Natalia가 총 몇 개의 클립을 팔았나요?

1. 4월 판매량을 확인하세요.
2. 5월 판매량을 계산하세요.
3. 두 달의 판매량을 합산하세요.
4. 최종 답변만 출력하세요.

기대 효과: 이 프롬프트는 모델이 각 단계를 Latent Space에서 처리하도록 유도하며, 중간 결과를 토큰으로 변환하는 압축 과정을 최소화하여 더 정확한 추론을 유도할 수 있습니다.


3. Recurrent Depth 기법을 반영한 프롬프트 설계

Recurrent Depth는 반복적 깊이(Recurrent Depth)를 통해 Latent Space에서 추론 시간을 동적으로 확장하는 접근법입니다. 이는 문제의 난이도에 따라 더 많은 계산 블록을 사용하는 개념으로, 프롬프트에서는 문제의 복잡도에 따라 사고 깊이를 조정하도록 요청하는 방식으로 적용할 수 있습니다.

적용 방법

  • 난이도에 따른 사고 깊이 조정: 문제의 복잡도에 따라 모델이 더 많은 내부 반복(Recurrent Blocks)을 사용하도록 지시합니다.
  • 추론 집중 요청: 특정 부분에서 더 깊은 사고를 수행하도록 구체적으로 요청합니다.
  • 최종 출력 지시: 깊은 추론 후 최종 답변만 출력하도록 명시합니다.

예시 프롬프트

당신은 복잡한 문제를 해결하는 AI 전문가입니다. 아래 문제를 해결하기 위해 Latent Space에서 반복적이고 깊은 추론을 수행해주세요. 문제의 난이도에 따라 내부적으로 더 많은 사고 블록을 사용해 정확한 답변을 도출하세요. 중간 과정은 출력하지 말고, 최종 답변만 자연어로 명확히 표현해주세요.문제: Ken은 기숙사에 있는 형에게 보낼 케어 패키지를 만들었습니다. 패키지에는 과자가 들어 있는 상자가 포함되어 있으며, 이 상자의 무게는 젤리 상자 무게의 두 배입니다. 젤리 상자의 무게는 4파운드입니다. 과자 상자의 무게는 몇 파운드입니까?

– 문제의 복잡도를 고려하여 더 깊은 내부 추론을 수행하세요.
– 무게 계산에 필요한 모든 단계를 Latent Space에서 처리하세요.
– 최종 답변만 출력하세요.

기대 효과: 이 프롬프트는 모델이 문제의 복잡도에 따라 Latent Space에서 더 많은 반복적 사고를 수행하도록 유도하며, 영상 데모에서 보듯이 더 많은 블록(예: 16개)을 사용할 때 더 정확한 답변을 얻을 가능성을 높입니다.


4. 프롬프트 최적화를 위한 추가 팁

  • ‘Beginning of Thinking’ 및 ‘End of Thinking’ 지시 활용: 영상에서 언급된 ‘Beginning of Thinking’과 ‘End of Thinking’ 토큰 개념을 프롬프트에 반영하여, 사고 시작과 종료를 명확히 구분하도록 지시합니다. 예: “사고를 시작합니다… (내부 추론 진행)… 사고를 종료하고 답변을 출력합니다.”
  • 난이도별 조정: 쉬운 문제에는 간단한 추론을, 어려운 문제에는 더 많은 내부 반복을 요청하여 계산 자원을 효율적으로 사용하도록 합니다.
  • 설명 가능성(Explainability) 요청: 필요하다면 최종 답변 후 간단한 사고 과정 요약을 요청하여 투명성을 높일 수 있습니다. 단, 이는 추가 계산 부담을 줄 수 있으니 주의해야 합니다.

5. 한계와 주의점

영상에서 강조된 것처럼, Latent Space 추론은 아직 연구 단계에 있으며, 특히 Recurrent Depth는 제품 팀이 아닌 연구자들에 의해 개발된 기술입니다. 프롬프트를 통해 이를 적용할 때 모델이 중간 과정을 출력하지 않아 블랙박스(Blackbox)처럼 보일 수 있다는 점을 유의해야 합니다. 또한, 복잡한 문제에서 더 많은 내부 반복을 요청하면 응답 시간이 길어질 수 있으니, 응답 지연이 중요한 애플리케이션에서는 적절히 조정해야 한다고 하죠.

꼭 알아야 할 점! 이 기법을 프롬프트로 적용하는 것은 모델의 내부 아키텍처를 직접 변경하는 것이 아니라, 모델이 Latent Space에서 더 깊이 사고하도록 유도하는 간접적 방법입니다. 따라서 모델의 학습 방식이나 지원 기능에 따라 결과가 달라질 수 있으니, 실험적으로 접근하며 조정하는 것이 중요합니다.

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*