Chain-of-Thought의 한계: 만능 추론 도구는 없다
들어가며: 프롬프팅의 진화와 CoT의 등장
2020년 GPT-3의 등장과 함께 시작된 대규모 언어모델(LLM) 시대는 우리가 AI와 상호작용하는 방식을 근본적으로 바꾸어 놓았습니다. 특히 프롬프팅(Prompting)이라는 새로운 패러다임은 모델을 재훈련하지 않고도 다양한 작업을 수행할 수 있게 해주었습니다.
이 프롬프팅의 진화 과정에서 가장 혁신적인 발전 중 하나가 바로 Chain-of-Thought(CoT) 프롬프팅입니다. 2022년 Google Research팀이 발표한 이 기법은 복잡한 추론 문제에서 놀라운 성과를 보여주며 AI 추론 능력의 새로운 가능성을 제시했습니다.
하지만 최근 2024년과 2025년에 발표된 중요한 연구들은 CoT의 근본적 한계를 체계적으로 밝혀내고 있습니다. 홍콩과학기술대학교의 “The Curse of CoT”와 Arizona State University의 “Chain of Thoughtlessness” 연구는 CoT가 생각만큼 만능이 아니며, 특정 상황에서는 오히려 성능을 저하시킬 수 있음을 보여줍니다.
이번 포스트에서는 프롬프팅의 기본 개념부터 시작해서 CoT의 발전 과정, 그리고 최신 연구들이 밝혀낸 한계점들을 상세히 분석해보겠습니다.
프롬프팅의 기초: Zero-shot, One-shot, Few-shot의 이해
CoT의 한계를 제대로 이해하기 위해서는 먼저 프롬프팅의 기본 개념들을 명확히 해야 합니다.
Zero-shot Prompting: 사전 지식만으로 추론하기
Zero-shot prompting은 가장 기본적인 형태의 프롬프팅으로, 모델에게 어떤 예시도 제공하지 않고 직접 작업을 요청하는 방식입니다.
1
2
질문: 다음 방정식을 풀어보세요: 2x + 5 = 13
답변: x = 4
Zero-shot의 장점:
- 빠르고 즉각적인 응답 가능
- 예시 준비 시간 불필요
- 모델의 일반화 능력 직접 테스트
Zero-shot의 한계:
- 복잡한 문제에서 정확도 부족
- 도메인별 특수성 반영 어려움
- 일관성 없는 출력 형식
Brown et al. (2020)의 GPT-3 연구에서 zero-shot 성능은 모델 크기에 따라 급격히 향상되었지만, 여전히 복잡한 추론 작업에서는 한계를 보였습니다.
Few-shot Prompting: 예시를 통한 학습
Few-shot prompting은 2-5개의 예시를 제공하여 모델이 패턴을 학습하도록 하는 기법입니다. 이는 In-Context Learning(ICL)의 핵심 메커니즘을 활용합니다.
1
2
3
4
5
6
예시 1: 15 + 23 = 38
예시 2: 47 - 19 = 28
예시 3: 6 × 8 = 48
질문: 35 + 17 = ?
답변: 52
Few-shot의 장점:
- 높은 정확도와 일관성
- 도메인별 특화 가능
- 복잡한 작업에서도 우수한 성능
Few-shot의 단점:
- 예시 준비에 시간과 노력 소요
- 편향된 예시로 인한 성능 왜곡 가능
- 토큰 사용량 증가로 인한 비용 상승
Kaplan et al. (2020)의 스케일링 법칙 연구에 따르면, few-shot 성능은 모델 크기와 강한 상관관계를 보이며, 특히 100억 개 이상의 파라미터를 가진 모델에서 두드러진 효과를 나타냅니다.
One-shot Prompting: 효율성과 성능의 절충점
Zero-shot과 Few-shot 사이에 위치한 One-shot prompting은 단 하나의 예시만으로 모델에게 패턴을 학습시키는 접근법입니다. 이는 토큰 사용량을 절약하면서도 zero-shot보다는 나은 성능을 얻으려는 실용적 타협점이라 할 수 있습니다.
One-shot의 핵심은 하나의 예시가 전체 작업의 본질을 정확히 담아내야 한다는 점입니다. 예를 들어, 수학 문제 해결에서 one-shot을 사용한다면:
One-shot Prompting 예시:
1
2
3
4
5
6
7
예시 문제: 서점에 책이 45권 있었습니다. 오전에 12권을 팔고, 오후에 새 책 8권을 입고받았습니다. 지금 서점에는 몇 권의 책이 있나요?
해결과정: 처음에 45권이 있었고, 12권을 팔았으므로 45-12=33권이 남았습니다. 그 후 8권을 새로 받았으므로 33+8=41권입니다.
답: 41권
새 문제: 마리아는 사과 28개를 가지고 있었습니다. 친구에게 15개를 주고, 가게에서 6개를 더 샀습니다. 마리아는 지금 몇 개의 사과를 가지고 있나요?
이 예시에서 모델은 하나의 완성된 문제해결 과정을 보고, 동일한 패턴을 새로운 문제에 적용해야 합니다. One-shot의 성공은 그 하나의 예시가 얼마나 대표적이고 명확한지에 달려있습니다.
In-Context Learning의 복잡한 메커니즘
이러한 프롬프팅 기법들이 실제로 어떻게 작동하는지 이해하기 위해서는 In-Context Learning(ICL)의 메커니즘을 살펴봐야 합니다. Min et al. (2022)의 연구는 ICL이 단순해 보이는 표면 아래 세 가지 복잡한 학습 과정이 동시에 일어난다는 것을 밝혀냈습니다.
먼저 Format Learning은 모델이 입력과 출력의 형식적 구조를 파악하는 과정입니다. 이는 가장 기본적인 단계로, 질문과 답변이 어떤 패턴으로 제시되는지를 학습합니다. 다음으로 Task Learning은 실제로 수행해야 할 작업의 본질을 이해하는 과정입니다. 단순히 형식을 따라하는 것을 넘어서 과제의 목적과 요구사항을 파악하는 것이죠.
하지만 가장 중요하고 동시에 가장 문제가 되는 것은 Pattern Learning입니다. 이는 예시들 속에 숨어있는 잠재적 패턴을 인식하고 일반화하는 능력인데, 바로 여기서 CoT의 근본적인 한계가 드러나기 시작합니다. 패턴 학습이 제대로 이루어지지 않으면, 아무리 정교한 CoT 예시를 제공해도 모델은 표면적인 형식만 따라할 뿐입니다.
Chain-of-Thought의 등장: 추론의 혁신
2022년의 획기적 발견
2022년 1월, Google Research의 Jason Wei, Xuezhi Wang, Dale Schuurmans 등이 발표한 “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (arXiv:2201.11903)는 AI 추론 연구의 전환점이 되었습니다.
CoT의 핵심 아이디어
CoT의 혁신은 중간 추론 단계(intermediate reasoning steps)를 명시적으로 보여주는 것입니다. 기존 few-shot이 단순한 입력-출력 매핑을 학습했다면, CoT는 문제 해결의 사고 과정을 학습하게 합니다.
전통적 Few-shot 예시:
1
2
질문: 카페에 23명이 있었는데, 7명이 나가고 5명이 들어왔다면 지금 몇 명인가?
답변: 21명
CoT 예시:
1
2
3
질문: 카페에 23명이 있었는데, 7명이 나가고 5명이 들어왔다면 지금 몇 명인가?
답변: 처음에 23명이 있었습니다. 7명이 나갔으므로 23 - 7 = 16명이 남았습니다.
그리고 5명이 들어왔으므로 16 + 5 = 21명입니다. 따라서 답은 21명입니다.
원논문의 실험 결과
Wei et al.의 연구에서 CoT는 세 가지 주요 벤치마크에서 획기적인 성과를 보였습니다:
1. 산술 추론 (GSM8K)
- 기존 few-shot: 55% 정확도
- CoT prompting: 74% 정확도 (+19% 향상)
- PaLM 540B 모델에서 당시 SOTA 달성
2. 상식 추론 (CommonsenseQA)
- 기존 few-shot: 76% 정확도
- CoT prompting: 80% 정확도 (+4% 향상)
3. 기호 추론 (Symbolic Reasoning)
- 기존 few-shot: ~60% 정확도
- CoT prompting: ~95% 정확도 (+35% 향상)
이 중에서도 기호 추론에서의 성과는 특히 놀라웠습니다. 복잡한 논리적 규칙과 패턴을 다루는 문제에서 35%라는 대폭적인 성능 향상을 보인 것입니다.
모델 크기의 중요성
흥미롭게도 CoT의 효과는 모델 크기와 밀접한 관련이 있었습니다:
- 100B 미만 모델: CoT 효과 거의 없음
- 100B 이상 모델: 점진적 성능 향상
- 500B 이상 모델: 극적인 성능 향상
이는 emergent abilities(창발적 능력)의 개념과 연결되며, 일정 규모 이상의 모델에서만 복잡한 추론 능력이 나타난다는 것을 시사했습니다.
CoT의 확산과 변형들
업계의 신속한 채택
CoT의 성공은 빠르게 업계 전반으로 확산되었습니다:
- OpenAI GPT 시리즈: GPT-3.5부터 CoT 기법 활용
- Anthropic Claude: Constitutional AI와 CoT 결합
- Google PaLM/Gemini: 원조 연구팀의 지속적 발전
- Meta LLaMA: 오픈소스 모델에서도 CoT 효과 확인
CoT의 발전된 변형들
1. Auto-CoT (Zhang et al., 2022)
- 수동으로 예시를 작성하는 대신 모델이 자동으로 CoT 예시 생성
- 다양성 있는 예시를 통한 성능 향상
2. Zero-shot CoT (Kojima et al., 2022)
- “Let’s think step by step”이라는 간단한 프롬프트로 CoT 유도
- 예시 없이도 추론 능력 활성화
3. Tree of Thoughts (Yao et al., 2023)
- 선형적 사고를 넘어 트리 구조의 다중 경로 탐색
- 백트래킹과 전역 선택을 통한 더 복잡한 추론
4. ReAct (Yao et al., 2022)
- Reasoning + Acting의 결합
- 외부 도구와 상호작용하며 추론 수행
초기 성공의 이유
CoT가 초기에 큰 성공을 거둔 이유는 다음과 같이 분석됩니다:
- 분해의 힘: 복잡한 문제를 단계별로 분해하여 해결
- 명시적 추론: 모델의 사고 과정을 가시화
- 오류 추적: 중간 단계별 검증 가능
- 일반화: 다양한 도메인에서 일관된 성과
하지만 2024년과 2025년의 새로운 연구들은 이러한 성공 뒤에 숨겨진 문제점들을 드러내기 시작했습니다.
2025년의 충격: “The Curse of CoT” 연구 심층 분석
연구 배경과 동기
홍콩과학기술대학교(HKUST)의 Tianshi Zheng, Yixiang Chen, Chunyang Li 등이 2025년 4월 발표한 “The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning” (arXiv:2504.05081)는 CoT 연구 분야에 큰 파장을 일으켰습니다.
이 연구의 핵심 질문은 단순하지만 근본적이었습니다: “CoT는 정말로 모든 상황에서 유용한가?”
기존 연구들이 주로 CoT의 성공 사례에 집중했다면, 이 연구는 CoT가 실패하는 상황을 체계적으로 분석했습니다.
실험 설계의 엄밀성
전례 없는 규모의 체계적 검증
이 연구의 가장 인상적인 부분은 실험 설계의 철저함입니다. 연구팀은 단순히 몇 개의 모델과 데이터셋으로 실험하는 것에 그치지 않고, 16개의 서로 다른 대형 언어 모델과 9개의 패턴 기반 벤치마크를 사용한 대규모 검증을 수행했습니다.
모델 선택에서도 편향을 최소화하려는 노력이 돋보입니다. OpenAI의 GPT 계열부터 Anthropic의 Claude, Google의 Gemini, 그리고 LLaMA와 Mixtral 같은 오픈소스 모델까지 망라했습니다. 이는 특정 모델의 특성에 기인한 결과가 아님을 보장하기 위함이었죠.
데이터셋 구성도 마찬가지로 신중했습니다. 단순한 수학 문제부터 복잡한 논리적 추론, 언어적 패턴 인식, 그리고 추상적 사고를 요구하는 문제들까지 다양한 인지적 도전을 포함했습니다. 특히 이들은 모두 ‘패턴 기반’ 문제들이라는 공통점이 있었는데, 이는 CoT가 가장 취약하다고 여겨지는 영역을 의도적으로 겨냥한 것이었습니다.
실험의 신뢰성을 위한 철저한 통제
실험의 과학적 엄밀성을 위해 연구팀이 기울인 노력은 놀라울 정도였습니다. 모든 실험에서 프롬프트 구조를 완전히 통일했습니다. 각 모델에게 동일하게 4개의 예시를 제공하고, 지시사항의 형식도 일관되게 유지했습니다. 이는 모델 간 성능 차이가 프롬프트 설계의 차이가 아닌 근본적인 능력 차이에서 비롯됨을 보장하기 위함이었습니다.
평가 방법론에서도 다각도의 관점을 취했습니다. 단순히 최종 답이 맞는지만 확인하는 것이 아니라, 부분적으로 옳은 답에 대해서도 점수를 부여했고, 더 나아가 추론 과정 자체의 품질까지 평가했습니다. 이는 CoT가 표면적으로는 옳은 답을 내놓더라도 그 추론 과정이 실제로는 의미가 없을 수 있다는 의심에서 비롯된 것입니다.
충격적인 실험 결과
일관된 성능 저하
실험 결과는 기존 통념을 완전히 뒤집는 것이었습니다:
전체 평균 성능:
- Direct Answering: 73.2% 정확도
- CoT Prompting: 68.7% 정확도 (-4.5% 저하)
- ReAct: 65.3% 정확도 (-7.9% 저하)
- Tree of Thoughts: 62.8% 정확도 (-10.4% 저하)
모델별 상세 결과:
| 모델 | Direct | CoT | ReAct | ToT |
|---|---|---|---|---|
| GPT-4 | 78.5% | 74.2% | 71.6% | 68.9% |
| Claude-3-Opus | 76.8% | 72.1% | 69.4% | 66.7% |
| Gemini-1.5-Pro | 74.3% | 69.8% | 66.2% | 63.5% |
| LLaMA-2-70B | 69.2% | 64.7% | 61.3% | 58.8% |
규모와 무관한 현상
놀랍게도 이러한 성능 저하는 모델 크기와 무관하게 나타났습니다:
파라미터 규모별 분석:
- 7B 모델: 평균 -3.8% 성능 저하
- 70B 모델: 평균 -4.2% 성능 저하
- 175B+ 모델: 평균 -4.9% 성능 저하
이는 CoT의 문제가 단순한 모델 용량 부족이 아니라 근본적인 메커니즘 이슈임을 시사합니다.
복잡도와 반비례 관계
더 정교한 CoT 변형일수록 성능이 더 나빠지는 경향을 보였습니다:
복잡도 순서: Direct < CoT < ReAct < Tree of Thoughts 성능 순서: Direct > CoT > ReAct > Tree of Thoughts
이는 추론 과정을 더 명시적으로 만들수록 오히려 성능이 저하된다는 역설적 결과를 보여줍니다.
혁신적 이론: 명시적-암시적 이중성 (Explicit-Implicit Duality)
이론적 프레임워크
연구팀은 이러한 현상을 설명하기 위해 Explicit-Implicit Duality 이론을 제시했습니다. 이 이론에 따르면, LLM의 추론은 두 가지 병렬 프로세스로 구성됩니다:
1. 명시적 추론 (Explicit Reasoning)
- CoT가 생성하는 중간 단계들
- 사람이 읽을 수 있는 형태의 논리적 전개
- 의식적이고 순차적인 처리
2. 암시적 추론 (Implicit Reasoning)
- 모델 내부의 직관적 패턴 인식
- 고차원 표현 공간에서의 즉각적 매핑
- 무의식적이고 병렬적인 처리
이중성의 메커니즘
정상적인 Few-shot Learning에서는:
1
입력 → 암시적 패턴 인식 → 직접 출력
CoT에서는:
1
입력 → 명시적 추론 생성 → 암시적 패턴 인식 → 출력
문제는 명시적 추론 과정이 암시적 추론을 방해한다는 점입니다.
실험적 검증
연구팀은 이 이론을 검증하기 위해 혁신적인 실험을 설계했습니다:
Intervention Experiment:
- 정상적인 CoT 추론 과정 수행
- 중간 단계에서 무관한 텍스트 삽입
- 최종 답변 생성
결과: 무관한 텍스트 삽입에도 불구하고 정답률이 유지되었습니다. 이는 모델이 명시적 추론 과정을 실제로는 무시하고 있다는 강력한 증거입니다.
Ablation Study:
- CoT 없이 동일한 길이의 무의미한 텍스트 생성
- 결과: 성능이 CoT와 유사한 수준으로 저하
이는 성능 저하의 원인이 추론 내용이 아니라 문맥 길이 증가 자체임을 보여줍니다.
맥락적 거리의 문제
이론적 배경
맥락적 거리(Contextual Distance)는 입력과 출력 사이의 토큰 거리를 의미합니다. 연구에 따르면:
- Few-shot: 평균 50-100 토큰 거리
- CoT: 평균 200-400 토큰 거리
- 복잡한 CoT: 평균 500+ 토큰 거리
실험적 증명
연구팀은 거리와 성능의 관계를 직접 측정했습니다:
거리별 성능 분석:
- 50-100 토큰: 76.8% 정확도
- 100-200 토큰: 73.2% 정확도
- 200-400 토큰: 68.7% 정확도
- 400+ 토큰: 63.5% 정확도
결론: 맥락적 거리가 100 토큰 증가할 때마다 약 2-3%의 성능 저하가 발생합니다.
어텐션 메커니즘 분석
Transformer의 어텐션 패턴을 분석한 결과:
Direct Answering:
- 입력 토큰에 대한 집중도: 85%
- 예시-답변 간 강한 어텐션 연결
CoT:
- 입력 토큰에 대한 집중도: 62%
- 중간 추론 단계에 어텐션 분산
- 핵심 패턴 인식 능력 저하
2024년의 경고: “Chain of Thoughtlessness” 연구
연구 개요와 동기
Arizona State University의 Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati가 2024년 5월 발표한 “Chain of Thoughtlessness? An Analysis of CoT in Planning” (NeurIPS 2024)는 CoT의 한계를 다른 각도에서 조명했습니다.
이 연구의 제목 자체가 도발적입니다. “Thoughtlessness”는 “생각 없음”을 의미하며, CoT가 실제로는 진정한 사고 없이 표면적인 패턴만 따라하고 있다는 비판을 담고 있습니다.
Blocksworld: 완벽한 테스트베드
도메인 선택의 이유
연구팀이 Blocksworld를 선택한 이유는 다음과 같습니다:
- 명확한 규칙: 블록의 이동 규칙이 명확히 정의됨
- 확장 가능성: 블록 수와 구조의 복잡도 조절 가능
- 계획의 본질: 다단계 계획 수립이 핵심
- 검증 가능성: 솔루션의 정확성을 객관적으로 판단 가능
Blocksworld의 구조
기본 설정:
1
2
초기 상태: [A가 테이블에, B가 A 위에, C가 테이블에]
목표 상태: [C가 테이블에, A가 C 위에, B가 A 위에]
가능한 행동:
: 블록 X를 블록 Y 위로 이동1
move(X, Y)
: 블록 X를 테이블로 이동1
moveToTable(X)
난이도 단계별 설계
Level 1: 2-3개 블록, 2-3단계 해결
Level 2: 4-5개 블록, 4-6단계 해결
Level 3: 6-8개 블록, 7-10단계 해결
Level 4: 9-12개 블록, 12-20단계 해결
실험 설계와 방법론
체계적 실험 접근
1. 기준선 설정
- Direct Prompting: 문제만 제시하고 답변 요구
- Standard Few-shot: 입력-출력 쌍만 제공
2. CoT 변형들
- Basic CoT: 단계별 추론 과정 제시
- Detailed CoT: 각 단계의 이유까지 설명
- Interactive CoT: 단계별 검증을 포함한 추론
3. 일반화 테스트
- 동일 복잡도: 훈련과 같은 크기의 문제
- 증가 복잡도: 훈련보다 큰 크기의 문제
- 구조 변화: 다른 초기 구조의 문제
정량적 평가 지표
정확도 메트릭:
- 완전 해결률: 완벽한 솔루션 제시 비율
- 부분 점수: 올바른 단계의 비율
- 효율성: 최적 해 대비 단계 수 비율
일반화 메트릭:
- 크기 강건성: 블록 수 증가에 대한 성능 유지
- 구조 강건성: 초기 구조 변화에 대한 성능 유지
- 복잡도 확장성: 복잡도 증가에 따른 성능 곡선
충격적인 실험 결과
극도로 제한적인 일반화
동일 복잡도 테스트:
- Direct: 45% 정확도
- CoT: 78% 정확도 (+33% 향상)
복잡도 증가 테스트:
- 블록 1개 추가시: CoT 62% (-16% 저하)
- 블록 2개 추가시: CoT 34% (-44% 저하)
- 블록 3개 추가시: CoT 18% (-60% 저하)
구조 변화 테스트:
- 초기 구조 변경시: CoT 23% (-55% 저하)
상세한 성능 분석
Level별 성능 비교:
| Level | 블록 수 | Direct | Basic CoT | Detailed CoT |
|---|---|---|---|---|
| 1 | 3 | 45% | 78% | 82% |
| 2 | 5 | 32% | 62% | 67% |
| 3 | 7 | 18% | 34% | 39% |
| 4 | 10 | 8% | 15% | 18% |
해석: 블록 수가 증가할수록 CoT의 상대적 이점이 급격히 감소합니다.
알고리즘 학습의 실패
연구팀은 CoT가 일반적인 알고리즘을 학습하는지 확인했습니다:
테스트 방법:
- 동일한 CoT 예시를 다양한 문제에 적용
- 해결 전략의 일관성 확인
- 새로운 상황에서의 적응력 측정
결과: CoT는 일반적인 문제 해결 알고리즘을 학습하지 못했습니다. 대신 매우 특정적인 입력-출력 매핑만을 기억하고 있었습니다.
증거:
- 예시와 유사한 문제: 78% 성공률
- 구조만 다른 문제: 23% 성공률
- 완전히 다른 문제: 8% 성공률
다른 도메인에서의 검증
확장 실험 설계
연구팀은 Blocksworld의 발견이 일반적인 현상인지 확인하기 위해 세 가지 추가 도메인에서 실험했습니다:
1. 미로 탐색 (Maze Navigation)
- 목표: 시작점에서 끝점까지 최단 경로 찾기
- 복잡도: 미로 크기와 장애물 수
2. 논리 퍼즐 (Logic Puzzles)
- 목표: 주어진 조건으로 추론하여 답 도출
- 복잡도: 조건의 수와 추론 단계
3. 수학 워드 문제 (Math Word Problems)
- 목표: 자연어 문제를 수식으로 변환하여 해결
- 복잡도: 관련된 변수와 연산의 수
일관된 실패 패턴
모든 도메인에서 동일한 패턴:
- 훈련 범위 내: CoT 효과적
- 약간의 변형: 급격한 성능 저하
- 큰 변형: 거의 무효
미로 탐색 결과:
- 동일 크기: CoT 85% vs Direct 52%
- 크기 2배: CoT 34% vs Direct 31%
- 크기 4배: CoT 12% vs Direct 15%
결론: 복잡도가 증가하면 CoT의 이점이 사라지고, 오히려 부담이 됩니다.
근본적 문제: 패턴 매칭 vs 진정한 추론
표면적 패턴 학습
연구팀의 분석에 따르면, CoT는 표면적 패턴만을 학습합니다:
학습하는 것:
- 특정 형태의 입력에 대한 특정 형태의 출력
- 키워드와 구문의 연관성
- 단계별 서술의 양식
학습하지 못하는 것:
- 문제의 본질적 구조
- 일반적인 해결 원리
- 새로운 상황에의 적응 능력
진정한 추론의 부재
진정한 추론이라면:
- 문제의 본질 파악
- 관련 원리의 적용
- 새로운 상황에의 일반화
- 오류 감지와 수정
CoT가 하는 것:
- 표면적 패턴 매칭
- 기계적 단계 따라하기
- 맥락 변화에 취약
- 오류 전파와 증폭
이것이 바로 “Thoughtlessness”의 의미입니다.
두 연구의 융합: 통합적 이해
공통된 핵심 발견
“The Curse of CoT”와 “Chain of Thoughtlessness” 두 연구는 서로 다른 접근법을 사용했지만 놀랍도록 일치하는 결론에 도달했습니다:
1. CoT의 제한적 효과
HKUST 연구:
- 패턴 기반 ICL에서 일관된 성능 저하
- 모델 크기와 무관한 현상
ASU 연구:
- 계획 도메인에서 극도로 제한적인 일반화
- 복잡도 증가 시 급격한 성능 저하
2. 근본적 메커니즘 문제
명시적-암시적 이중성 (HKUST):
- 명시적 추론이 암시적 추론을 방해
- 맥락적 거리 증가로 인한 성능 저하
표면적 패턴 매칭 (ASU):
- 진정한 알고리즘 학습 실패
- 특정 예시에 과도하게 의존
통합 이론: CoT 실패의 다층적 구조
두 연구를 종합하면, CoT의 실패는 다층적 구조를 가집니다:
Layer 1: 토큰 레벨 문제
- 맥락적 거리 증가: 중요한 정보의 희석
- 어텐션 분산: 핵심 패턴에 대한 집중력 저하
- 토큰 예산 소모: 불필요한 중간 단계로 인한 효율성 저하
Layer 2: 패턴 레벨 문제
- 패턴 간섭: 명시적 패턴이 암시적 패턴 방해
- 과적합: 특정 형태의 예시에만 특화
- 일반화 실패: 새로운 변형에 대한 적응 불가
Layer 3: 추론 레벨 문제
- 의사 추론: 실제 추론 없이 형식만 모방
- 논리적 불일치: 단계별 추론과 최종 답변의 괴리
- 오류 전파: 중간 단계의 오류가 최종 결과에 영향
실제 성능에 미치는 복합적 영향
시너지 효과의 부재
이론적으로 CoT의 각 구성 요소는 도움이 될 수 있습니다:
- 단계별 분해: 복잡한 문제의 단순화
- 명시적 추론: 투명성과 해석 가능성
- 예시 학습: 패턴 인식 능력 향상
하지만 실제로는 이들이 서로 방해합니다:
- 단계별 분해 → 맥락적 거리 증가 → 패턴 인식 방해
- 명시적 추론 → 어텐션 분산 → 핵심 정보 희석
- 예시 학습 → 과적합 → 일반화 능력 저하
임계점 현상
CoT의 효과는 임계점 현상을 보입니다:
임계점 이하:
- 문제가 충분히 단순함
- 예시가 매우 유사함
- 추론 단계가 짧음 → CoT 효과적
임계점 이상:
- 문제가 복잡해짐
- 예시에서 벗어남
- 추론 단계가 길어짐 → CoT 역효과
실무적 함의: 언제 CoT를 사용할 것인가?
CoT가 진정 효과를 발휘하는 제한된 상황들
두 연구 결과를 종합해보면, CoT의 유효성은 예상보다 훨씬 제한적입니다. 그렇다면 어떤 조건에서 CoT가 실제로 도움이 될까요?
고도로 구조화된 수학적 문제들이 CoT의 최적 영역입니다. 이런 문제들은 명확한 단계별 절차가 존재하고, 각 단계를 독립적으로 검증할 수 있습니다. 예를 들어, 대수 방정식을 풀거나 기하학적 증명을 전개하는 경우가 여기에 해당합니다. 이런 문제들은 논리적 순서가 명확하고, 중간 단계의 옳고 그름을 즉시 판단할 수 있어 CoT의 단계별 접근이 실제로 의미를 갖습니다.
훈련 예시와 매우 유사한 문제들에서도 CoT는 여전히 효과를 보입니다. 하지만 이는 다소 당연한 결과입니다. 동일한 도메인에서 비슷한 복잡도를 가진 문제들은 같은 해결 패턴을 따르기 때문입니다. 문제는 실제 현실에서는 이런 완벽히 유사한 문제들을 만나기 어렵다는 점입니다. 약간의 변형만 가해져도 CoT의 효과는 급격히 떨어집니다.
3-5단계 이내의 단순한 추론 체인을 가진 문제들도 CoT에 적합합니다. 이런 문제들은 각 단계가 명확하고 직관적이어서 모델이 실제로 의미 있는 추론을 수행할 수 있습니다. 하지만 추론 단계가 길어질수록, 또는 단계 간의 연결이 복잡해질수록 CoT는 오히려 성능을 저해하는 요소가 됩니다.
피해야 할 상황
1. 창의적 문제 해결
CoT는 기존 패턴을 단계별로 적용하는 데는 강하지만, 완전히 새로운 접근법을 요구하는 창의적 문제에서는 한계를 보입니다. 이런 문제들은 정해진 답이 없으며, 혁신적 아이디어와 직관적 통찰을 필요로 합니다. 새로운 제품 설계나 예술적 창작, 전략적 기획 등에서 CoT의 단계별 접근은 오히려 창의성을 제한할 수 있습니다.
2. 복잡한 계획 수립
현실의 복잡한 계획 수립에는 수많은 변수와 제약조건이 동시에 작용합니다. 더욱이 이런 환경은 동적으로 변화하기 때문에, CoT의 선형적 단계별 접근으로는 포착하기 어려운 상호작용과 피드백 루프가 존재합니다. 전략 수립이나 리소스 배분과 같은 문제에서 CoT는 지나치게 단순화된 접근을 제공하여 실제 상황의 복잡성을 놓칠 수 있습니다.
3. 도메인 간 전이
CoT가 특정 도메인에서 학습된 패턴을 다른 영역에 적용할 때 어려움을 겪습니다. 이는 서로 다른 도메인 간에는 추상화 수준이 다르고, 적용되는 원리와 규칙이 상이하기 때문입니다. 수학적 추론에서 효과적인 CoT 패턴이 사회과학이나 예술 영역에서는 전혀 작동하지 않을 수 있습니다.
근본적 원인 분석: 왜 CoT는 실패하는가?
1. Transformer 아키텍처의 구조적 한계
순차적 처리의 한계
Transformer의 처리 방식:
1
입력 → Self-Attention → Feed-Forward → 출력
이 구조는 병렬적 패턴 인식에 최적화되어 있지, 순차적 추론에는 적합하지 않습니다.
문제점:
- 길이 제한: 긴 시퀀스에서 어텐션 효율성 저하
- 순서 의존성: 토큰 순서에 과도하게 의존
- 메모리 제약: 장거리 의존성 처리의 한계
어텐션 메커니즘의 딜레마
이상적인 어텐션:
- 핵심 정보에 집중
- 불필요한 노이즈 필터링
- 효율적인 정보 추출
CoT에서의 어텐션:
- 중간 단계에 분산
- 핵심 패턴 희석
- 비효율적인 정보 처리
2. 학습 데이터의 편향
인터넷 텍스트의 특성
LLM의 학습 데이터는 주로 완성된 텍스트로 구성됩니다:
- 뉴스 기사, 위키피디아, 블로그 포스트
- 논문, 책, 기술 문서
- 소셜 미디어, 포럼 게시글
이런 텍스트들은 결과를 보여주지, 과정을 단계별로 보여주지는 않습니다.
추론 과정의 부재
실제 인간의 사고:
- 문제 인식
- 관련 지식 활성화
- 가설 생성과 검증
- 결론 도출
텍스트에 기록된 것:
- 문제 설명
- 최종 결론
결과: LLM은 진정한 추론 과정을 학습할 기회가 없었습니다.
3. In-Context Learning의 메커니즘적 한계
ICL의 작동 원리
최근 연구들에 따르면, ICL은 다음과 같이 작동합니다:
1. 패턴 매칭: 입력과 유사한 예시 찾기 2. 템플릿 추출: 입력-출력 관계 패턴 파악 3. 적용: 새로운 입력에 패턴 적용
CoT가 이 과정을 방해하는 방식
정상적인 ICL:
1
2
3
[예시1: 입력A → 출력A]
[예시2: 입력B → 출력B]
[쿼리: 입력C → ?]
CoT ICL:
1
2
3
[예시1: 입력A → 추론A1 → 추론A2 → ... → 출력A]
[예시2: 입력B → 추론B1 → 추론B2 → ... → 출력B]
[쿼리: 입력C → ?]
문제: 핵심 관계인 가 긴 추론 체인에 의해 가려집니다.1
입력C → 출력C
4. 인지적 부담의 증가
인간과 AI의 차이
인간의 추론:
- 작업 기억(Working Memory)에서 단계별 처리
- 중간 결과를 임시 저장하고 조작
- 메타인지를 통한 과정 모니터링
AI의 “추론”:
- 모든 정보를 동시에 처리
- 중간 결과의 저장과 조작 능력 제한
- 과정에 대한 메타인지 부재
인지 부담의 누적
CoT는 AI에게 인지적 부담을 가중시킵니다:
부담 요소들:
- 토큰 처리량: 더 많은 토큰 동시 처리
- 의존성 관리: 복잡한 단계 간 의존성
- 일관성 유지: 전체 추론 체인의 논리적 일관성
- 오류 관리: 누적되는 중간 단계 오류
미래 연구 방향: CoT를 넘어서
1. 하이브리드 추론 시스템
명시적-암시적 조화
“The Curse of CoT” 연구가 제시한 이중성 이론을 바탕으로, 두 방식의 조화를 추구하는 연구가 필요합니다:
가능한 접근법:
- 적응적 라우팅: 문제 특성에 따라 추론 방식 선택
- 병렬 처리: 명시적/암시적 추론을 동시 수행 후 통합
- 단계적 전환: 간단한 문제는 암시적, 복잡한 문제는 명시적
구체적 구현 아이디어
Router-based System:
1
2
3
4
5
6
def solve_problem(problem):
complexity = assess_complexity(problem)
if complexity < threshold:
return implicit_reasoning(problem)
else:
return explicit_reasoning(problem)
Ensemble Approach:
1
2
3
4
def hybrid_solve(problem):
implicit_result = implicit_reasoning(problem)
explicit_result = explicit_reasoning(problem)
return weighted_combination(implicit_result, explicit_result)
2. 아키텍처 혁신
추론 특화 구조
현재의 Transformer는 범용 언어 처리에 최적화되어 있습니다. 추론을 위한 특화된 아키텍처가 필요할 수 있습니다:
가능한 방향들:
- 계층적 처리: 서로 다른 추상화 수준에서 병렬 처리
- 메모리 확장: 중간 결과 저장을 위한 외부 메모리
- 반복적 정제: 초기 답안을 점진적으로 개선
Graph-based Reasoning
선형적 추론 체인 대신 그래프 구조의 추론:
장점:
- 다중 경로 탐색 가능
- 백트래킹과 재고려 지원
- 복잡한 관계 표현 가능
3. 새로운 평가 방법론
과정 중심 평가
현재 평가는 주로 최종 결과에 집중합니다. 과정의 품질을 평가하는 새로운 메트릭이 필요합니다:
제안하는 메트릭들:
- 논리적 일관성: 단계 간 논리적 연결성
- 효율성: 불필요한 단계의 최소화
- 강건성: 입력 변화에 대한 안정성
- 일반화도: 새로운 문제에 대한 적용 가능성
동적 평가 시스템
정적인 벤치마크 대신 동적 생성 평가:
특징:
- 실시간 문제 생성
- 적응적 난이도 조절
- 일반화 능력 직접 측정
4. 도메인별 최적화
전문 영역 특화
“Chain of Thoughtlessness” 연구가 보여준 것처럼, 일반적인 CoT보다는 도메인별 특화가 더 효과적일 수 있습니다:
수학 영역:
- 공식과 정리의 체계적 활용
- 단계별 검증 메커니즘
- 오류 감지 및 수정
과학 영역:
- 가설-실험-검증 사이클
- 증거 기반 추론
- 불확실성 관리
창작 영역:
- 발산적 사고 지원
- 다중 관점 탐색
- 평가 기준의 유연성
5. 인간-AI 협업 모델
상호 보완적 추론
인간과 AI의 서로 다른 강점을 활용하는 협업 모델:
인간의 강점:
- 창의적 통찰
- 맥락적 이해
- 가치 판단
AI의 강점:
- 대용량 정보 처리
- 일관된 논리 적용
- 빠른 계산
협업 프로토콜
단계별 협업:
- 문제 정의 (인간 주도)
- 정보 수집 (AI 주도)
- 아이디어 생성 (공동)
- 평가 및 선택 (인간 주도)
- 구현 및 검증 (AI 주도)
실무진에게 주는 교훈
1. CoT 사용 가이드라인
효과적 사용 조건
✅ CoT를 사용해야 하는 경우:
- 명확한 절차가 있는 구조화된 문제
- 예시와 매우 유사한 형태의 문제
- 3-5단계 이내의 단순한 추론
- 각 단계를 독립적으로 검증할 수 있는 문제
❌ CoT를 피해야 하는 경우:
- 창의적 사고가 필요한 문제
- 예시에서 크게 벗어나는 문제
- 복잡한 다단계 계획이 필요한 문제
- 실시간으로 변화하는 동적 환경
실무 적용 전략
1. 문제 분류
1
2
3
4
5
6
7
def classify_problem(problem):
if is_structured(problem) and is_similar_to_examples(problem):
return "use_cot"
elif is_simple(problem):
return "direct_prompting"
else:
return "alternative_approach"
2. 단계적 접근
- 먼저 direct prompting 시도
- 성능이 부족하면 simple CoT 적용
- 여전히 부족하면 다른 접근법 고려
3. 검증 메커니즘
- CoT 결과와 direct 결과 비교
- 중간 단계의 논리적 일관성 확인
- 새로운 변형에 대한 강건성 테스트
2. 대안적 접근법
1. 구조화된 프롬프팅
CoT 대신 구조화된 형태의 프롬프팅 사용:
1
2
3
4
문제: [명확한 문제 정의]
제약조건: [관련 제약사항]
목표: [달성하고자 하는 목표]
고려사항: [중요한 고려사항들]
2. 예시 최적화
고품질 예시 선별과 구성:
- 다양성 확보
- 복잡도 점진적 증가
- 명확한 입력-출력 관계
3. 반복적 정제
초안 → 검토 → 개선 사이클:
1
2
3
4
1. 첫 번째 답안 생성
2. 답안의 문제점 식별
3. 개선된 답안 생성
4. 최종 검증
3. 성능 모니터링
핵심 지표
정확도 지표:
- 절대 정확도 (맞는 답의 비율)
- 상대 정확도 (baseline 대비 성능)
- 일관성 (동일 문제에 대한 결과 일치도)
효율성 지표:
- 토큰 사용량 대비 성능
- 처리 시간 대비 성능
- 비용 대비 성능
강건성 지표:
- 입력 변형에 대한 안정성
- 도메인 전이 시 성능 유지
- 시간에 따른 성능 일관성
지속적 개선
A/B 테스트:
- CoT vs Direct 성능 비교
- 다양한 CoT 변형 실험
- 사용자 만족도 측정
데이터 수집:
- 실패 사례 분석
- 성공 패턴 파악
- 사용자 피드백 수집
결론: 추론의 새로운 지평을 향해
CoT의 유산과 교훈
Chain-of-Thought 프롬프팅은 분명히 AI 추론 연구에 중요한 기여를 했습니다. 2022년 Google Research팀의 혁신적 발견은 LLM이 단순한 패턴 매칭을 넘어 복잡한 추론을 수행할 수 있다는 가능성을 보여주었습니다.
하지만 2024년과 2025년의 연구들이 밝혀낸 한계는 우리에게 중요한 교훈을 줍니다:
1. 표면적 성공의 함정
- 벤치마크 성능 향상이 진정한 능력 향상을 의미하지 않을 수 있음
- 특정 조건에서의 성공이 일반적 능력으로 확장되지 않을 수 있음
2. 복잡성의 역설
- 더 정교한 방법이 항상 더 나은 결과를 가져오지는 않음
- 때로는 단순한 접근이 더 효과적일 수 있음
3. 맥락의 중요성
- 동일한 기법도 상황에 따라 전혀 다른 결과를 보일 수 있음
- 만능 해결책은 존재하지 않음
명시적-암시적 이중성이 주는 통찰
“The Curse of CoT” 연구가 제시한 명시적-암시적 이중성 이론은 단순히 CoT의 한계를 설명하는 것을 넘어, AI 추론에 대한 근본적 통찰을 제공합니다:
의식적 vs 무의식적 처리
- 인간의 사고도 의식적 추론과 무의식적 직관이 공존
- AI도 명시적 처리와 암시적 처리의 조화가 필요
- 둘 사이의 균형이 진정한 지능의 핵심
투명성 vs 효율성의 트레이드오프
- 추론 과정을 명시적으로 만들수록 투명성은 증가
- 하지만 효율성과 정확성은 감소할 수 있음
- 상황에 따른 적절한 균형점 찾기가 중요
패턴 매칭의 한계와 진정한 추론
“Chain of Thoughtlessness” 연구가 드러낸 패턴 매칭의 한계는 우리가 추구해야 할 방향을 명확히 해줍니다:
현재의 한계:
- 표면적 패턴에만 의존하는 의사 추론
- 새로운 상황에 대한 적응 능력 부족
- 진정한 이해 없이 형식만 모방
나아가야 할 방향:
- 근본 원리의 이해와 적용
- 상황에 맞는 유연한 적응
- 창의적 문제 해결 능력
미래의 연구 과제
두 연구가 제시한 한계들은 동시에 미래 연구의 방향을 제시합니다:
단기 과제 (1-2년):
- CoT의 효과적 사용 조건 명확화
- 하이브리드 추론 시스템 개발
- 새로운 평가 방법론 구축
중기 과제 (3-5년):
- 추론 특화 아키텍처 개발
- 인간-AI 협업 모델 구축
- 도메인별 최적화 전략 수립
장기 과제 (5-10년):
- 진정한 기계 추론 구현
- 창의적 문제 해결 능력 개발
- 일반화 가능한 지능 시스템 구축
실무진에 대한 조언
현실적 접근:
- CoT를 만능 해결책으로 여기지 말 것
- 상황에 맞는 적절한 기법 선택
- 지속적인 성능 모니터링과 개선
전략적 사고:
- 단순한 기법부터 시작해서 점진적 개선
- 대안적 접근법에 대한 열린 자세
- 장기적 관점에서의 기술 투자
마지막 생각: 겸손한 진보
CoT의 한계를 다룬 이 연구들이 우리에게 주는 가장 중요한 메시지는 겸손함입니다. AI 기술의 빠른 발전 속에서 우리는 종종 과도한 기대를 하거나 성급한 일반화를 하기 쉽습니다.
하지만 진정한 과학적 진보는 한계를 인정하고 이를 극복하려는 노력에서 나옵니다. “The Curse of CoT”와 “Chain of Thoughtlessness”는 단순히 CoT를 비판하는 것이 아니라, 더 나은 추론 시스템을 향한 다음 단계를 준비하는 중요한 디딤돌입니다.
앞으로의 연구는 이러한 한계를 인정하고, 더 robust하고 일반화 가능한 추론 시스템을 개발하는 방향으로 나아가야 합니다. CoT의 실패는 끝이 아니라 새로운 시작입니다. 진정한 기계 추론을 향한 여정은 이제 막 시작된 것일지도 모릅니다.
참고문헌
-
Brown, T., Mann, B., Ryder, N., et al. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
-
Wei, J., Wang, X., Schuurmans, D., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv preprint arXiv:2201.11903.
-
Zheng, T., Chen, Y., Li, C., et al. (2025). The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning. arXiv preprint arXiv:2504.05081.
-
Stechly, K., Valmeekam, K., & Kambhampati, S. (2024). Chain of Thoughtlessness? An Analysis of CoT in Planning. Advances in Neural Information Processing Systems 37 (NeurIPS 2024).
-
Kojima, T., Gu, S. S., Reid, M., et al. (2022). Large language models are zero-shot reasoners. arXiv preprint arXiv:2205.11916.
-
Yao, S., Yu, D., Zhao, J., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models. arXiv preprint arXiv:2305.10601.
-
Min, S., Lyu, X., Holtzman, A., et al. (2022). Rethinking the role of demonstrations: What makes in-context learning work? arXiv preprint arXiv:2202.12837.
-
Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.