Improving Factuality and Reasoning in Language Models through Multiagent Debate

Posted Mar 8, 2026 Updated Apr 16, 2026

By Jeong Mo, Hong

10 min read

논문 링크: https://arxiv.org/pdf/2305.14325
저자: Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch
발표: ICML 2024 (arXiv:2305.14325, 2023년 5월 23일)
핵심 키워드: Large Language Models, Factuality, Reasoning, Multiagent Reasoning

1. 서론 (Introduction)

연구 배경

대규모 언어 모델(LLM)은 뛰어난 언어 이해 및 생성 능력을 보이지만, 사실성(Factuality)과 추론(Reasoning) 측면에서 여전히 한계가 있음
현대 LLM들은 환각(Hallucination) 현상이 빈번히 발생하여 사실과 다른 정보를 생성
복잡한 수학적/전략적 추론 문제에서 오류가 자주 발생

핵심 아이디어

“Society of Minds” 접근법 제안
동일한 언어 모델의 여러 인스턴스를 다중 에이전트 사회로 취급
각 에이전트가 서로의 응답을 읽고 비평하며, 여러 라운드에 걸쳐 토론을 통해 최종 합의된 답을 도출

기존 접근법들

Self-Consistency: 여러 추론 경로를 샘플링하여 다수결로 답 선택
Chain-of-Thought (CoT): 단계별 추론 과정을 명시적으로 생성
Reflection: 단일 에이전트가 자신의 응답을 스스로 검토하고 수정

본 연구의 차별점

기존 방법들은 단일 에이전트 기반
본 연구는 다중 에이전트 간 상호작용을 통해 집단 지성 효과 활용
블랙박스 모델에 직접 적용 가능하며, 모델 재학습 불필요

3. 방법론 (Method)

3.1 기본 절차

단계 1: 개별 응답 생성

다수의 언어 모델 인스턴스가 주어진 질문에 대해 독립적으로 초기 답변 생성

단계 2: 토론 (Debate)

각 에이전트는 다른 모든 에이전트의 응답을 읽음
다른 에이전트들의 추론 과정을 비평하고 분석
이를 바탕으로 자신의 답변을 업데이트

단계 3: 반복

위 과정을 여러 라운드에 걸쳐 반복
최종적으로 합의된 답변 도출

3.2 실험 설정

에이전트 수: 기본적으로 3개의 언어 모델 에이전트 사용
토론 라운드: 2라운드 (계산 비용 고려)
프롬프트 유형:
- Short prompt: 빠른 수렴 유도
- Long prompt: 더 깊은 숙고를 통해 우수한 최종 해답 도출

3.3 합의 프롬프트 (Consensus Prompt)

각 에이전트에게 다른 에이전트들의 응답을 제공하며, 다음과 같은 지시를 포함:

다른 에이전트들의 추론 과정 검토
자신의 답변과 비교 분석
필요시 답변 수정 또는 유지

4. 실험 (Experiments)

4.1 평가 태스크

추론 태스크 (Reasoning Tasks)

Arithmetic (산술 연산)
- 6개의 두 자리 숫자로 구성된 산술 표현식 계산
- 예: “12+1521+0-327의 결과는?”
- 덧셈, 곱셈, 뺄셈 포함
GSM8K (Grade School Math)
- 초등학교 수준의 수학 문장제 문제
- 복잡한 다단계 추론 필요
- 실생활 맥락의 문제 해결
Chess Move Prediction (체스 수 예측)
- 체스 게임의 처음 14수가 주어짐
- 최적의 다음 수 예측
- 전략적 추론 능력 평가
- Stockfish 엔진으로 예측된 수의 폰 점수(advantage) 측정

사실성 태스크 (Factuality Tasks)

Biographies (전기)
- 컴퓨터 과학자의 전기 생성 (새로운 벤치마크 도입)
- 실존 인물의 소속 기관, 날짜 등 사실 정보 검증
- LLM이 사실과 다른 전기를 “환각”하는 경향이 높음 발견
MMLU (Massive Multitask Language Understanding)
- 다양한 분야의 사실적 지식 질문
- 객관식 형태
Chess Move Validity (체스 수 유효성)
- 규칙에 맞는 합법적인 체스 수 생성
- 사실적 규칙 준수 능력 평가

4.2 비교 기준선 (Baselines)

Single Agent: 단일 에이전트의 직접 응답
Reflection: 단일 에이전트가 자신의 응답을 검토하고 수정
Self-Consistency: 여러 샘플링 후 다수결

5. 결과 (Results)

5.1 주요 성능 비교

태스크	Single Agent	Reflection	Debate
Arithmetic	67.0%	72.1%	81.8%
GSM8K	77.0%	75.0%	85.0%
Biographies	66.0%	68.3%	73.8%
MMLU	63.9%	57.7%	71.1%

5.2 핵심 발견사항

(1) 토론이 가장 우수한 성능

모든 태스크에서 멀티에이전트 토론이 단일 에이전트 및 Reflection 대비 상당한 성능 향상 달성
특히 사실성 태스크에서 Reflection은 오히려 성능 저하를 보임 (MMLU: 63.9% → 57.7%)
토론은 사실성과 추론 모두에서 일관된 개선

(2) 창발적 정확성 (Emergent Correctness)

모든 에이전트가 초기에 틀린 답을 생성했더라도, 토론을 통해 올바른 답에 수렴하는 사례 발견
상호 비평과 추론 검토를 통해 오류 수정 가능

(3) 불확실성 표현

모델이 불확실한 사실에 대해 에이전트들이 서로 다른 답변을 제시
토론을 통해 불확실한 사실을 제거하거나 더 정확한 단일 사실로 수렴

(4) 동질성에도 불구한 다양성

동일한 모델 인스턴스들도 다양한 초기 응답 생성
이를 통해 다양한 추론 경로에 대한 상호 검토 가능

5.3 스케일링 효과

에이전트 수 증가

에이전트 수가 증가할수록 성능이 단조 증가
더 많은 관점과 추론 경로가 검토됨

토론 라운드 증가

라운드 수 증가에 따라 성능 향상
약 4라운드 이후 성능이 포화 상태에 도달

5.4 다른 기법과의 시너지

Chain-of-Thought(CoT)와 결합 시 추가적인 성능 향상
GSM8K에서 Zero-shot CoT + Debate 조합이 우수한 결과

5.5 이종 모델 간 토론

ChatGPT와 Bard 간의 토론 실험
두 모델 모두 개별적으로는 틀린 답을 생성
토론을 통해 올바른 최종 답에 도달
서로 다른 모델의 강점을 결합하는 시너지 효과

6. 분석 및 논의 (Discussion)

6.1 왜 토론이 효과적인가?

다양한 관점: 여러 에이전트가 다른 추론 경로 제공
상호 검증: 각 에이전트가 다른 에이전트의 논리적 오류 지적 가능
합의 수렴: 반복적인 토론을 통해 가장 설득력 있는 답으로 수렴

6.2 신뢰도 문제

흥미롭게도, 각 에이전트에게 직접 신뢰도를 물으면 높은 신뢰도를 보고
그러나 서로 소통하면 빠르게 답을 변경
이는 개별 신뢰도 평가의 한계를 시사

7. 한계점 (Limitations)

계산 비용: 여러 에이전트와 다중 라운드로 인해 추론 비용 증가
컨텍스트 처리: 긴 토론 기록 처리에 어려움을 겪는 경우 발생
신뢰도 보정 문제: 잘못된 합의 답변에도 높은 신뢰도 부여
수렴 실패 가능성: 일부 경우 잘못된 답으로 수렴할 수 있음

8. 결론 (Conclusion)

핵심 기여

다중 에이전트 토론 프레임워크 제안으로 LLM의 추론 및 사실성 개선
6개의 다양한 벤치마크에서 효과 검증
블랙박스 모델에 적용 가능한 실용적 방법론
전기 생성 벤치마크 새롭게 도입

의의

“Society of Minds” 접근법은 LLM의 성능을 향상시키는 새로운 패러다임을 제시하며, 언어 생성 및 이해 분야에서 추가적인 발전의 기반이 될 수 있다.

AI, Paper

This post is licensed under CC BY 4.0 by the author.