Improving Factuality and Reasoning in Language Models through Multiagent Debate
Improving Factuality and Reasoning in Language Models through Multiagent Debate
논문 링크: https://arxiv.org/pdf/2305.14325
- 저자: Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch
- 발표: ICML 2024 (arXiv:2305.14325, 2023년 5월 23일)
- 핵심 키워드: Large Language Models, Factuality, Reasoning, Multiagent Reasoning
1. 서론 (Introduction)
연구 배경
- 대규모 언어 모델(LLM)은 뛰어난 언어 이해 및 생성 능력을 보이지만, 사실성(Factuality)과 추론(Reasoning) 측면에서 여전히 한계가 있음
- 현대 LLM들은 환각(Hallucination) 현상이 빈번히 발생하여 사실과 다른 정보를 생성
- 복잡한 수학적/전략적 추론 문제에서 오류가 자주 발생
핵심 아이디어
- “Society of Minds” 접근법 제안
- 동일한 언어 모델의 여러 인스턴스를 다중 에이전트 사회로 취급
- 각 에이전트가 서로의 응답을 읽고 비평하며, 여러 라운드에 걸쳐 토론을 통해 최종 합의된 답을 도출
2. 관련 연구 (Related Work)
기존 접근법들
- Self-Consistency: 여러 추론 경로를 샘플링하여 다수결로 답 선택
- Chain-of-Thought (CoT): 단계별 추론 과정을 명시적으로 생성
- Reflection: 단일 에이전트가 자신의 응답을 스스로 검토하고 수정
본 연구의 차별점
- 기존 방법들은 단일 에이전트 기반
- 본 연구는 다중 에이전트 간 상호작용을 통해 집단 지성 효과 활용
- 블랙박스 모델에 직접 적용 가능하며, 모델 재학습 불필요
3. 방법론 (Method)
3.1 기본 절차
단계 1: 개별 응답 생성
- 다수의 언어 모델 인스턴스가 주어진 질문에 대해 독립적으로 초기 답변 생성
단계 2: 토론 (Debate)
- 각 에이전트는 다른 모든 에이전트의 응답을 읽음
- 다른 에이전트들의 추론 과정을 비평하고 분석
- 이를 바탕으로 자신의 답변을 업데이트
단계 3: 반복
- 위 과정을 여러 라운드에 걸쳐 반복
- 최종적으로 합의된 답변 도출
3.2 실험 설정
- 에이전트 수: 기본적으로 3개의 언어 모델 에이전트 사용
- 토론 라운드: 2라운드 (계산 비용 고려)
- 프롬프트 유형:
- Short prompt: 빠른 수렴 유도
- Long prompt: 더 깊은 숙고를 통해 우수한 최종 해답 도출
3.3 합의 프롬프트 (Consensus Prompt)
각 에이전트에게 다른 에이전트들의 응답을 제공하며, 다음과 같은 지시를 포함:
- 다른 에이전트들의 추론 과정 검토
- 자신의 답변과 비교 분석
- 필요시 답변 수정 또는 유지
4. 실험 (Experiments)
4.1 평가 태스크
추론 태스크 (Reasoning Tasks)
- Arithmetic (산술 연산)
- 6개의 두 자리 숫자로 구성된 산술 표현식 계산
- 예: “12+1521+0-327의 결과는?”
- 덧셈, 곱셈, 뺄셈 포함
- GSM8K (Grade School Math)
- 초등학교 수준의 수학 문장제 문제
- 복잡한 다단계 추론 필요
- 실생활 맥락의 문제 해결
- Chess Move Prediction (체스 수 예측)
- 체스 게임의 처음 14수가 주어짐
- 최적의 다음 수 예측
- 전략적 추론 능력 평가
- Stockfish 엔진으로 예측된 수의 폰 점수(advantage) 측정
사실성 태스크 (Factuality Tasks)
- Biographies (전기)
- 컴퓨터 과학자의 전기 생성 (새로운 벤치마크 도입)
- 실존 인물의 소속 기관, 날짜 등 사실 정보 검증
- LLM이 사실과 다른 전기를 “환각”하는 경향이 높음 발견
- MMLU (Massive Multitask Language Understanding)
- 다양한 분야의 사실적 지식 질문
- 객관식 형태
- Chess Move Validity (체스 수 유효성)
- 규칙에 맞는 합법적인 체스 수 생성
- 사실적 규칙 준수 능력 평가
4.2 비교 기준선 (Baselines)
- Single Agent: 단일 에이전트의 직접 응답
- Reflection: 단일 에이전트가 자신의 응답을 검토하고 수정
- Self-Consistency: 여러 샘플링 후 다수결
5. 결과 (Results)
5.1 주요 성능 비교
| 태스크 | Single Agent | Reflection | Debate |
|---|---|---|---|
| Arithmetic | 67.0% | 72.1% | 81.8% |
| GSM8K | 77.0% | 75.0% | 85.0% |
| Biographies | 66.0% | 68.3% | 73.8% |
| MMLU | 63.9% | 57.7% | 71.1% |
5.2 핵심 발견사항
(1) 토론이 가장 우수한 성능
- 모든 태스크에서 멀티에이전트 토론이 단일 에이전트 및 Reflection 대비 상당한 성능 향상 달성
- 특히 사실성 태스크에서 Reflection은 오히려 성능 저하를 보임 (MMLU: 63.9% → 57.7%)
- 토론은 사실성과 추론 모두에서 일관된 개선
(2) 창발적 정확성 (Emergent Correctness)
- 모든 에이전트가 초기에 틀린 답을 생성했더라도, 토론을 통해 올바른 답에 수렴하는 사례 발견
- 상호 비평과 추론 검토를 통해 오류 수정 가능
(3) 불확실성 표현
- 모델이 불확실한 사실에 대해 에이전트들이 서로 다른 답변을 제시
- 토론을 통해 불확실한 사실을 제거하거나 더 정확한 단일 사실로 수렴
(4) 동질성에도 불구한 다양성
- 동일한 모델 인스턴스들도 다양한 초기 응답 생성
- 이를 통해 다양한 추론 경로에 대한 상호 검토 가능
5.3 스케일링 효과
에이전트 수 증가
- 에이전트 수가 증가할수록 성능이 단조 증가
- 더 많은 관점과 추론 경로가 검토됨
토론 라운드 증가
- 라운드 수 증가에 따라 성능 향상
- 약 4라운드 이후 성능이 포화 상태에 도달
5.4 다른 기법과의 시너지
- Chain-of-Thought(CoT)와 결합 시 추가적인 성능 향상
- GSM8K에서 Zero-shot CoT + Debate 조합이 우수한 결과
5.5 이종 모델 간 토론
- ChatGPT와 Bard 간의 토론 실험
- 두 모델 모두 개별적으로는 틀린 답을 생성
- 토론을 통해 올바른 최종 답에 도달
- 서로 다른 모델의 강점을 결합하는 시너지 효과
6. 분석 및 논의 (Discussion)
6.1 왜 토론이 효과적인가?
- 다양한 관점: 여러 에이전트가 다른 추론 경로 제공
- 상호 검증: 각 에이전트가 다른 에이전트의 논리적 오류 지적 가능
- 합의 수렴: 반복적인 토론을 통해 가장 설득력 있는 답으로 수렴
6.2 신뢰도 문제
- 흥미롭게도, 각 에이전트에게 직접 신뢰도를 물으면 높은 신뢰도를 보고
- 그러나 서로 소통하면 빠르게 답을 변경
- 이는 개별 신뢰도 평가의 한계를 시사
7. 한계점 (Limitations)
- 계산 비용: 여러 에이전트와 다중 라운드로 인해 추론 비용 증가
- 컨텍스트 처리: 긴 토론 기록 처리에 어려움을 겪는 경우 발생
- 신뢰도 보정 문제: 잘못된 합의 답변에도 높은 신뢰도 부여
- 수렴 실패 가능성: 일부 경우 잘못된 답으로 수렴할 수 있음
8. 결론 (Conclusion)
핵심 기여
- 다중 에이전트 토론 프레임워크 제안으로 LLM의 추론 및 사실성 개선
- 6개의 다양한 벤치마크에서 효과 검증
- 블랙박스 모델에 적용 가능한 실용적 방법론
- 전기 생성 벤치마크 새롭게 도입
의의
“Society of Minds” 접근법은 LLM의 성능을 향상시키는 새로운 패러다임을 제시하며, 언어 생성 및 이해 분야에서 추가적인 발전의 기반이 될 수 있다.
This post is licensed under CC BY 4.0 by the author.