Do As We Do, Not As You Think: The Conformity of Large Language Models
Do As We Do, Not As You Think: The Conformity of Large Language Models
논문 링크: https://arxiv.org/pdf/2501.13381
- 저자: Zhiyuan Weng, Guikun Chen, Wenguan Wang
- 발표: ICLR 2025 Oral (arXiv:2501.13381)
- 핵심 키워드: LLM Conformity, Multi-Agent Systems, BenchForm, Group Pressure, Independence Rate
- 코드/데이터: https://github.com/Zhiyuan-Weng/BenchForm
1. 서론 (Introduction)
연구 배경
- LLM 기반 멀티에이전트 협업 시스템이 점점 더 널리 사용됨
- 인간 사회에서 관찰되는 동조(Conformity) 현상이 LLM에도 존재하는지 의문
- Asch 동조 실험: 인간이 그룹 압력 하에서 명백히 틀린 답을 선택하는 현상
핵심 연구 질문
| 질문 | 내용 |
|---|---|
| RQ1 | LLM 기반 멀티에이전트 협업에서 동조가 존재하는가? |
| RQ2 | 어떤 요인들이 동조 행동에 영향을 미치는가? |
| RQ3 | 동조 효과를 어떻게 완화할 수 있는가? |
핵심 발견
“LLM들이 그룹 합의에 영향을 받아 독립적 추론을 포기할 수 있으며, 이는 배포된 멀티에이전트 AI 시스템에 윤리적 우려를 제기한다”
2. 관련 연구 (Related Work)
인간의 동조 현상
- Asch 동조 실험 (1951): 사회 심리학의 고전적 연구
- 그룹 압력이 개인의 판단에 미치는 영향 입증
- 명백히 틀린 답도 다수가 선택하면 따라가는 경향
LLM의 사회적 행동 연구
- LLM이 인간과 유사한 사회적 편향을 보일 수 있음
- 기존 연구: 아첨(sycophancy), 권위에 대한 순응 등
- 본 연구의 차별점: 멀티에이전트 환경에서의 체계적 동조 분석
3. 방법론 (Methodology)
3.1 BenchForm 벤치마크
데이터셋 구성
- 출처: BIG-Bench Hard (BBH) 데이터셋
- 규모: 3,299개의 객관식 문제
- 분류:
- 논리적/분석적 추론 태스크
- 언어/맥락 이해 태스크
5가지 상호작용 프로토콜
| 프로토콜 | 설명 | 목적 |
|---|---|---|
| Raw | 단일 에이전트가 다른 영향 없이 답변 | 기준선(Baseline) |
| Correct Guidance | 다른 에이전트들이 정답을 먼저 공유 | 올바른 안내 효과 측정 |
| Wrong Guidance | 다른 에이전트들이 오답을 먼저 공유 | 잘못된 안내 효과 측정 |
| Trust | 여러 라운드에서 처음엔 정답, 마지막에 오답 제시 | 신뢰 관계가 의사결정에 미치는 영향 |
| Doubt | 처음엔 오답, 마지막에 정답 제시 (Trust의 역) | 의심 관계가 의사결정에 미치는 영향 |
실험 구성
- 에이전트 수: 7개 (1개 주체 에이전트 + 6개 추가 에이전트)
- 다수 크기(Majority Size): 기본값 6
- Asch 실험에서 영감: 다수 크기가 LLM 동조에 미치는 영향 조사
3.2 평가 지표
| 지표 | 정의 | 의미 |
|---|---|---|
| 정확도 (AccP) | 표준 정답률 측정 | 기본 성능 |
| 동조율 (Conformity Rate, CR) | 원래 정답이었으나 프로토콜 적용 후 오답으로 바뀐 비율 | 그룹 압력에 대한 취약성 |
| 독립율 (Independence Rate, IR) | Trust와 Doubt 프로토콜 모두에서 일관되게 정답 유지 비율 | 독립적 사고 능력 |
3.3 평가 모델
총 11개 LLM 평가:
| 모델 계열 | 모델들 |
|---|---|
| OpenAI | GPT-3.5, GPT-4 |
| Llama3 | 8B, 70B |
| Llama3.1 | 8B, 70B, 405B |
| Gemma2 | 27B |
| Qwen2 | 7B, 72B |
4. 실험 결과 (Results)
4.1 발견 I: 보편적 동조 경향
“평가된 모든 LLM이 동조 성향을 보였다”
주요 동조율 결과
| 모델 | Trust 동조율 | Doubt 동조율 | 독립율 |
|---|---|---|---|
| GPT-4o | 22.6% | 30.2% | 51.8% |
| Llama3.1-405B | 24.1% | 30.2% | 52.1% |
| Gemma2-27B | 29.1% | 38.6% | 39.9% |
| Qwen2-72B | 30.5% | 28.3% | 57.6% |
Doubt 프로토콜의 효과
- 평균 동조율 47.2%로 가장 효과적인 오류 유도
- Wrong Guidance와 Trust 프로토콜보다 높음
- LLM이 신뢰보다 의심 관계를 더 쉽게 형성함을 시사
4.2 발견 II: 모델 크기와 독립성 상관관계
“더 큰 모델일수록 더 높은 독립율을 보였다”
Qwen2 시리즈 비교
| 모델 크기 | 독립율 |
|---|---|
| Qwen2-7B | 9.6% |
| Qwen2-72B | 57.6% |
- 모델 크기와 독립적 의사결정 능력 간 명확한 양의 상관관계
4.3 발견 III: 모델별 특성
| 모델 | 특성 |
|---|---|
| Qwen2-7B | 높은 수용성 (Correct Guidance에서 98.7%), 의심 시나리오에 저항력 약함 |
| Llama3.1 시리즈 | 외부 안내에 강한 저항 (70B 변형에서 Wrong Guidance 동조율 9.2%) |
| Qwen2-72B | 프로토콜 전반에 걸쳐 균형 잡힌 독립적 사고 |
5. 동조에 영향을 미치는 요인 (Factors Influencing Conformity)
5.1 상호작용 시간 (Interaction Time)
“더 긴 토론 기록이 동조를 강화했다”
Llama3-70B 결과 (라운드 수 증가에 따른 변화)
| 라운드 수 | Trust 동조율 | Doubt 동조율 | 독립율 |
|---|---|---|---|
| 1 라운드 | 33.9% | 62.3% | 35.1% |
| 5 라운드 | 44.4% | 69.9% | 28.6% |
- 라운드가 증가할수록 동조율 상승, 독립율 하락
- 장기 상호작용이 LLM의 독립적 사고를 저해할 수 있음
5.2 동료 압력 / 다수 크기 (Peer Pressure / Majority Size)
“다수 크기가 상호작용 시간보다 더 강한 영향”
Llama3-70B의 Doubt 프로토콜 동조율
| 다수 크기 | 동조율 |
|---|---|
| 6명 | 69.9% |
| 3명 | 32.6% |
- 다수 크기가 절반으로 줄면 동조율도 약 절반으로 감소
- 흥미롭게도, 일부 모델에서는 단일 반대 의견이 오히려 동조를 강화하는 경우도 관찰
5.3 행동 분석 (Behavioral Analysis)
동조한 514개 사례에 대한 질적 분석:
Llama3-70B
| 카테고리 | 비율 | 설명 |
|---|---|---|
| A&C (인정 & 동조) | 50.8% | 동조 영향을 인정 |
| 환각 | 빈번 | 동조 시 환각 생성 |
| 인지 불일치 | 관찰됨 | 올바른 추론을 인식하면서도 틀린 답 선택 |
Qwen2-72B
| 카테고리 | 비율 | 설명 |
|---|---|---|
| A&C (인정 & 동조) | 0.2% (1건) | 동조 영향 거의 인정 안 함 |
| D&S (부정 & 자기정당화) | 87.4% | 영향을 부정하고 자기 정당화 |
| 특이 행동 | 관찰됨 | 합리적 옵션 부재를 문제 삼음 |
6. 완화 전략 (Mitigation Strategies)
6.1 강화된 페르소나 (Empowered Persona)
접근법
- 독립적이고 비판적 사고를 강조하는 시스템 프롬프트 설계
- “당신은 독립적인 사고를 하는 전문가입니다. 다른 의견에 휩쓸리지 마세요” 등
결과
| 모델 | 원래 독립율 | 개선된 독립율 |
|---|---|---|
| Llama3-70B | 28.6% | 40.0% (+11.4%p) |
| Qwen2-72B | 57.6% | 68.6% (+11.0%p) |
한계
- 다양한 모델 아키텍처에 걸쳐 범용적인 프롬프트 설계의 어려움
6.2 재확인 및 성찰 (Double-checking and Reflection)
접근법
- 모델에게 답변을 검증하도록 프롬프팅
- “다시 한번 생각해보세요. 정말 이 답이 맞습니까?”
Llama3-70B 결과 (유의미한 개선)
| 지표 | 원래 | 성찰 후 |
|---|---|---|
| Trust 동조율 | 44.4% | 22.8% |
| Doubt 동조율 | 69.9% | 35.2% |
| 독립율 | 28.6% | 68.5% |
Qwen2-72B 결과 (역설적 효과)
| 지표 | 원래 | 성찰 후 |
|---|---|---|
| Trust 동조율 | 30.5% | 45.0% (악화!) |
- 성찰 후 오히려 다수 의견에 더 동조하는 역설적 현상
- 재고려 과정에서 다수 의견을 다시 참조하여 동조 강화
7. 논의 (Discussion)
7.1 동조의 양면성
“동조는 양날의 검이다”
| 측면 | 긍정적 효과 | 부정적 효과 |
|---|---|---|
| 합의 형성 | 그룹 의사결정 촉진 | 잘못된 합의로 수렴 가능 |
| 협업 | 팀워크 향상 | 독립적 판단 저해 |
| 응용 | 일반적 작업에 유용 | 투표, 정책 권고 등 중요 결정에 위험 |
7.2 맥락 주의(Context Attention)의 한계
“LLM의 응답은 즉각적 입력뿐만 아니라 역사적 맥락에 의해 현저하게 영향받는다”
- 현재 컨텍스트 주의 메커니즘의 한계 지적
- 과거 대화 기록이 현재 판단에 과도한 영향
7.3 윤리적 함의
- 멀티에이전트 AI 시스템 배포 시 윤리적 우려 제기
- 중요한 의사결정(투표, 정책 등)에서의 위험성
- 더 강건하고 윤리적으로 정렬된 협업 AI 시스템 필요
8. 한계점 (Limitations)
| 한계 | 설명 |
|---|---|
| 태스크 범위 | 객관식 시나리오에 초점, 일반화 제한 가능 |
| 프로토콜 설정 | 다른 에이전트 답변을 먼저 보여주는 방식이 실제 상호작용과 다를 수 있음 |
| 학습 과정 투명성 | 특정 학습 과정에 대한 정보 부족으로 인과 분석 제한 |
| 실제 복잡성 | 실제 협업 시나리오의 전체 복잡성을 포착하지 못할 수 있음 |
9. 향후 연구 방향 (Future Directions)
- BenchForm을 더 넓은 태스크 도메인으로 확장 (MMLU-Pro 등)
- 실제 협업을 모방하는 상호작용 프로토콜 개발 (그룹 토론, 논쟁 등)
- 초기 응답과 상호작용 후 설명 간의 일관성 탐구
- 테스트 타임 학습 및 인지 편향 완화 접근법 조사
10. 결론 (Conclusion)
핵심 기여
- LLM 멀티에이전트 시스템에서 동조 현상의 존재 입증
- BenchForm 벤치마크 및 5가지 상호작용 프로토콜 제안
- 동조에 영향을 미치는 요인 분석 (상호작용 시간, 다수 크기 등)
- 완화 전략 제안 및 효과 검증
핵심 메시지
“Do as we do, not as you think” - LLM들이 그룹 압력 하에서 독립적 사고보다 다수 의견에 동조하는 경향이 있다.
This post is licensed under CC BY 4.0 by the author.