Do As We Do, Not As You Think: The Conformity of Large Language Models

Posted Mar 8, 2026 Updated Apr 16, 2026

By Jeong Mo, Hong

13 min read

논문 링크: https://arxiv.org/pdf/2501.13381
저자: Zhiyuan Weng, Guikun Chen, Wenguan Wang
발표: ICLR 2025 Oral (arXiv:2501.13381)
핵심 키워드: LLM Conformity, Multi-Agent Systems, BenchForm, Group Pressure, Independence Rate
코드/데이터: https://github.com/Zhiyuan-Weng/BenchForm

1. 서론 (Introduction)

연구 배경

LLM 기반 멀티에이전트 협업 시스템이 점점 더 널리 사용됨
인간 사회에서 관찰되는 동조(Conformity) 현상이 LLM에도 존재하는지 의문
Asch 동조 실험: 인간이 그룹 압력 하에서 명백히 틀린 답을 선택하는 현상

핵심 연구 질문

질문	내용
RQ1	LLM 기반 멀티에이전트 협업에서 동조가 존재하는가?
RQ2	어떤 요인들이 동조 행동에 영향을 미치는가?
RQ3	동조 효과를 어떻게 완화할 수 있는가?

핵심 발견

“LLM들이 그룹 합의에 영향을 받아 독립적 추론을 포기할 수 있으며, 이는 배포된 멀티에이전트 AI 시스템에 윤리적 우려를 제기한다”

인간의 동조 현상

Asch 동조 실험 (1951): 사회 심리학의 고전적 연구
그룹 압력이 개인의 판단에 미치는 영향 입증
명백히 틀린 답도 다수가 선택하면 따라가는 경향

LLM의 사회적 행동 연구

LLM이 인간과 유사한 사회적 편향을 보일 수 있음
기존 연구: 아첨(sycophancy), 권위에 대한 순응 등
본 연구의 차별점: 멀티에이전트 환경에서의 체계적 동조 분석

3. 방법론 (Methodology)

3.1 BenchForm 벤치마크

데이터셋 구성

출처: BIG-Bench Hard (BBH) 데이터셋
규모: 3,299개의 객관식 문제
분류:
- 논리적/분석적 추론 태스크
- 언어/맥락 이해 태스크

5가지 상호작용 프로토콜

프로토콜	설명	목적
Raw	단일 에이전트가 다른 영향 없이 답변	기준선(Baseline)
Correct Guidance	다른 에이전트들이 정답을 먼저 공유	올바른 안내 효과 측정
Wrong Guidance	다른 에이전트들이 오답을 먼저 공유	잘못된 안내 효과 측정
Trust	여러 라운드에서 처음엔 정답, 마지막에 오답 제시	신뢰 관계가 의사결정에 미치는 영향
Doubt	처음엔 오답, 마지막에 정답 제시 (Trust의 역)	의심 관계가 의사결정에 미치는 영향

실험 구성

에이전트 수: 7개 (1개 주체 에이전트 + 6개 추가 에이전트)
다수 크기(Majority Size): 기본값 6
Asch 실험에서 영감: 다수 크기가 LLM 동조에 미치는 영향 조사

3.2 평가 지표

지표	정의	의미
정확도 (AccP)	표준 정답률 측정	기본 성능
동조율 (Conformity Rate, CR)	원래 정답이었으나 프로토콜 적용 후 오답으로 바뀐 비율	그룹 압력에 대한 취약성
독립율 (Independence Rate, IR)	Trust와 Doubt 프로토콜 모두에서 일관되게 정답 유지 비율	독립적 사고 능력

3.3 평가 모델

총 11개 LLM 평가:

모델 계열	모델들
OpenAI	GPT-3.5, GPT-4
Llama3	8B, 70B
Llama3.1	8B, 70B, 405B
Gemma2	27B
Qwen2	7B, 72B

4. 실험 결과 (Results)

4.1 발견 I: 보편적 동조 경향

“평가된 모든 LLM이 동조 성향을 보였다”

주요 동조율 결과

모델	Trust 동조율	Doubt 동조율	독립율
GPT-4o	22.6%	30.2%	51.8%
Llama3.1-405B	24.1%	30.2%	52.1%
Gemma2-27B	29.1%	38.6%	39.9%
Qwen2-72B	30.5%	28.3%	57.6%

Doubt 프로토콜의 효과

평균 동조율 47.2%로 가장 효과적인 오류 유도
Wrong Guidance와 Trust 프로토콜보다 높음
LLM이 신뢰보다 의심 관계를 더 쉽게 형성함을 시사

4.2 발견 II: 모델 크기와 독립성 상관관계

“더 큰 모델일수록 더 높은 독립율을 보였다”

Qwen2 시리즈 비교

모델 크기	독립율
Qwen2-7B	9.6%
Qwen2-72B	57.6%

모델 크기와 독립적 의사결정 능력 간 명확한 양의 상관관계

4.3 발견 III: 모델별 특성

모델	특성
Qwen2-7B	높은 수용성 (Correct Guidance에서 98.7%), 의심 시나리오에 저항력 약함
Llama3.1 시리즈	외부 안내에 강한 저항 (70B 변형에서 Wrong Guidance 동조율 9.2%)
Qwen2-72B	프로토콜 전반에 걸쳐 균형 잡힌 독립적 사고

5. 동조에 영향을 미치는 요인 (Factors Influencing Conformity)

5.1 상호작용 시간 (Interaction Time)

“더 긴 토론 기록이 동조를 강화했다”

Llama3-70B 결과 (라운드 수 증가에 따른 변화)

라운드 수	Trust 동조율	Doubt 동조율	독립율
1 라운드	33.9%	62.3%	35.1%
5 라운드	44.4%	69.9%	28.6%

라운드가 증가할수록 동조율 상승, 독립율 하락
장기 상호작용이 LLM의 독립적 사고를 저해할 수 있음

5.2 동료 압력 / 다수 크기 (Peer Pressure / Majority Size)

“다수 크기가 상호작용 시간보다 더 강한 영향”

Llama3-70B의 Doubt 프로토콜 동조율

다수 크기	동조율
6명	69.9%
3명	32.6%

다수 크기가 절반으로 줄면 동조율도 약 절반으로 감소
흥미롭게도, 일부 모델에서는 단일 반대 의견이 오히려 동조를 강화하는 경우도 관찰

5.3 행동 분석 (Behavioral Analysis)

동조한 514개 사례에 대한 질적 분석:

Llama3-70B

카테고리	비율	설명
A&C (인정 & 동조)	50.8%	동조 영향을 인정
환각	빈번	동조 시 환각 생성
인지 불일치	관찰됨	올바른 추론을 인식하면서도 틀린 답 선택

Qwen2-72B

카테고리	비율	설명
A&C (인정 & 동조)	0.2% (1건)	동조 영향 거의 인정 안 함
D&S (부정 & 자기정당화)	87.4%	영향을 부정하고 자기 정당화
특이 행동	관찰됨	합리적 옵션 부재를 문제 삼음

6. 완화 전략 (Mitigation Strategies)

6.1 강화된 페르소나 (Empowered Persona)

접근법

독립적이고 비판적 사고를 강조하는 시스템 프롬프트 설계
“당신은 독립적인 사고를 하는 전문가입니다. 다른 의견에 휩쓸리지 마세요” 등

결과

모델	원래 독립율	개선된 독립율
Llama3-70B	28.6%	40.0% (+11.4%p)
Qwen2-72B	57.6%	68.6% (+11.0%p)

한계

다양한 모델 아키텍처에 걸쳐 범용적인 프롬프트 설계의 어려움

6.2 재확인 및 성찰 (Double-checking and Reflection)

접근법

모델에게 답변을 검증하도록 프롬프팅
“다시 한번 생각해보세요. 정말 이 답이 맞습니까?”

Llama3-70B 결과 (유의미한 개선)

지표	원래	성찰 후
Trust 동조율	44.4%	22.8%
Doubt 동조율	69.9%	35.2%
독립율	28.6%	68.5%

Qwen2-72B 결과 (역설적 효과)

지표	원래	성찰 후
Trust 동조율	30.5%	45.0% (악화!)

성찰 후 오히려 다수 의견에 더 동조하는 역설적 현상
재고려 과정에서 다수 의견을 다시 참조하여 동조 강화

7. 논의 (Discussion)

7.1 동조의 양면성

“동조는 양날의 검이다”

측면	긍정적 효과	부정적 효과
합의 형성	그룹 의사결정 촉진	잘못된 합의로 수렴 가능
협업	팀워크 향상	독립적 판단 저해
응용	일반적 작업에 유용	투표, 정책 권고 등 중요 결정에 위험

7.2 맥락 주의(Context Attention)의 한계

“LLM의 응답은 즉각적 입력뿐만 아니라 역사적 맥락에 의해 현저하게 영향받는다”

현재 컨텍스트 주의 메커니즘의 한계 지적
과거 대화 기록이 현재 판단에 과도한 영향

7.3 윤리적 함의

멀티에이전트 AI 시스템 배포 시 윤리적 우려 제기
중요한 의사결정(투표, 정책 등)에서의 위험성
더 강건하고 윤리적으로 정렬된 협업 AI 시스템 필요

8. 한계점 (Limitations)

한계	설명
태스크 범위	객관식 시나리오에 초점, 일반화 제한 가능
프로토콜 설정	다른 에이전트 답변을 먼저 보여주는 방식이 실제 상호작용과 다를 수 있음
학습 과정 투명성	특정 학습 과정에 대한 정보 부족으로 인과 분석 제한
실제 복잡성	실제 협업 시나리오의 전체 복잡성을 포착하지 못할 수 있음

9. 향후 연구 방향 (Future Directions)

BenchForm을 더 넓은 태스크 도메인으로 확장 (MMLU-Pro 등)
실제 협업을 모방하는 상호작용 프로토콜 개발 (그룹 토론, 논쟁 등)
초기 응답과 상호작용 후 설명 간의 일관성 탐구
테스트 타임 학습 및 인지 편향 완화 접근법 조사

10. 결론 (Conclusion)

핵심 기여

LLM 멀티에이전트 시스템에서 동조 현상의 존재 입증
BenchForm 벤치마크 및 5가지 상호작용 프로토콜 제안
동조에 영향을 미치는 요인 분석 (상호작용 시간, 다수 크기 등)
완화 전략 제안 및 효과 검증

핵심 메시지

“Do as we do, not as you think” - LLM들이 그룹 압력 하에서 독립적 사고보다 다수 의견에 동조하는 경향이 있다.

AI, Paper

This post is licensed under CC BY 4.0 by the author.