Post

Do As We Do, Not As You Think: The Conformity of Large Language Models

Do As We Do, Not As You Think: The Conformity of Large Language Models

논문 링크: https://arxiv.org/pdf/2501.13381

  • 저자: Zhiyuan Weng, Guikun Chen, Wenguan Wang
  • 발표: ICLR 2025 Oral (arXiv:2501.13381)
  • 핵심 키워드: LLM Conformity, Multi-Agent Systems, BenchForm, Group Pressure, Independence Rate
  • 코드/데이터: https://github.com/Zhiyuan-Weng/BenchForm

1. 서론 (Introduction)

연구 배경

  • LLM 기반 멀티에이전트 협업 시스템이 점점 더 널리 사용됨
  • 인간 사회에서 관찰되는 동조(Conformity) 현상이 LLM에도 존재하는지 의문
  • Asch 동조 실험: 인간이 그룹 압력 하에서 명백히 틀린 답을 선택하는 현상

핵심 연구 질문

질문내용
RQ1LLM 기반 멀티에이전트 협업에서 동조가 존재하는가?
RQ2어떤 요인들이 동조 행동에 영향을 미치는가?
RQ3동조 효과를 어떻게 완화할 수 있는가?

핵심 발견

“LLM들이 그룹 합의에 영향을 받아 독립적 추론을 포기할 수 있으며, 이는 배포된 멀티에이전트 AI 시스템에 윤리적 우려를 제기한다”


인간의 동조 현상

  • Asch 동조 실험 (1951): 사회 심리학의 고전적 연구
  • 그룹 압력이 개인의 판단에 미치는 영향 입증
  • 명백히 틀린 답도 다수가 선택하면 따라가는 경향

LLM의 사회적 행동 연구

  • LLM이 인간과 유사한 사회적 편향을 보일 수 있음
  • 기존 연구: 아첨(sycophancy), 권위에 대한 순응 등
  • 본 연구의 차별점: 멀티에이전트 환경에서의 체계적 동조 분석

3. 방법론 (Methodology)

3.1 BenchForm 벤치마크

데이터셋 구성

  • 출처: BIG-Bench Hard (BBH) 데이터셋
  • 규모: 3,299개의 객관식 문제
  • 분류:
    • 논리적/분석적 추론 태스크
    • 언어/맥락 이해 태스크

5가지 상호작용 프로토콜

프로토콜설명목적
Raw단일 에이전트가 다른 영향 없이 답변기준선(Baseline)
Correct Guidance다른 에이전트들이 정답을 먼저 공유올바른 안내 효과 측정
Wrong Guidance다른 에이전트들이 오답을 먼저 공유잘못된 안내 효과 측정
Trust여러 라운드에서 처음엔 정답, 마지막에 오답 제시신뢰 관계가 의사결정에 미치는 영향
Doubt처음엔 오답, 마지막에 정답 제시 (Trust의 역)의심 관계가 의사결정에 미치는 영향

실험 구성

  • 에이전트 수: 7개 (1개 주체 에이전트 + 6개 추가 에이전트)
  • 다수 크기(Majority Size): 기본값 6
  • Asch 실험에서 영감: 다수 크기가 LLM 동조에 미치는 영향 조사

3.2 평가 지표

지표정의의미
정확도 (AccP)표준 정답률 측정기본 성능
동조율 (Conformity Rate, CR)원래 정답이었으나 프로토콜 적용 후 오답으로 바뀐 비율그룹 압력에 대한 취약성
독립율 (Independence Rate, IR)Trust와 Doubt 프로토콜 모두에서 일관되게 정답 유지 비율독립적 사고 능력

3.3 평가 모델

총 11개 LLM 평가:

모델 계열모델들
OpenAIGPT-3.5, GPT-4
Llama38B, 70B
Llama3.18B, 70B, 405B
Gemma227B
Qwen27B, 72B

4. 실험 결과 (Results)

4.1 발견 I: 보편적 동조 경향

“평가된 모든 LLM이 동조 성향을 보였다”

주요 동조율 결과

모델Trust 동조율Doubt 동조율독립율
GPT-4o22.6%30.2%51.8%
Llama3.1-405B24.1%30.2%52.1%
Gemma2-27B29.1%38.6%39.9%
Qwen2-72B30.5%28.3%57.6%

Doubt 프로토콜의 효과

  • 평균 동조율 47.2%로 가장 효과적인 오류 유도
  • Wrong Guidance와 Trust 프로토콜보다 높음
  • LLM이 신뢰보다 의심 관계를 더 쉽게 형성함을 시사

4.2 발견 II: 모델 크기와 독립성 상관관계

“더 큰 모델일수록 더 높은 독립율을 보였다”

Qwen2 시리즈 비교

모델 크기독립율
Qwen2-7B9.6%
Qwen2-72B57.6%
  • 모델 크기와 독립적 의사결정 능력 간 명확한 양의 상관관계

4.3 발견 III: 모델별 특성

모델특성
Qwen2-7B높은 수용성 (Correct Guidance에서 98.7%), 의심 시나리오에 저항력 약함
Llama3.1 시리즈외부 안내에 강한 저항 (70B 변형에서 Wrong Guidance 동조율 9.2%)
Qwen2-72B프로토콜 전반에 걸쳐 균형 잡힌 독립적 사고

5. 동조에 영향을 미치는 요인 (Factors Influencing Conformity)

5.1 상호작용 시간 (Interaction Time)

“더 긴 토론 기록이 동조를 강화했다”

Llama3-70B 결과 (라운드 수 증가에 따른 변화)

라운드 수Trust 동조율Doubt 동조율독립율
1 라운드33.9%62.3%35.1%
5 라운드44.4%69.9%28.6%
  • 라운드가 증가할수록 동조율 상승, 독립율 하락
  • 장기 상호작용이 LLM의 독립적 사고를 저해할 수 있음

5.2 동료 압력 / 다수 크기 (Peer Pressure / Majority Size)

“다수 크기가 상호작용 시간보다 더 강한 영향”

Llama3-70B의 Doubt 프로토콜 동조율

다수 크기동조율
6명69.9%
3명32.6%
  • 다수 크기가 절반으로 줄면 동조율도 약 절반으로 감소
  • 흥미롭게도, 일부 모델에서는 단일 반대 의견이 오히려 동조를 강화하는 경우도 관찰

5.3 행동 분석 (Behavioral Analysis)

동조한 514개 사례에 대한 질적 분석:

Llama3-70B

카테고리비율설명
A&C (인정 & 동조)50.8%동조 영향을 인정
환각빈번동조 시 환각 생성
인지 불일치관찰됨올바른 추론을 인식하면서도 틀린 답 선택

Qwen2-72B

카테고리비율설명
A&C (인정 & 동조)0.2% (1건)동조 영향 거의 인정 안 함
D&S (부정 & 자기정당화)87.4%영향을 부정하고 자기 정당화
특이 행동관찰됨합리적 옵션 부재를 문제 삼음

6. 완화 전략 (Mitigation Strategies)

6.1 강화된 페르소나 (Empowered Persona)

접근법

  • 독립적이고 비판적 사고를 강조하는 시스템 프롬프트 설계
  • “당신은 독립적인 사고를 하는 전문가입니다. 다른 의견에 휩쓸리지 마세요” 등

결과

모델원래 독립율개선된 독립율
Llama3-70B28.6%40.0% (+11.4%p)
Qwen2-72B57.6%68.6% (+11.0%p)

한계

  • 다양한 모델 아키텍처에 걸쳐 범용적인 프롬프트 설계의 어려움

6.2 재확인 및 성찰 (Double-checking and Reflection)

접근법

  • 모델에게 답변을 검증하도록 프롬프팅
  • “다시 한번 생각해보세요. 정말 이 답이 맞습니까?”

Llama3-70B 결과 (유의미한 개선)

지표원래성찰 후
Trust 동조율44.4%22.8%
Doubt 동조율69.9%35.2%
독립율28.6%68.5%

Qwen2-72B 결과 (역설적 효과)

지표원래성찰 후
Trust 동조율30.5%45.0% (악화!)
  • 성찰 후 오히려 다수 의견에 더 동조하는 역설적 현상
  • 재고려 과정에서 다수 의견을 다시 참조하여 동조 강화

7. 논의 (Discussion)

7.1 동조의 양면성

“동조는 양날의 검이다”

측면긍정적 효과부정적 효과
합의 형성그룹 의사결정 촉진잘못된 합의로 수렴 가능
협업팀워크 향상독립적 판단 저해
응용일반적 작업에 유용투표, 정책 권고 등 중요 결정에 위험

7.2 맥락 주의(Context Attention)의 한계

“LLM의 응답은 즉각적 입력뿐만 아니라 역사적 맥락에 의해 현저하게 영향받는다”

  • 현재 컨텍스트 주의 메커니즘의 한계 지적
  • 과거 대화 기록이 현재 판단에 과도한 영향

7.3 윤리적 함의

  • 멀티에이전트 AI 시스템 배포 시 윤리적 우려 제기
  • 중요한 의사결정(투표, 정책 등)에서의 위험성
  • 더 강건하고 윤리적으로 정렬된 협업 AI 시스템 필요

8. 한계점 (Limitations)

한계설명
태스크 범위객관식 시나리오에 초점, 일반화 제한 가능
프로토콜 설정다른 에이전트 답변을 먼저 보여주는 방식이 실제 상호작용과 다를 수 있음
학습 과정 투명성특정 학습 과정에 대한 정보 부족으로 인과 분석 제한
실제 복잡성실제 협업 시나리오의 전체 복잡성을 포착하지 못할 수 있음

9. 향후 연구 방향 (Future Directions)

  1. BenchForm을 더 넓은 태스크 도메인으로 확장 (MMLU-Pro 등)
  2. 실제 협업을 모방하는 상호작용 프로토콜 개발 (그룹 토론, 논쟁 등)
  3. 초기 응답과 상호작용 후 설명 간의 일관성 탐구
  4. 테스트 타임 학습 및 인지 편향 완화 접근법 조사

10. 결론 (Conclusion)

핵심 기여

  1. LLM 멀티에이전트 시스템에서 동조 현상의 존재 입증
  2. BenchForm 벤치마크 및 5가지 상호작용 프로토콜 제안
  3. 동조에 영향을 미치는 요인 분석 (상호작용 시간, 다수 크기 등)
  4. 완화 전략 제안 및 효과 검증

핵심 메시지

“Do as we do, not as you think” - LLM들이 그룹 압력 하에서 독립적 사고보다 다수 의견에 동조하는 경향이 있다.

This post is licensed under CC BY 4.0 by the author.