← 메인으로

인간과 AI의 시너지, 어떻게 측정하고 극대화할까?

게시일: 2025년 12월 7일 | 원문 작성일: 2025년 10월 1일 | 저자: Christoph Riedl, Ben Weidmann | 원문 보기

픽셀 아트 스타일의 일러스트: 안경 쓴 과학자와 친근한 로봇이 함께 데이터를 분석하며, 상단에 'SYNERGY METER'가 θ에서 κ까지의 시너지 수준을 표시하고 있다

핵심 요약: 이 연구가 중요한 진짜 이유

  • AI 가치 평가의 패러다임 전환: 이제 ‘IQ’가 아닌 ‘팀워크 EQ’를 측정해야 합니다. MMLU 같은 정적 벤치마크 점수가 아닌, 인간과의 ‘시너지’를 정량적으로 측정할 새로운 프레임워크가 필요합니다.
  • AI 협업 능력은 완전히 새로운 역량입니다: 데이터를 통해 AI 없이 혼자 일하는 능력(θ)과 AI와 함께 일할 때 발휘되는 협업 능력(κ)이 통계적으로 명확히 구분되는 별개의 역량임이 증명되었습니다.
  • 시너지의 비밀, ‘마음 이론(ToM)’: AI와의 협업 능력을 결정하는 핵심 열쇠는 바로 상대방의 의도와 지식을 추론하는 ‘마음 이론(Theory of Mind)‘입니다.
  • AI의 이중 효과: AI는 저성과자의 성과를 끌어올려 격차를 줄이는 ‘평준화 효과’와, 고성과자가 더 높은 절대적 성과를 달성하게 돕는 ‘보완 효과’를 동시에 가져옵니다.

바쁜 여러분을 위해 이 연구가 AI 분야에 던지는 핵심적인 시사점을 먼저 요약해 드렸습니다. 5분만 투자하면, 왜 이 논문이 단순한 학술 연구를 넘어 우리 모두의 일하는 방식을 바꿀 중요한 전환점이 될 수 있는지 이해하게 되실 겁니다.

1. 시작하며: 기존 AI 성능 평가는 왜 반쪽짜리인가?

우리는 그동안 AI의 ‘수능 점수’에만 집착해왔습니다. MMLU 몇 점, BIG-Bench 몇 등… 하지만 이 숫자들은 AI가 실제 우리 업무에 들어왔을 때 유능한 ‘팀원’이 될지, 아니면 말귀 못 알아듣는 ‘고집불통 천재’가 될지 알려주지 못합니다. 이 연구는 바로 그 ‘팀워크’라는, 지금까지 측정하기 어려웠던 AI의 진짜 가치에 주목합니다.

현재 주류 AI 벤치마크들에는 세 가지 근본적인 한계가 있습니다.

  • 복잡한 현실 문제 해결 능력의 한계: 잘 정의된 정적 문제 풀이에는 능하지만, 맥락이 복잡하고 정답이 열려 있는 현실 세계의 문제 앞에서는 효율성이 떨어집니다.
  • 진정한 협업 능력의 부재: 인간 사용자를 돕기보다, 그저 사용자의 의견에 동조하는 듯한 ‘아부성 행동(sycophantic behavior)‘을 보이거나 소통에 실패하는 경우가 많습니다.
  • 인간 능력의 ‘보완’이 아닌 ‘모방’에 집중: 인간의 능력을 뛰어넘거나 부족한 부분을 채워주는 파트너가 되기보다는, 인간의 능력을 그저 흉내 내는 방향으로 최적화되는 경향이 있습니다.

이 글에서는 바로 이 질문에 답하기 위한 새로운 평가 프레임워크를 심도 있게 분석해보고자 합니다. 기존 방식의 한계를 넘어, 인간과 AI의 ‘진짜 시너지’를 어떻게 측정하고 극대화할 수 있는지 그 가능성을 함께 탐색해 보겠습니다.

2. 새로운 측정법: ‘진짜 시너지’를 정량화하는 프레임워크

”AI 덕분에 생산성이 올랐다”는 말은 이제 흔한 이야기가 되었습니다. 하지만 그 성과가 정말 순수하게 AI 덕분일까요, 아니면 원래 유능한 직원이 쉬운 과제를 맡았기 때문일까요? 인간-AI 시너지를 제대로 측정하는 건 생각보다 까다롭습니다. 개인의 원래 능력이나 과제의 난이도 같은 변수들을 정밀하게 통제하고, 오직 ‘AI와의 협업’을 통해 얻어진 순수한 가치만 분리해내야 하기 때문입니다.

이 연구는 심리측정학에서 널리 쓰이는 ‘항목 반응 이론(Item Response Theory, IRT)‘을 활용해 이 문제를 해결합니다. IRT 프레임워크는 각 사용자의 성과를 다음과 같은 핵심 요소로 나누어 분석합니다.

  • 개인 능력(Individual Ability, θ): 사용자가 AI 없이 혼자 문제를 해결하는 순수한 능력입니다. 일종의 ‘솔로 플레이’ 실력이라고 할 수 있습니다.
  • 팀 능력(Joint Ability, κ): 사용자가 AI와 팀을 이뤄 문제를 해결할 때의 종합적인 성과를 나타내는 지표입니다. 개인 능력(θ)에 순수한 시너지 효과가 더해진 값이죠.

“팀 능력(κ)에서 개인 능력(θ)을 빼면, AI와의 협업을 통해 얻어진 순수한 성과 향상분, 즉 ‘AI 부스트(AI Boost)‘가 정확하게 계산됩니다.”

이 지표를 통해 우리는 “누가 AI의 혜택을 가장 많이 보는가?” 혹은 “어떤 종류의 사람이 AI와 시너지를 더 잘 내는가?”와 같은 아주 중요한 질문에 데이터로 답을 찾을 수 있게 됩니다.

3. 분석 결과: 데이터로 확인한 시너지의 실체

지금까지 추상적인 개념으로만 논의되던 ‘인간-AI 시너지’가 실제 데이터를 통해 어떻게 측정되고, 어떤 흥미로운 패턴을 보이는지 구체적으로 확인해 보겠습니다.

3.1. GPT-4o vs. Llama: 어떤 AI가 더 나은 협업 파트너인가?

먼저, 서로 다른 성능을 가진 두 AI 모델(GPT-4o와 Llama-3.1-8B)이 인간과 팀을 이루었을 때 어떤 결과를 보이는지 비교해 보겠습니다.

조건평균 정답률 (%)
인간 (단독)55.5%
Llama-3.1-8B (단독)39%
GPT-4o (단독)71%
인간 + Llama-3.1-8B 팀78.5%
인간 + GPT-4o 팀84.5%

표면적인 수치만 봐도 흥미로운 점이 발견됩니다. 단독 성능이 인간보다 낮은 Llama 모델도 인간과 함께했을 때는 인간 혼자일 때보다 훨씬 높은 성과를 기록했습니다. 이는 AI와의 협업 자체가 상당한 시너지를 만들어낸다는 것을 보여줍니다.

분석 결과, Llama-3.1-8B는 인간의 성과를 평균적으로 23%p 향상시켰고, GPT-4o는 29%p를 향상시켰습니다. 특히 두 모델의 신뢰구간이 전혀 겹치지 않는다는 점은 이 차이가 통계적으로 매우 유의미함을 보여줍니다. GPT-4o가 더 뛰어난 협업 파트너임이 명확하게 증명된 셈입니다.

3.2. 누가, 어떤 과제에서 AI의 덕을 가장 많이 볼까?

그렇다면 AI가 주는 혜택은 모두에게 동일할까요? 연구는 개인의 능력과 과제의 난이도에 따라 AI의 효과가 어떻게 달라지는지 분석했고, 세 가지 중요한 사실을 발견했습니다.

  • 어려운 과제일수록 AI의 도움이 크다: 인간이 혼자 풀기 어려워하는 고난도 과제일수록 AI를 통해 얻는 성과 향상(AI 부스트)이 더 컸습니다. AI가 인간의 인지적 한계를 보완하는 ‘인지 증폭기(cognitive amplifier)’ 역할을 수행한다는 뜻입니다.
  • 결국 에이스는 AI와 함께할 때도 에이스다: 개인 능력(AI 없이 혼자 일하는 능력)이 뛰어난 사람은 AI와 협업했을 때에도 여전히 가장 높은 절대적 성과를 기록했습니다. 이는 AI가 기존의 능력을 더욱 강화하는 ‘능력 보완(skill complementarity)’ 효과를 가짐을 보여줍니다.
  • 하지만 성장률은 저성과자가 더 높다: 매우 흥미로운 지점입니다. 절대적인 성과는 고성과자가 높았지만, AI를 통해 얻은 ‘성장폭(AI Boost)’ 자체는 저성과자 그룹에서 더 크게 나타났습니다. 이는 AI가 개인 간의 능력 격차를 줄여주는 강력한 ‘평준화(equalizing)’ 효과를 가짐을 시사합니다.

4. 시너지의 비밀: 마음 이론 (Theory of Mind, ToM)

이제 가장 흥미로운 질문에 도달했습니다. 바로 ‘왜’ 어떤 사람들은 다른 사람들보다 AI와 더 뛰어난 시너지를 만들어내는가 하는 점입니다. 이 연구는 그 근본적인 인지 메커니즘으로 심리학 개념인 ‘마음 이론(Theory of Mind, ToM)‘을 지목합니다.

4.1. 마음 이론(ToM)이란 무엇이고, 왜 AI 협업에 중요한가?

마음 이론(ToM)이란, 상대방의 지식, 의도, 생각, 믿음과 같은 보이지 않는 마음 상태를 추론하고 이해하는 능력을 말합니다. 우리는 이 능력을 통해 다른 사람의 행동을 예측하고, 오해를 풀고, 효과적으로 협력할 수 있습니다.

LLM은 정해진 규칙대로만 움직이는 계산기와 다릅니다. 사용자의 지시에 따라 새로운 결과물을 생성해내는 ‘준자율적’ 파트너에 가깝습니다. 따라서 AI와 효과적으로 협업하기 위해서는 “이 AI가 지금 무엇을 알고 있고, 내 질문의 진짜 의도를 파악했을까?”와 같이 AI의 ‘마음 상태’를 추론하려는 노력이 필수적입니다.

4.2. ToM은 ‘협업’ 능력의 열쇠, ‘개인’ 능력과는 무관하다

가설 검증 결과는 매우 명확하고 극적이었습니다. 사용자의 ToM 점수는 AI와 함께 일하는 능력(Joint Ability)과는 유의미한 정적 상관관계(ρs = 0.17, p < 0.001)를 보인 반면, 혼자 일하는 능력(Individual Ability)과는 거의 상관이 없었습니다(ρs = 0.06, p = 0.13).

이 결과는 ‘AI와 잘 일하는 능력은 전통적인 지능이나 전문성과는 다른, 사회-인지적 스킬’이라는 주장을 강력하게 뒷받침합니다.

4.3. ToM이 뛰어날수록 더 좋은 AI 답변을 얻어낸다

연구는 ToM이 AI가 생성하는 ‘응답의 질’에 직접적인 영향을 미친다는 사실을 두 가지 측면에서 밝혔습니다.

  • 안정적인 특성(Trait)으로서의 ToM: 사용자 개인이 가진 고유한 ToM 수준이 높을수록, 그 사용자는 AI로부터 일관되게 더 높은 품질의 답변을 유도해냈습니다.
  • 역동적인 상태(State)으로서의 ToM: 더 흥미로운 점은, 한 사용자 내에서도 특정 질문에 대해 ToM을 더 많이 발휘하는 순간에 AI의 응답 품질이 눈에 띄게 좋아졌다는 것입니다. 이는 ToM이 의식적인 ‘인지적 노력’이며, 상황에 따라 더 발휘될 수 있음을 시사합니다.

결국 ToM이 뛰어난 사용자는 더 수준 높은 AI 응답을 이끌어내고, 이런 양질의 상호작용이 바로 개인별 ‘AI 부스트’ 격차를 만드는 핵심 요인이었습니다.

5. 결론: 시너지를 디자인하는 시대로

이 연구는 단순히 인간과 AI의 협업 효과를 분석하는 것을 넘어, AI를 개발하고 활용하는 패러다임 자체에 근본적인 변화를 요구하고 있습니다. 우리는 이제 AI의 단독 성능 경쟁을 넘어, 인간과의 ‘시너지’를 체계적으로 설계하고 최적화하는 시대로 나아가야 합니다.

  • AI 평가의 새로운 표준: ‘협업 능력’을 핵심 지표로 삼아야 합니다. AI의 가치는 MMLU 점수가 아닌, 인간과 팀을 이루었을 때 얼마나 큰 ‘시너지’를 창출하는지로 평가해야 합니다.
  • 차세대 AI 개발의 핵심 과제: 인간을 ‘대체’하는 경쟁자가 아닌, 인지적 ‘확장’을 돕는 파트너로 재정의해야 합니다. 마음 이론(ToM)과 같은 사회적 지능을 AI에 내재화하는 연구가 더욱 중요해질 것입니다.
  • 새로운 시대의 핵심 역량: AI와 소통하는 ‘사회-인지적’ 능력을 키워야 합니다. AI의 의도와 맥락을 파악하고 효과적으로 소통하는 능력이 핵심입니다.

이 연구가 제시한 깊이 있는 통찰은 하나의 가능성을 열어줍니다. 미래에는 인간과 AI의 ‘협력적 시너지’를 데이터에 기반하여 체계적으로 설계하고 최적화할 수 있게 될 것입니다. 이는 단순히 더 똑똑한 AI를 만드는 것을 넘어, 인간과 AI가 함께 더 위대한 지성을 만들어가는 ‘집단 지성(Collective Intelligence)‘의 시대를 여는 첫걸음이 될 것입니다.

저자 소개: Christoph Riedl와 Ben Weidmann은 Northeastern University와 Harvard Kennedy School 등에서 활동하며 인간-AI 협업과 집단 지성을 연구합니다.

참고: 이 글은 Christoph Riedl와 Ben Weidmann의 연구 논문 “Quantifying Human-AI Synergy: A Bayes-Item Response Theory Framework”를 바탕으로 요약 및 재구성한 것입니다.

원문: Quantifying Human-AI Synergy - Christoph Riedl, Ben Weidmann (2025)

생성: Claude (Anthropic)

총괄: (디노이저denoiser)