AI 현황: OpenRouter 100조 토큰 실증 연구
게시일: 2025년 12월 6일 | 원문 작성일: 2025년 12월 1일 | 저자: Malika Aubakirova (a16z), Alex Atallah, Chris Clark, Justin Summerville, Anjney Midha (OpenRouter Inc.) | 원문 보기
핵심 요약
- 오픈소스 급성장 — 전체 토큰의 30%까지 성장, 중국 OSS 모델(DeepSeek, Qwen)이 주도
- 프로그래밍이 50%+ — 가장 큰 사용 카테고리이자 가장 치열한 경쟁 영역
- 추론 모델이 표준 — 에이전틱 추론 모델이 전체 토큰의 50% 이상 처리
- 프롬프트 4배 증가 — 평균 1.5K → 6K+ 토큰, 컴플리션도 3배 증가
- 아시아 2배 성장 — 13% → 28.6%, 북미는 47%로 여전히 1위
- 가격 ≠ 선택 기준 — 시장이 아직 상품화 단계가 아님, 품질이 비용보다 중요
초록
지난 한 해는 대규모 언어 모델(LLM)의 진화와 실제 사용에 있어 전환점이었다. 2024년 12월 5일 최초로 널리 채택된 추론 모델 o1이 출시되면서, 이 분야는 단일 패스 패턴 생성에서 다단계 사고 과정으로 전환했고, 배포와 실험, 새로운 유형의 애플리케이션이 가속화됐다.
이 연구는 다양한 LLM에 걸쳐 AI 추론 서비스를 제공하는 OpenRouter 플랫폼을 활용해 100조 토큰 이상의 실제 LLM 상호작용을 작업, 지역, 시간에 걸쳐 분석한다. 우리는 오픈 웨이트 모델의 상당한 채택, 창작 롤플레이(많은 이들이 지배적이라고 가정하는 생산성 작업을 넘어서)와 코딩 지원 카테고리의 압도적 인기, 그리고 에이전틱 추론의 부상을 관찰했다.
또한 사용자 유지율 분석에서 초기 사용자층의 특별한 패턴을 발견했다: 후속 코호트보다 훨씬 오래 참여를 유지하는 초기 사용자들이다. 우리는 이 현상을 신데렐라 “유리 구두” 효과라고 부른다. 이러한 발견들은 개발자와 최종 사용자가 “실제 환경에서” LLM과 상호작용하는 방식이 복잡하고 다면적임을 보여준다.
서론
불과 1년 전만 해도 대규모 언어 모델의 지형은 근본적으로 달랐다. 2024년 말 이전까지 최첨단 시스템들은 텍스트 시퀀스를 이어나가는 데 최적화된 단일 패스, 자기회귀 예측기가 지배했다. 여러 선행 연구들이 고급 지시 따르기와 도구 사용을 통해 추론에 근접하려 시도했다. 예를 들어 Anthropic의 Sonnet 2.1 & 3 모델은 정교한 도구 사용과 검색 증강 생성(RAG)에 뛰어났고, Cohere의 Command R 모델은 구조화된 도구 계획 토큰을 포함했다. 별도로, Reflection 같은 오픈소스 프로젝트는 훈련 중 지도 학습 기반 사고 체인과 자기 비판 루프를 탐구했다.
이러한 고급 기법들이 추론과 유사한 출력과 우수한 지시 따르기를 만들어냈지만, 근본적인 추론 절차는 여전히 단일 전방 패스에 기반했다—반복적인 내부 계산을 수행하기보다는 데이터에서 학습한 표면적인 패턴을 출력하는 것이었다.
이 패러다임은 2024년 12월 5일 OpenAI가 o1 추론 모델(코드명 Strawberry)의 정식 버전을 출시하면서 진화했다. 2024년 9월 12일에 출시된 미리보기 버전은 이미 기존 자기회귀 추론에서의 이탈을 보여줬다. 기존 시스템들과 달리, o1은 최종 출력을 생성하기 전에 내부 다단계 숙고, 잠재적 계획, 반복적 개선을 포함하는 확장된 추론 시간 계산 과정을 사용했다. 경험적으로, 이는 수학적 추론, 논리적 일관성, 다단계 의사결정에서 체계적인 개선을 가능하게 했으며, 패턴 완성에서 구조화된 내부 인지로의 전환을 반영했다.
돌이켜보면, 작년이 이 분야의 진정한 변곡점이었다: 이전 접근법들은 추론을 모방했지만, o1은 추론을 단순히 기술하는 것이 아니라 의도적인 다단계 계산을 통해 추론을 수행하는 최초의 범용 배포 아키텍처를 도입했다.
LLM 능력의 최근 발전이 널리 문서화되었지만, 이 모델들이 실제로 어떻게 사용되는지에 대한 체계적 증거는 제한적이다. 기존 설명들은 대규모 행동 데이터보다는 정성적 데모나 벤치마크 성능을 강조하는 경향이 있다. 이 격차를 메우기 위해, 우리는 다양한 LLM 쿼리의 허브 역할을 하는 멀티모델 AI 추론 플랫폼 OpenRouter의 100조 토큰 데이터셋을 활용해 LLM 사용에 대한 실증 연구를 수행한다.
이 논문에서 우리는 다음 측면들을 분석한다:
- 오픈 vs 클로즈드 소스 모델: 독점 모델 대비 오픈소스 모델의 채택 패턴
- 에이전틱 추론: 다단계, 도구 지원 추론 패턴의 출현
- 카테고리 분류: 작업 카테고리별 사용량 분석 (프로그래밍, 롤플레이, 번역 등)
- 지역: 전 세계 사용 패턴 분석
- 실효 비용과 사용량의 관계: 사용량과 실효 비용의 관계
- 사용자 유지 패턴: 가장 널리 사용되는 모델들의 장기 사용자 유지율 분석
데이터 및 방법론
OpenRouter 플랫폼과 데이터셋
이 분석은 OpenRouter 플랫폼에서 수집한 메타데이터를 기반으로 한다. OpenRouter는 사용자와 개발자를 수백 개의 대규모 언어 모델에 연결하는 통합 AI 추론 레이어다. OpenRouter의 각 사용자 요청은 사용자가 선택한 모델에 대해 실행되며, 결과적인 “생성” 이벤트를 설명하는 구조화된 메타데이터가 기록된다.
이 연구에 사용된 데이터셋은 전 세계 사용자 기반에서 작성 시점까지 약 2년에 걸친 수십억 개의 프롬프트-응답 쌍에 대한 익명화된 요청 수준 메타데이터로 구성된다. 중요한 점은, 우리는 프롬프트나 컴플리션의 실제 텍스트에 접근하지 않았다. 우리의 분석은 전적으로 사용자 콘텐츠를 노출하지 않으면서 각 생성의 구조, 타이밍, 컨텍스트를 포착하는 메타데이터에 의존한다. 이 개인정보 보호 설계가 대규모 행동 분석을 가능하게 한다.
메타데이터 구성
각 생성 기록에는 다음 정보가 포함된다:
- 타이밍: 요청 시점 및 처리 시간
- 모델 및 제공업체 식별자: 어떤 모델이 사용됐는지
- 토큰 사용량: 프롬프트(입력) 및 컴플리션(출력) 토큰 수
- 지역 라우팅: 결제 지역 기반 지역 정보
- 지연 시간: 응답 시간 측정
- 사용 컨텍스트: 스트리밍 여부, 취소 여부, 도구 호출 기능 사용 여부
2025년 기준으로 OpenRouter는 60개 이상 제공업체의 300개 이상 활성 모델을 지원하며, 수백만 명의 개발자와 최종 사용자에게 서비스를 제공한다. 전체 사용량의 50% 이상이 미국 외 지역에서 발생한다.
콘텐츠 분류: GoogleTagClassifier
이 연구에서는 사용자 프롬프트나 모델 출력에 직접 접근하지 않았다. 대신 OpenRouter는 전체 프롬프트 및 응답의 약 0.25%에 해당하는 무작위 샘플에 대해 비독점 모듈인 GoogleTagClassifier를 통해 내부 분류를 수행한다. 이는 전체 활동의 일부에 불과하지만, OpenRouter가 처리하는 전체 쿼리 볼륨을 고려하면 기초 데이터셋은 여전히 상당한 규모다.
GoogleTagClassifier는 Google Cloud Natural Language의 classifyText 콘텐츠 분류 API를 사용한다. 이 API는 텍스트 입력에 계층적이고 언어 독립적인 분류 체계를 적용하여, 하나 이상의 카테고리 경로(예: /Computers & Electronics/Programming, /Arts & Entertainment/Roleplaying Games)를 0~1 범위의 신뢰도 점수와 함께 반환한다.
이러한 세분화된 라벨을 대규모로 유용하게 만들기 위해, GoogleTagClassifier의 분류 체계를 연구에 정의된 간결한 버킷 세트에 매핑하고 각 요청에 태그를 할당한다:
- 프로그래밍:
/Computers & Electronics/Programming또는/Science/Computer Science/하위 - 롤플레이:
/Games/Roleplaying Games및/Arts & Entertainment/하위의 창작 대화 - 번역:
/Reference/Language Resources/하위 - 일반 Q&A/지식:
/Reference/General Reference/및/News/하위 - 생산성/글쓰기:
/Computers & Electronics/Software/Business & Productivity Software - 교육:
/Jobs & Education/Education/하위 - 문학/창작 글쓰기:
/Books & Literature/하위 - 성인:
/Adult - 기타: 지배적 매핑이 적용되지 않는 기타 프롬프트
모델 및 토큰 변형 정의
- 오픈소스 vs 독점: 가중치가 공개적으로 사용 가능하면 오픈소스(OSS), 제한된 API를 통해서만 접근 가능하면 클로즈드 소스(예: Anthropic의 Claude)
- 출처 (중국 vs 기타 지역): 중국, 대만, 홍콩에서 개발된 모델(예: Alibaba의 Qwen, Moonshot AI의 Kimi, DeepSeek)은 중국 모델로, 그 외는 RoW(Rest-of-World)로 분류
- 프롬프트 vs 컴플리션 토큰: 프롬프트 토큰은 모델에 제공된 입력 텍스트, 컴플리션 토큰은 모델이 생성한 출력. 추론 토큰은 네이티브 추론 기능이 있는 모델의 내부 추론 단계를 나타내며 컴플리션 토큰에 포함
따로 언급이 없으면, 토큰 사용량은 프롬프트(입력)와 컴플리션(출력) 토큰의 합을 의미한다.
지역 세분화
LLM 사용의 지역적 패턴을 이해하기 위해 사용자 지역별로 요청을 세분화한다. IP 기반 위치 같은 직접적인 요청 메타데이터는 일반적으로 부정확하거나 익명화되어 있다. 대신, 각 계정과 연결된 결제 지역를 기반으로 사용자 지역을 결정한다. 청구 데이터는 사용자의 결제 수단이나 계정 등록에 연결된 국가 또는 지역을 반영하므로, 이는 사용자 지역에 대한 더 신뢰할 수 있는 프록시를 제공한다.
시간 프레임 및 범위
분석은 주로 2025년 11월까지의 최근 13개월을 다루지만, 모든 기초 메타데이터가 이 전체 기간에 걸쳐 있는 것은 아니다. 대부분의 모델 수준 및 가격 분석은 2024년 11월 3일 ~ 2025년 11월 30일 시간 프레임에 초점을 맞췄다. 그러나 카테고리 수준 분석(특히 GoogleTagClassifier 분류 체계를 사용하는 분석)은 OpenRouter에서 일관된 태깅이 가능해진 2025년 5월부터 시작하는 더 짧은 간격을 기반으로 한다.
오픈소스 vs 독점 모델
AI 생태계의 중심 질문 중 하나는 오픈 웨이트(이하 OSS)와 독점 모델 간의 균형이다. 아래 그래프들은 지난 1년간 OpenRouter에서 이 균형이 어떻게 진화했는지 보여준다.
시장 점유율 변화

그림 1: 오픈소스 vs 독점 모델 토큰 점유율 추이. 밝은 파란색 계열은 오픈 웨이트 모델(중국 vs 기타 지역), 진한 파란색은 독점(클로즈드) 모델. 수직 점선은 Llama 3.3 70B, DeepSeek V3, DeepSeek R1, Kimi K2, GPT OSS 계열, Qwen 3 Coder 등 주요 오픈 웨이트 모델 출시를 표시.
주요 북미 제공업체들의 독점 모델이 여전히 대부분의 토큰을 처리하지만, OSS 모델은 꾸준히 성장하여 2025년 말까지 약 1/3의 사용량에 도달했다. 이 확장은 우연이 아니다. 사용량 급증은 DeepSeek V3, Kimi K2 같은 주요 오픈 모델 출시(그래프의 수직 점선)와 일치하며, 경쟁력 있는 OSS 출시가 빠르게 채택되고 그 인기가 유지됨을 시사한다.
- 독점 모델: 평균 70% 점유율 (감소 추세)
- 오픈소스 모델: 약 30% 점유율 (꾸준한 상승)
- 중국 OSS 모델: 2024년 말 1.2%에서 시작, 일부 주에는 전체 모델 중 거의 30%까지 성장
- RoW OSS 모델: 평균 13.7%

그림 2: 모델 유형별 주간 토큰 사용량. 진한 빨간색은 독점 모델(Closed), 주황색은 중국 오픈소스 모델(Chinese OSS), 청록색은 중국 외 오픈소스 모델(RoW OSS).
이 성장의 상당 부분은 중국에서 개발된 모델에서 나왔다. 2024년 말 무시할 만한 기반(주간 점유율 1.2%까지 낮았음)에서 시작한 중국 OSS 모델은 꾸준히 점유율을 높여 일부 주에는 전체 사용량의 거의 30%에 도달했다. 1년 기간 동안 주간 토큰 사용량의 평균 약 13.0%를 차지했으며, 2025년 하반기에 성장이 집중됐다.
중국 OSS의 확장은 경쟁력 있는 품질뿐만 아니라 빈번한 출시 주기을 반영한다. Qwen과 DeepSeek 같은 모델들은 정기적인 모델 릴리스를 유지하여 새로운 워크로드에 빠르게 적응할 수 있었다. 이 패턴은 오픈소스 세그먼트를 실질적으로 재편하고 LLM 생태계 전반의 글로벌 경쟁을 촉진했다.
이러한 트렌드는 LLM 생태계의 지속적인 이중 구조를 나타낸다. 독점 시스템은 특히 규제되거나 엔터프라이즈 워크로드에서 신뢰성과 성능의 상한을 계속 정의한다. 반면 OSS 모델은 비용 효율성, 투명성, 맞춤 설정을 제공하여 특정 워크로드에서 매력적인 옵션이 된다. 균형은 현재 대략 30%에서 형성되어 있다. 이 모델들은 상호 배타적이지 않다; 오히려 개발자와 인프라 제공업체가 점점 더 선호하는 다중 모델 조합 내에서 서로를 보완한다.
주요 오픈소스 기여자

그림 3: 오픈소스 모델별 토큰 사용량 분포
아래 표는 데이터셋에서 처리된 총 토큰 사용량 기준 상위 모델 시리즈 순위다. OSS 모델 지형은 지난 1년간 크게 변화했다: DeepSeek이 볼륨 기준 단일 최대 OSS 기여자로 남아 있지만, 새로운 진입자들이 빠르게 기반을 확보하면서 그 지배력이 약해졌다. 오늘날 여러 오픈소스 모델들이 각각 상당한 사용량을 유지하며, 다양화된 생태계를 보여준다.
| 모델 저자 | 총 토큰(조) |
|---|---|
| DeepSeek | 14.37 |
| Qwen | 5.59 |
| Meta LLaMA | 3.96 |
| Mistral AI | 2.92 |
| OpenAI | 1.65 |
| Minimax | 1.26 |
| Z-AI | 1.18 |
| TNGTech | 1.13 |
| MoonshotAI | 0.92 |
| 0.82 |

그림 4: 상위 15개 오픈소스 모델의 시간별 토큰 사용량 추이. 각 색상 영역은 총 OSS 토큰에 대한 한 모델의 기여를 나타낸다. 시간이 지남에 따라 색상이 다양해지는 것은 최근 몇 달간 단일 지배 모델 없이 더 경쟁적인 분포를 나타낸다.
이 그래프는 주요 개별 오픈소스 모델들 간의 시장 점유율이 주간으로 어떻게 극적으로 진화했는지 보여준다. 초기(2024년 말)에는 시장이 매우 집중되어 있었다: DeepSeek 시리즈의 두 모델(V3와 R1)이 일관되게 전체 OSS 토큰 사용량의 절반 이상을 차지했다.
이 거의 독점적인 구조는 2025년 여름 변곡점 이후 깨졌다. 시장은 이후 더 넓고 깊어졌으며, 사용량이 크게 다양화됐다. Qwen의 모델, Minimax의 M2, MoonshotAI의 Kimi K2, OpenAI의 GPT-OSS 시리즈 같은 새로운 진입자들이 모두 빠르게 성장하여 상당한 비율의 요청을 처리했으며, 종종 출시 후 몇 주 내에 실서비스 수준의 채택을 달성했다.
- 선두 경쟁의 다변화: 한때 하나의 모델(DeepSeek)이 OSS 사용량을 지배했지만, 이제 6~7개 모델이 각각 의미 있는 점유율을 유지. 단일 오픈 모델이 OSS 토큰의 ~20-25% 이상을 일관되게 유지하지 않음
- 신규 진입자의 빠른 확장: 유능한 새 오픈 모델은 몇 주 내에 상당한 사용량을 확보 가능. 낮은 전환 마찰과 실험에 열린 사용자 기반을 나타냄
- 지속적 개선의 힘: DeepSeek이 정상에 오래 머무른 것은 지속적인 개선이 중요함을 보여줌. DeepSeek의 연속적인 릴리스(Chat-V3, R1 등)가 도전자들이 등장해도 경쟁력을 유지하게 했음
모델 크기 vs 시장 적합성: 중형 모델의 부상

그림 5: OSS 모델 크기 vs 사용량. 소형, 중형, 대형 모델이 처리한 총 OSS 토큰 사용량의 주간 점유율.
1년 전만 해도 오픈소스 모델 생태계는 주로 두 극단 사이의 균형 문제였다: 방대한 수의 작고 빠른 모델과 소수의 강력한 대규모 모델. 그러나 지난 1년을 검토하면 시장의 상당한 성숙과 새로운 성장 카테고리: 중형 모델의 등장이 드러난다.
모델을 파라미터 수로 다음과 같이 분류한다:
- 소형: 150억 파라미터 미만
- 중형: 150억 ~ 700억 파라미터
- 대형: 700억 파라미터 이상

그림 6: 시간에 따른 크기별 OSS 모델 수. 파라미터 크기 카테고리별 그룹화된 가용 오픈소스 모델의 주간 수.
개발자와 사용자 행동 데이터는 미묘한 이야기를 들려준다. 그래프들은 모든 카테고리에서 모델 수가 증가했지만, 사용량은 눈에 띄게 이동했음을 보여준다. 소형 모델은 선호도를 잃고 있는 반면 중형과 대형 모델이 그 가치를 포착하고 있다.
- ”소형” 시장: 전반적인 사용량 감소. 새 모델의 꾸준한 공급에도 불구하고 소형 모델 카테고리 전체의 사용량 점유율이 감소. 이 카테고리는 높은 분절화가 특징이며, 어떤 단일 모델도 오래 지배적 위치를 유지하지 못하고 Meta, Google, Mistral, DeepSeek 등 다양한 제공업체의 새로운 진입자들이 끊임없이 유입됨.
- ”중형” 시장: “모델-시장 적합성” 발견. 중형 모델 카테고리는 시장 창출의 명확한 이야기를 들려줌. 이 세그먼트 자체가 2024년 11월 Qwen2.5 Coder 32B 출시까지 무시할 만한 수준이었으며, 이것이 효과적으로 이 카테고리를 확립함. 이후 Mistral Small 3(2025년 1월)와 GPT-OSS 20B(2025년 8월) 같은 다른 강력한 경쟁자들이 도착하면서 경쟁적 생태계로 성숙함.
- ”대형” 모델 세그먼트: 다양한 경쟁 환경. 고성능 모델 선호 현상이 통합이 아닌 다양화로 이어짐. 대형 모델 카테고리는 이제 Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air부터 OpenAI GPT-OSS-120B까지 다양한 고성능 경쟁자들이 특징이며, 각각 의미 있고 지속적인 사용량을 확보.
오픈소스 모델은 무엇에 사용되는가?
오늘날 오픈소스 모델은 창작, 기술, 정보 도메인을 아우르는 놀랍도록 광범위한 작업에 사용된다. 독점 모델이 여전히 구조화된 비즈니스 작업에서 지배적이지만, OSS 모델은 두 가지 특정 영역에서 리더십을 확보했다: 창작 롤플레이와 프로그래밍 지원. 이 두 카테고리가 함께 OSS 토큰 사용량의 대부분을 차지한다.

그림 7: 중국 오픈소스 모델의 카테고리별 사용 추이. 롤플레이가 약 33%로 가장 큰 카테고리로 남아 있지만, 프로그래밍과 기술이 합쳐서 사용량의 과반(39%)을 차지.
중국 OSS 모델만 살펴보면, 이 모델들은 더 이상 주로 창작 작업에만 사용되지 않는다. 롤플레이가 약 33%로 가장 큰 카테고리로 남아 있지만, 프로그래밍과 기술이 합쳐서 사용량의 과반(39%)을 차지한다. 이 변화는 Qwen과 DeepSeek 같은 모델들이 코드 생성과 인프라 관련 워크로드에 점점 더 많이 사용되고 있음을 시사한다.
에이전틱 추론의 부상
언어 모델이 프로덕션에서 사용되는 방식에 근본적인 전환이 진행 중이다: 단일 턴 텍스트 완성에서 다단계, 도구 통합, 추론 집약적 작업 흐름로의 전환이다. 이 전환을 에이전틱 추론의 부상이라고 부르며, 모델이 단순히 텍스트를 생성하는 것이 아니라 계획, 도구 호출, 확장된 컨텍스트에서의 상호작용을 통해 행동하도록 배포된다.
이 연구는 이 전환을 다섯 가지 간접 지표를 통해 추적한다: 추론 모델의 부상, 도구 호출 행동의 확장, 변화하는 시퀀스 길이 프로파일, 그리고 프로그래밍 사용이 복잡성을 어떻게 주도하는지.
추론 모델 채택

그림 8: 추론 최적화 모델 vs 일반 모델 토큰 점유율
핵심 통계: 2025년 말까지 추론 최적화 모델의 토큰 점유율이 50%를 초과했다. 이는 단순 답변에서 구조화된 다단계 숙고로의 패러다임 전환을 반영한다.

그림 9: 상위 추론 모델 순위
상위 모델에는 Grok Code Fast 1, Gemini 2.5 Pro, Gemini 2.5 Flash가 포함된다. 이는 단순 응답에서 여러 단계를 거쳐 생각하는 추론으로의 전환을 보여준다. 추론 모델의 급속한 채택은 사용자들이 더 깊은 분석, 계획, 검증이 필요한 복잡한 작업에 점점 더 LLM을 사용하고 있음을 시사한다.
도구 호출(Tool-Calling) 확장

그림 10: 도구 호출 사용 추이

그림 11: 도구 사용이 활성화된 모델별 분포. 도구 제공은 에이전틱 추론에 명시적으로 최적화된 모델들, 예를 들어 Claude Sonnet과 Gemini Flash에 집중되어 있다.
일부 예외를 제외하면, 도구 채택은 연중 일관된 상승 추세를 보였다. 도구 제공은 Claude Sonnet, Gemini Flash 같은 에이전틱 추론에 명시적으로 최적화된 모델들에 집중되어 있다.
Input Tool 신호는 요청 중에 모델에 도구가 제공되었는지 여부를 기록한다(호출 여부와 무관하게). Input Tool 수는 정의상 Tool Call 완료 이유보다 높다—제공은 성공적인 실행의 상위집합이기 때문이다. 완료 이유 메트릭은 실현된 도구 사용을 측정하고, Input Tool은 실제 호출이 아닌 잠재적 가용성을 반영한다.
시퀀스 길이 증가

그림 12: 시간에 따른 평균 시퀀스 길이 변화

그림 13: 평균 프롬프트 토큰 수 증가 추이

그림 14: 평균 컴플리션 토큰 수 증가 추이
시퀀스 길이의 증가는 에이전틱 추론으로의 전환을 보여주는 또 다른 신호다. 더 긴 프롬프트는 더 많은 컨텍스트, 도구 정의, 이전 상호작용의 히스토리를 포함하고 있음을 나타낸다. 더 긴 컴플리션은 모델이 더 상세한 추론, 계획, 또는 복잡한 출력을 생성하고 있음을 시사한다.
- 평균 프롬프트 토큰: 약 4배 증가 (1.5K → 6K+)
- 평균 컴플리션 토큰: 약 3배 증가 (~150 → 400)
- 프로그래밍 작업: 20K+ 입력 토큰으로 가장 긴 컨텍스트 — 코드베이스, 문서, 에러 로그 등 풍부한 컨텍스트를 반영

그림 15: 전체 평균 vs 프로그래밍 카테고리 시퀀스 길이 비교

그림 16: 카테고리별 평균 프롬프트 토큰 수
프로그래밍 카테고리가 시퀀스 길이 성장을 주도하며, 이는 AI 지원 개발 작업 흐름의 부상을 반영한다. 개발자들은 전체 파일, 프로젝트 구조, 광범위한 지시사항을 프롬프트에 포함시키고 있다.
카테고리: 사람들은 LLM을 어떻게 사용하는가?
사용자가 LLM으로 수행하는 작업의 분포를 이해하는 것은 실제 수요와 모델-시장 적합성을 평가하는 데 핵심이다. 우리는 수십억 개의 모델 상호작용을 상위 애플리케이션 카테고리로 분류했다.
주요 카테고리

그림 17: 프로그래밍 카테고리의 시간별 토큰 점유율
프로그래밍은 지배적이고 성장하는 카테고리다. 프로그래밍으로 분류된 모든 LLM 쿼리의 점유율이 꾸준히 증가하여, AI 지원 개발 작업 흐름의 부상을 반영한다. 프로그래밍은 모든 모델에서 가장 일관되게 확장되는 카테고리가 되었다.
- 프로그래밍: 최근 주에 토큰의 50% 이상 차지 (2025년 초 ~11%에서 성장). 가장 경쟁이 치열한 카테고리이자, 모든 모델에서 가장 일관되게 확장되는 카테고리
- 롤플레이: OSS 모델 사용량의 약 52%. 게임, 창작 대화, 스토리텔링, 캐릭터 롤플레이 등 포함. 많은 이들이 생산성 작업이 지배적일 것으로 가정하지만, 실제로는 창작과 엔터테인먼트 사용이 상당함
- 기술, 과학: 성장 중인 2차 카테고리
- 번역, 일반 Q&A/지식: 작지만 꾸준한 세그먼트
오픈소스 vs 독점 모델의 카테고리별 분포

그림 18: 오픈소스 모델의 카테고리별 사용 트렌드

그림 19: 프로그래밍 카테고리의 오픈소스 vs 독점 모델 분포

그림 20: 롤플레이 카테고리의 오픈소스 vs 독점 모델 분포
제공업체별 패턴

그림 21: Anthropic Claude 모델의 상위 사용 카테고리

그림 22: DeepSeek 모델의 상위 사용 카테고리

그림 23: OpenAI 모델의 상위 사용 카테고리

그림 24: Google Gemini 모델의 상위 사용 카테고리

그림 25: Qwen 모델의 상위 사용 카테고리

그림 26: xAI Grok 모델의 상위 사용 카테고리
| 제공업체 | 주요 사용 패턴 |
|---|---|
| Anthropic Claude | 프로그래밍/기술 80% 이상 |
| DeepSeek | 롤플레이 67% 이상 |
| OpenAI | 과학(50%) → 프로그래밍(50%+)으로 전환 |
| Google Gemini | 번역, 법률, 일반 지식에 다양하게 분포 |
세부 태그 인사이트

그림 27: 주요 카테고리의 세부 태그 분포 (1/2)

그림 28: 주요 카테고리의 세부 태그 분포 (2/2)
- 롤플레이는 게임과 창작 글쓰기에 집중 (합계 75%)
- 프로그래밍은 단일 지배적 하위 카테고리 없이 일반 작업에 분산
- 번역과 법률 도메인은 여러 사용 사례에 분산

그림 29: 프로그래밍 카테고리의 상위 모델
지역: LLM 사용의 지역별 차이
지역별 분포

그림 30: 지역별 토큰 지출 분포
| 대륙 | 토큰 점유율 |
|---|---|
| 북미 | 47.22% |
| 아시아 | 28.61% (연초 ~13%에서 2배 증가) |
| 유럽 | 21.32% |
| 오세아니아 | 1.18% |
| 남미 | 1.21% |
| 아프리카 | 0.46% |
상위 국가
| 순위 | 국가 | 토큰 점유율 |
|---|---|---|
| 1 | 미국 | 47.17% |
| 2 | 싱가포르 | 9.21% |
| 3 | 독일 | 7.51% |
| 4 | 중국 | 6.01% |
| 5 | 한국 | 2.88% |
언어 분포
| 언어 | 토큰 점유율 |
|---|---|
| 영어 | 82.87% |
| 중국어 간체 | 4.95% |
| 러시아어 | 2.47% |
| 스페인어 | 1.43% |
| 태국어 | 1.03% |
LLM 사용자 유지율 분석
”유리 구두” 효과 (Glass Slipper Effect)
이 연구는 “유리 구두 효과”(Glass Slipper Effect)라는 새로운 프레임워크를 도입한다. 딱 맞는 모델을 찾은 초기 사용자가 새로운 대안이 나와도 계속 그 모델을 쓰는 현상이다.

그림 31: Claude 4 Sonnet 코호트별 유지율 곡선

그림 32: Gemini 2.5 Pro 코호트별 유지율 곡선

그림 33: Gemini 2.5 Flash 코호트별 유지율 곡선

그림 34: Gemini Flash 2 코호트별 유지율 곡선
- Claude 4 Sonnet 6월 코호트: 5개월 차에 ~40% 유지율
- Gemini 2.5 Pro: 초기 코호트의 높은 유지율
- DeepSeek 모델: 독특한 “부메랑 효과” (이탈한 사용자가 돌아옴)
- Grok 모델: 지배적이지만 아직 지속적인 초기 사용자층 미확립

그림 35: DeepSeek Chat V3 코호트별 유지율 곡선

그림 36: DeepSeek R1 코호트별 유지율 곡선

그림 37: OpenAI 4o-mini 코호트별 유지율 곡선

그림 38: LLaMA 4 Maverick 코호트별 유지율 곡선
시사점
- 높은 사용자 유지율은 의미 있는 기능 혁신을 나타낸다
- 핵심 작업을 먼저 해결하면 사용자 전환을 어렵게 만든다
- 핵심 사용자를 확보할 수 있는 기회의 창은 좁고 짧다
비용 vs 사용량 역학

그림 39: 모델별 비용 대비 사용량 (로그-로그 분석)
시장 세분화
| 세그먼트 | 특성 | 예시 |
|---|---|---|
| 프리미엄 리더 | 높은 비용, 높은 사용량 | Claude 3.7 Sonnet ($1.96/1M 토큰) |
| 효율적 거인 | 낮은 비용, 높은 사용량 | Gemini 2.0 Flash ($0.147/1M), DeepSeek V3 ($0.394/1M) |
| 프리미엄 전문가 | 매우 높은 비용, 낮은 사용량 | GPT-4/5 ($34+/1M 토큰) |
| 롱테일 | 매우 낮은 비용, 제한적 사용 | $0.10/1M 미만 모델들 |
가격 탄력성: 거의 평탄한 수요 곡선—가격이 사용량을 거의 설명하지 못한다. 이는 시장이 아직 상품화 단계가 아니라는 뜻이다. 사용자들은 비용, 신뢰성, 추론 품질, 기능 범위 사이에서 균형을 맞추고 있다.
카테고리별 비용

그림 40: 카테고리별 가격 대비 사용량 분포
| 카테고리 | 비용 특성 |
|---|---|
| 기술 | 토큰당 최고 비용 (프리미엄 워크로드) |
| 프로그래밍 & 롤플레이 | 대규모 시장 사용량, 중간/낮은 비용 |
| 금융, 학술, 헬스케어 | 전문화된 고비용, 소규모 세그먼트 |
| 번역, 법률 | 일반화된 저가 서비스 |
논의
이 실증 연구는 LLM이 실제로 어떻게 사용되는지에 대한 데이터 기반 관점을 제공하며, AI 배포에 대한 기존 통념을 뒷받침하거나 수정하는 여러 주제를 강조한다:
1. 다중 모델 생태계
분석 결과, 단일 모델이 모든 사용량을 지배하지 않는다. 대신 클로즈드와 오픈 모델 모두 상당한 점유율을 확보하는 풍부한 다중 모델 생태계를 관찰한다. 예를 들어, OpenAI와 Anthropic 모델이 많은 프로그래밍과 지식 작업에서 선두를 달리지만, DeepSeek과 Qwen 같은 오픈소스 모델이 총 토큰의 상당 부분(때로는 30% 이상)을 합쳐서 처리했다.
이는 LLM 사용의 미래가 특정 모델에 의존하지 않고 다양한 선택지가 공존하는 방향일 가능성이 높음을 시사한다. 개발자에게 이는 한 모델의 우월성에 모든 것을 거는 것이 아니라, 여러 모델을 통합하고 각 작업에 가장 적합한 것을 선택하는 유연성을 유지하는 것을 의미한다.
2. 생산성을 넘어서는 사용 다양성
놀라운 발견은 롤플레이와 엔터테인먼트 목적 사용의 방대한 규모이다. 오픈소스 모델 사용량의 절반 이상이 롤플레이와 스토리텔링이었다. 독점 플랫폼에서도 전문적 사용 사례가 성장하기 전에 초기 ChatGPT 사용의 상당 부분이 캐주얼하고 창작적이었다. 이는 LLM이 주로 코드, 이메일, 요약 작성에 사용된다는 가정에 반한다. 실제로 많은 사용자가 이 모델들을 동반자 관계, 판타지, 탐험적 대화에 사용한다.
이는 중요한 함의를 가진다: 내러티브 디자인, 감정적 참여, 상호작용성을 결합하는 소비자 지향 애플리케이션에 대한 상당한 기회를 강조한다. 또한 개인화의 새로운 지평을 시사한다—성격이 진화하고, 선호를 기억하고, 장편 상호작용을 유지하는 에이전트.
3. 에이전틱 추론: 자율적 AI의 부상
LLM 사용이 단일 턴 상호작용에서 에이전틱 추론으로 전환하고 있다—모델이 여러 단계에 걸쳐 계획하고, 추론하고, 실행하는 것이다. 일회성 응답을 생성하는 것이 아니라, 도구 호출을 조정하고, 외부 데이터에 접근하고, 목표 달성을 위해 출력을 반복적으로 개선한다.
초기 증거는 다단계 쿼리와 연쇄된 도구 사용의 증가를 보여주며, 이를 에이전틱 사용의 프록시로 삼는다. 이 패러다임이 확장됨에 따라, 평가는 언어 품질에서 작업 완료와 효율성으로 이동할 것이다. 다음 경쟁 프론티어는 모델이 얼마나 효과적으로 지속적인 추론을 수행할 수 있는지—궁극적으로 대규모 에이전틱 추론이 실제로 무엇을 의미하는지를 재정의할 수 있는 전환이다.
4. 지리적 전망
LLM 사용이 점점 더 글로벌하고 분산화되고 있으며, 북미를 넘어 빠르게 성장하고 있다. 아시아의 총 토큰 수요 점유율이 약 13%에서 28.6%로 2배 이상 상승했으며, 이는 더 강력한 엔터프라이즈 채택과 혁신을 반영한다. 한편 중국은 국내 소비뿐만 아니라 글로벌 경쟁력 있는 모델 생산을 통해 주요 세력으로 부상했다.
더 넓은 시사점: LLM은 언어, 맥락, 시장에 걸쳐 글로벌하게 유용해야 한다. 다음 경쟁 단계는 모델 규모뿐만 아니라 문화적 적응성과 다국어 역량에 달려 있을 것이다.
5. 비용 vs 사용량 역학
LLM 시장은 아직 상품처럼 행동하지 않는다: 가격만으로는 사용량을 거의 설명하지 못한다. 사용자들은 비용과 추론 품질, 신뢰성, 역량의 폭 사이에서 균형을 맞춘다. 클로즈드 모델은 고가치, 수익 연동 워크로드를 계속 확보하고, 오픈 모델은 저비용 고볼륨 작업을 지배한다.
이는 동적 균형을 만든다—안정성보다 아래로부터의 끊임없는 압력으로 정의되는 균형. 오픈소스 모델은 특히 추론과 코딩 도메인(예: Kimi K2 Thinking)에서 빠른 반복과 OSS 혁신이 성능 격차를 좁히면서 효율성의 한계를 계속 끌어올린다. 오픈 모델의 각 개선은 독점 시스템의 가격 결정력을 압축하여, 우수한 통합, 일관성, 엔터프라이즈 지원을 통해 프리미엄을 정당화하도록 강제한다.
6. 사용자 유지율과 방어 가능성: 신데렐라 유리 구두 현상
파운데이션 모델이 점진적이 아닌 도약으로 발전함에 따라, 사용자 유지율이 방어 가능성의 진정한 척도가 되었다. 각 돌파구는 모델이 고가치 워크로드에 완벽하게 “맞을” 수 있는 짧은 출시 창을 만든다(신데렐라 유리 구두 순간)—그리고 사용자가 그 적합성을 찾으면 머무른다.
이 패러다임에서 제품-시장 적합성은 워크로드와 모델 간의 정합성과 같다: 실제 고통점을 가장 먼저 해결하는 것이 사용자가 그 역량 주변에 작업 흐름과 습관을 구축함에 따라 깊고 끈끈한 채택을 이끈다. 그러면 전환이 기술적으로나 행동적으로 비용이 많이 든다.
개발자와 투자자에게 주목해야 할 신호는 성장이 아니라 유지율 곡선—모델 업데이트를 통해 머무르는 초기 코호트의 형성이다. 점점 빠르게 움직이는 시장에서, 이러한 중요한 충족되지 않은 니즈를 일찍 포착하는 것이 다음 역량 도약 후에 누가 지속되는지를 결정한다.
이 연구의 데이터가 시사하듯, 다단계 도구 통합 추론이 새로운 표준이 되고 있다. 에이전틱 추론이 조만간 인간 추론을 능가할 것이라고 믿을 충분한 근거가 있다.
한계
- 단일 플랫폼 관점 (OpenRouter만 분석)
- 엔터프라이즈/로컬 호스팅 배포는 포착되지 않음
- 프록시 측정에 의존 (도구 호출, 청구 지역)
- 카테고리 태깅은 2025년 5월부터만 가능
- 특정 분석에 대한 시간 창 제약
역자 주: OpenRouter는 API 우선 플랫폼으로, 주로 개발자와 파워 유저가 사용한다.[1] 따라서 프로그래밍(50%+)과 롤플레이(OSS의 52%) 비중이 전체 LLM 시장 대비 높게 나타날 수 있다. 특히 엔터프라이즈 고객은 Azure OpenAI 등 클라우드 제공업체를 직접 사용하고, 소형 모델은 로컬에서 자체 호스팅하는 경우가 많아 이 데이터에 포착되지 않는다.[2] ChatGPT나 기업용 API의 사용 패턴과는 다를 수 있음을 참고하자.
결론
이 연구는 대규모 언어 모델이 세계의 컴퓨팅 인프라에 어떻게 내장되고 있는지에 대한 실증적 관점을 제공한다. LLM은 이제 작업 흐름, 애플리케이션, 에이전틱 시스템에 필수적이며, 정보가 생성되고, 중재되고, 소비되는 방식을 변화시키고 있다.
지난 1년은 이 분야가 추론을 어떻게 이해하는지에 있어 단계적 변화를 촉발했다. o1급 모델의 등장은 확장된 숙고와 도구 사용을 정상화하여, 단일 샷 벤치마크를 넘어 과정 중심 평가 지표, 지연 시간과 비용 간 균형, 조율 환경에서의 작업 성공으로 평가를 전환시켰다. 추론은 모델이 더 신뢰할 수 있는 결과를 제공하기 위해 얼마나 효과적으로 계획하고 검증할 수 있는지의 척도가 되었다.
데이터는 LLM 생태계가 본질적으로 다양한 구조임을 보여준다. 단일 모델이나 제공업체가 지배하지 않는다; 대신 사용자들은 맥락에 따라 역량, 지연, 가격, 신뢰와 같은 여러 축을 따라 시스템을 선택한다. 이 이질성은 일시적 단계가 아니라 시장의 근본적 속성이다. 빠른 반복을 촉진하고 어떤 단일 모델이나 스택에 대한 시스템적 의존을 줄인다.
추론 자체도 변하고 있다. 다단계 및 도구 연결 상호작용의 증가는 정적 완성에서 동적 조율으로의 전환을 신호한다. 사용자들은 복합적 목표를 달성하기 위해 모델, API, 도구를 연결하며, 이는 에이전틱 추론이라고 설명할 수 있는 것을 낳는다. 에이전틱 추론이 인간 추론을 능가할 것이라고 믿을 만한 많은 이유가 있다.
지리적으로 환경은 더 분산되고 있다. 아시아의 사용량 점유율이 계속 확대되고, 중국은 특히 모델 개발자이자 수출국으로 부상했으며, 이는 Moonshot AI, DeepSeek, Qwen 같은 플레이어의 부상으로 설명된다. 비서구 오픈 웨이트 모델의 성공은 LLM이 진정으로 글로벌한 컴퓨팅 자원임을 보여준다.
사실상, o1은 경쟁을 끝내지 않았다. 그 반대다—디자인 공간을 확장했다. 이 분야는 단일 모델에 대한 모놀리식 베팅 대신 시스템 사고로, 직관 대신 계측으로, 리더보드 델타 대신 실증적 사용 분석으로 이동하고 있다.
지난 1년이 에이전틱 추론이 대규모로 실행 가능함을 입증했다면, 다음 해는 운영 우수성에 초점을 맞출 것이다: 실제 작업 완료 측정, 분포 변화 하의 분산 감소, 프로덕션 규모 워크로드의 실제 요구에 모델 행동 정렬.
- Jimmy Song, “OpenRouter Insights: Behind the Scenes of an Aggregated AI Model Gateway” — OpenRouter를 “개발자 친화적 AI 모델 애그리게이터”로 분석. jimmysong.io ↩
- Hacker News 토론 — “엔터프라이즈는 Azure 같은 클라우드 제공업체를 직접 사용”, “소형 모델은 자체 호스팅 가능해서 OpenRouter에 안 잡힘” 등 선택 편향 지적. news.ycombinator.com ↩
원문: State of AI: An Empirical 100 Trillion Token Study with OpenRouter - OpenRouter Inc. (2025년 12월)
저자: Malika Aubakirova (a16z), Alex Atallah, Chris Clark, Justin Summerville, Anjney Midha
생성: Claude (Anthropic)