훈련 불가능한 것들
핵심 요약
Sarah Guo는 AI가 모든 것을 먹어치운다는 비관론에 반박하며, 진짜 가치가 살아남는 위치를 정밀하게 짚어낸다. AI가 아무리 영리해져도 학습할 수 없는 영역 — 그것을 저자는 “훈련 불가능한 것들”이라 부른다.
- 측정 가능한 것은 이미 상품화 중이다 — 벤치마크로 평가할 수 있는 작업은 곧 오픈 모델의 영역이 된다. 코딩 에이전트가 빠르게 성장한 이유도 컴파일러라는 공짜 검증자가 있었기 때문이다.
- 진짜 해자는 사적(private) 정답이다 — 정답이 회사 내부 데이터와 운영 현실 속에만 존재하는 작업은 AI가 외부에서 학습할 수 없다. 허가(permission)와 책임(accountability)이 지능보다 더 큰 병목이다.
- 응용 레이어는 여전히 가치 있다 — 프론티어 모델 경쟁이 다자 구도로 유지되는 한, 모델 위의 레이어는 가치를 보존한다. 진입하고, 번역 작업을 하고, ‘좋은 것’의 기준을 직접 써내려가는 회사가 이긴다.
• • •
2026년 중반, 투자자들 사이에서 떠도는 AI 비관론의 핵심 논리는 이렇다. 모델이 모든 영역에서 계속 좋아진다면, 그 위에 쌓인 회사들은 조만간 흡수될 얇은 포장지에 불과하고, 살아남는 가치는 결국 컴퓨팅과 프론티어 모델 가중치뿐이라는 것이다. 나는 그 절망을 한 번도 느껴본 적이 없다. 모델이 나보다 똑똑하다는 건 몇 버전 전부터 확신했고, Anthropic과 Nvidia를 시장 가격에 기꺼이 살 의향도 있다. 내가 아는 가장 영리한 사람들도 자기개선(self-improvement)이 곧 작동할 거라고 굳게 믿는다. 그래도 나는 그 절망이 들지 않는다.
비관론이 틀린 건 아니다. 하지만 절반만 맞다.
소프트웨어 엔지니어링의 교훈
비관론이 가장 강하게 기대는 사례는 소프트웨어다. 2024년에 출시된 Devin1은 표준 소프트웨어 벤치마크에서 문제의 13%를 해결하며 대체로 무시당했다. 1년 반 뒤, 최고 수준의 에이전트들은 80% 후반대를 기록하며 Goldman Sachs와 미군 내부에서 실제 업무를 수행하고 있다. 대부분의 사람들은 같은 잘못된 교훈을 도출했다. 모델이 소프트웨어 엔지니어링을 삼켰다고. 그러나 모델이 가장 측정하기 쉬운 부분을 소화하면서, 많은 팀들이 이미 알고 있던 사실이 다시 드러났다. 엔지니어링은 언제나 측정에 저항해 왔고, 측정 가능한 부분이 유일하게 중요한 부분이 아닐 수 있다.
MIT의 Mert Demirer와 공저자들은 10만 명 이상의 개발자를 추적해 마침내 수치를 내놓았다. 최신 코딩 에이전트는 코드 작성량을 약 180% 늘렸지만, 실제로 배포된 코드는 약 30% 증가에 그쳤다. 코드를 쓰는 건 싸졌다. 나머지는 여전히 사람을 통해 흐르고, 그것이 중요하다. 전체적인 순 효과가 여전히 놀랍다는 건 물론이다.
벤치마크의 본질
벤치마크는 측정할 수 있는 것이고, 측정할 수 있는 것은 학습할 수 있는 것이다. 코딩 에이전트가 먼저 성숙한 건 그래서다. 컴파일러는 공짜 검증자이고, 테스트 스위트도 공짜 검증자다. 답이 스스로를 점검해주는 환경에서는 통과할 때까지 계속 갈 수 있다. 그러나 테스트를 통과한다고 해서 그 변경사항이 10년 된 코드베이스에 맞는 올바른 결정인지는 알 수 없다. 세 가지 문서화되지 않은 이유로 존재하는 모듈이나, 아무도 자기가 썼다고 인정하지 않는 크론 작업으로 유지되는 배포 파이프라인에서는.
그 종류의 정합성은 리더보드로 읽어낼 수 없다. Google 규모의 시스템을 유닛 테스트하고 초록 체크를 믿는 사람은 없다. 수년간의 실제 부하를 견딘 덕에 신뢰하는 거다. 그런 정합성은 사적(private)이기도 하지만, 그보다 더 중요한 건 자본으로 무너뜨릴 수 없는 느린 종류의 해자라는 점이다.
낙관론자들도 이 시계는 건너뛸 수 없다는 건 인정한다. OpenAI 추론 모델의 개척자 Noam Brown4은 최근 이렇게 썼다. 에이전트를 1년 지평에서 평가하는 유일하고 확실한 방법은, 실제로 1년을 돌려보는 것일 수 있다고.
조직이 움직이는 속도
Gabe Pereyra5가 말하듯, 진짜 자동화는 모델이 더 좋아지는 것만으로는 완성되지 않는다. 제품, 모델, 워크플로, 그리고 기업이 함께 움직여야 하고, 그 넷 중 셋은 조직의 속도로 움직인다. 사람을 움직이는 것, 즉 회의적인 파트너가 업무 방식을 바꾸게 하거나 재구축 과정에서 팀을 하나로 묶는 것, 이 부분은 어떤 벤치마크도 건드리지 못하는 영역이다.
CEO를 뽑을 때 대인 능력이 분석적 두뇌 못지않게 중요한 이유도 이것이다. 더 똑똑한 모델이 그 가중치를 바꾸지는 않는다. 피드백은 모호하고, 지평은 수년이며, 신뢰는 사람에게 귀속된다. 내가 아는 모든 회사가 모든 엔지니어를 프론티어 코딩 모델에 올렸지만, 그 속도에 가깝게 엔지니어링 조직을 재편한 회사는 하나도 없다. 도입은 한 분기 만에 됐다. 토큰 폭증의 마법 같은 그 한 분기. 그러나 재편에는 수년이 걸리고 있다.
읽혀지는 것이 떠나는 것이다
가치 있는 작업은 본질적으로 읽혀지지 않는다(illegible). 리더보드에 올릴 수 있으면 학습할 수 있고, 학습할 수 있으면 상품화 중이다. 방향은 결코 역전되지 않는다.
Rippling6의 내 친구 Matt MacInnis가 금전적으로 표현하듯이. 일반적인 질문에 답하는 데 쓰인 토큰은 어느 모델이든 대답할 수 있으니 가치가 거의 없다. 반면 회사 데이터를 근거로 추론하는 데 쓰인 토큰은, 막연히 그럴듯한 답이 아니라 실제로 원하는 것을 하기 때문에 훨씬 더 가치 있다.
읽혀지는 작업은 두 방향에서 먹힌다. 아래에서는 작업이 포화된다. 어떤 작업을 저렴하게 점검할 수 있게 되면, 구매자는 어떤 모델이 했는지보다 비용을 물어보기 시작한다. 그 작업은 그 주 가장 저렴한 오픈 또는 증류 모델에게 넘어간다. 마진 압박은 닿을 수 있는 모든 곳에서 결국 작동한다. 위에서는 랩(lab)들이 모델이 자체 발판을 삼키게 하려 한다. 검색, 저렴한 호출과 비싼 호출 간의 라우팅, 도구 사용, 추론 정책. 모델을 감싸던 모든 장치가 가중치 안으로 당겨지고, 결국 포장재가 곧 모델이 된다. 이것이 흡수 프론티어다. 마진 압박은 반대 방향에서도 작용한다. 범용 에이전트는 무엇에든 대응해야 하므로 비싸지만, 특화된 애플리케이션은 단일 워크플로를 토큰 비용의 일부만으로 처리할 때까지 튜닝할 수 있다. 그 토큰을 파는 랩과 달리, 차익은 애플리케이션이 가져간다.
• • •
2×2 매트릭스: 훈련 가능한 것과 불가능한 것
어떤 종류의 작업에 대해서도 두 가지를 물을 수 있다. 정합성이 사적이고 확립하는 데 비용이 드는가, 즉 누군가의 데이터 내부에만 존재하는 진실인가. 그리고 벽으로 막혀 있는가, 진입할 수 없는 시스템 내부에 잠겨 있는가. 이것을 작업의 포화도에 대비시키면 2×2가 된다.
| 공개 답변 (벤치마크로 측정 가능) | 사적 답변 (내부에만 존재하는 진실) | |
|---|---|---|
| 포화된 작업 (이미 잘 풀림) | 상품 토큰오픈 모델이 지배한다. 마진은 0으로 수렴. | 레거시 내부화사적이지만 프론티어 수준의 작업이 없어 흡수 위험. |
| 프론티어 작업 (아직 어려움) | 코딩 벤치마크 영역랩이 이긴다. 평가가 공짜일 때 소유는 의미가 없으니. | 훈련 불가능한 코너 ★마지막 코너. 이곳이 진짜 상이다. 허가와 책임이 지능보다 크다. |
AI 네이티브 선구자들의 인퍼런스 클라우드7를 보면 이것이 보인다. 그곳에서 생성되는 토큰의 대다수는 범용 오픈 모델이 아닌 커스텀 모델에서 나온다.
마지막 코너로 들어가는 벽의 높이는 다양하다. 한 개발자의 작은 코드베이스는 이식 가능하고 표준화되어 있어 장벽이 낮다. 은행의 프로덕션 시스템은 그렇지 않으며, SWE-Bench Verified8에서 2% 더 영리하다고 루트 권한을 주지는 않는다.
지능이 병목이 아닐 때
역량은 많은 것을 먹어치우지만, 더 좋은 모델이 사적 지상 진실(private ground truth)을 공개하지는 않는다. 모델은 면허를 보유하지 않고, 책임에 서명하지 않으며, 회사 파일을 소유하지도 못한다. 답이 틀렸을 때 소송을 당하는 당사자가 될 수도 없다. 여기서 병목은 지능이 아니다. 허가(permission)이고 책임(accountability)이다.
아무리 똑똑한 모델을 상상해도, 그 모델은 여전히 문 안으로 들어가려면 허락을 받아야 하고, 자신이 하는 일에 이름을 올려줄 누군가가 필요하다.
그 문에는 자물쇠가 두 개 있다. 첫 번째 자물쇠는 환경이다: AI가 시스템 내부에서 유용한 일을 했는지 확인하려면, 먼저 그 시스템 안에서 신뢰를 얻어야 한다. 보안 검토, 통합, 결과에 이름을 올리는 계약을 거친 다음에야 가능한 일이다. 두 번째 자물쇠는 사용자다: 미국 의사의 다수가 지금 매일 OpenEvidence9를 여는데, 그 어떤 컴퓨팅 양도 그것을 살 수 없다. 랩이 내일 당장 완벽한 의료 모델을 학습시켜도, 의사의 습관이나 UCSF의 의사결정 흐름으로 들어가는 방법이 없다. 신뢰는 관계 위에서, 사용자의 동의와 함께 천천히 쌓이는 것이다. 그것을 지우는 경사 하강법(gradient descent)으로는 만들어지지 않는다.
번역 작업의 가치
이것이 바로 할 일이기도 하다. 훈련 불가능한 코너에서 자리를 얻는 애플리케이션은 화려하지 않은 작업을 통해 그 자리를 번다. 회사의 사적 현실을 모델이 행동할 수 있도록 정리하고, 모델에게 행동할 도구를 쥐여주고, 고객과 함께 일하며 그 인력의 현실을 바꾸는 것. 이 번역을 가져오는 회사는 복제하기 어렵다. 번역은 끝나지 않는다. 통합과 유지보수는 관계가 유지되는 한 계속되며, 도메인 특화 엔지니어와 도구를 고객 옆에 두는 팀이 이긴다.
예를 들어, 최상위 로펌의 M&A 업무에서는 연간 1,000건에 가까운 딜이 진행된다. 기밀 문제와 수십 가지 다른 이유들로, 수백 명의 어소시에이트가 각자 클라이언트 파일을 데스크톱에 내려받아 범용 에이전트로 처리하는 건 불가능하다. 설령 가능하다 해도, 얻는 것은 파편들일 뿐이다. 중요한 신호는 딜 수준에 있다. M&A에는 형태가 있다. NDA, 텀시트, 실사, 매매계약서, 부속서류, 클로징 체크리스트. IP 소송에는 신청서, 증거개시, 선행기술, 추가 신청서라는 형태가 있다. 각 업무 영역마다 자체적인 형태가 있고, 변호사도 도구도 영역 간 교환되지 않는다.
그리고 로펌이 실제로 해결하는 문제는 그 모든 것보다 한 단계 위에 있다. 최고의 파트너가 수백 건의 사건을 동시에 진행하면서 새 사건도 유치하고 어소시에이트도 훈련시키는 방식으로 모든 업무 영역을 병렬로 운영하는 것. 그런 로펌을 변환하는 것은 eval 하나로 정의할 수 있는 단일 작업이 아니다. 매우 모호한 중간 목표와 불완전한 피드백을 가지고, 쉬지 않고 움직이는 환경에서, 수년의 지평에 걸쳐 이를 머니볼10로 돌리는 오퍼레이터가 필요하다.
측정이 아닌 판단
읽혀지지 않는 가치는 같은 이유로 팔기도 어렵다. AI가 운영을 변환시킬지, 외부에서는 벤치마크로도 알 수 없다. 그래서 가장 강한 사업들은 외부로 증명하려는 시도를 멈추고, 내부로 들어가 결과를 직접 가격에 반영한다.
Sierra11는 에이전트가 고객 문제를 해결했을 때 요금을 청구하고, 사람에게 넘겼을 때는 청구하지 않는다. 가격 자체가 평가가 된다. Sierra가 “해결됨”의 정의를 소유하기 때문에만 가능한 구조다. Cognition의 Devin도 소프트웨어에서 “성능 보장”으로 같은 움직임을 한다. 내부에서 신뢰받는 시스템의 결과에 대해서만 제공할 수 있는 것이다.
토큰 서비스 레이어조차도
모두가 순수 상품이라고 부르던 토큰 서비스 레이어조차 상품처럼 행동하지 않는다. 최고의 AI 네이티브 회사들은 서비스를 한두 곳의 공급자(Baseten이나 Fireworks12)에 집중하는데, 이유가 있다. 토큰당 비용은 예상대로 상품화되지만, 실제 트래픽 하에서의 안정성과 희소 컴퓨팅에 대한 보장된 접근은 그렇지 않기 때문이다. 어디서 서비스할지는 어떤 모델을 쓸지와 별개의 선택이다. 추론에서 상품처럼 행동하는 것은 가격뿐이다.
자주 제기되는 반론이 있다. 랩이 공급자인데, 왜 랩이 자체 퍼스트파티 제품을 원가 이하로 운영해 경쟁자를 고사시키거나 API 접근을 취소하고 시장을 직접 차지하지 않겠느냐는 것이다. 이것이 절망의 진짜 버전이다. 그러나 이 논리는 모델 레이어가 1인 게임일 때만 성립한다. 명백히 그렇지 않다. 3.5강의 죽음의 매치에 국제 플레이어들이 6개월 학습 격차로 참전 중이고, 개발 리그는 작년의 5배 규모다. 고객들은 공급자 간 경쟁을 원하고, 랩들은 특정 애플리케이션 하나를 죽이는 것보다 시장 점유율을 더 원한다.
소비자 채팅에서 랩들이 정면 경쟁하는 시장을 보면 더 명확하다. 가장 좋은 모델이 단순하게 이긴 적이 없다. ChatGPT는 수년간 실제 경쟁 속에서 선두를 유지했고, 지금 잃고 있는 점유율은 더 좋은 모델이 아니라 Android와 검색 덕분에 Gemini로 가고 있다. 예측 시장과 인터넷 분위기 모두 Anthropic이 최고 모델을 가진 것으로 평가하지만, Anthropic은 소비자 채팅에서는 거의 존재감이 없고 기업과 코딩에서 사업을 쌓았다. 가장 중요한 애플리케이션에서조차 더 좋은 모델이 경쟁자의 사용자를 빼앗지 못한다면, 병원 기록이나 은행의 책임을 통합으로 파고들 수는 없는 거다. 오늘날 대중은 코딩 하나만으로 선택하지 않는다. 프론티어가 계속 다자 구도로 유지된다면, 그 위의 레이어는 가치를 보존할 것이다.
좋은 것을 정의할 권리
작업을 외부에서 점수 매길 수 없다면, 내부 누군가가 좋은 답이 무엇인지 결정해야 하고, 그 결정이 곧 전부다. 그런 결정들이 충분히 쌓여 기록되면 벤치마크가 된다. Harvey13는 법률용 벤치마크를 발행하고, Sierra는 보이스 에이전트용을 발행한다. 어떤 분야에서 ‘좋은 것’의 기준을 정의할 권리는, 그 분야가 이미 사용하는 회사가 실제 도입의 고난을 통해 얻는 것이다.
실제 돈이 오가는 평가는 사적이고 기업별이다. 이 기업이, 이런 종류의 사안에서, 무엇을 좋은 작업으로 수용하느냐. 어떤 공개 테스트도 법의 깊이에 미치지 못하기 때문에 이것은 아직 완성과는 거리가 멀다. OpenEvidence는 안전한 임상 답변이 어떤 것인지를 정착시키고 있다. 이것은 측정이 아니라 진실과 좋음에 대한 판단이며, 기록되어 모두가 측정되는 기준이 된다. 파운데이션 랩은 아무리 똑똑해져도 이것을 저술할 수 없다. 그 권위는 분야 내부에만 존재하기 때문이다. 그 권위는 이미 그것이 있던 곳에 자리 잡는다. 법률 벤치마크는 선임 변호사가 쓴다. 안전한 임상 답변을 정의하는 것은 의사에게 달려 있다. 그리고 “해결됨”은 이미 고객을 소유한 회사가 말하는 대로다.
• • •
방어와 공격
흡수 프론티어는 계속 상승한다. 더 많은 작업을 측정하는 법을 계속 배우고, 측정 가능한 것은 먹힌다. 훈련 불가능한 지반은 그 위에 서 있는 사람 밑에서 줄어들므로, 방어 가능한 지점을 찾아 쉬는 건 불가능하다. 아직 측정 불가능한 곳을 향해 계속 걸어가야 하고, 끊임없이 재보증(re-underwrite)해야 한다. 좁은 작업에서, 사적 데이터와 자체 eval로, 프론티어까지 학습시켜 범용 모델을 해당 분야에서 이길 수 있고, 그 특화 모델은 해자의 일부가 된다.
반면, 범용 모델에서 경쟁하는 것은 가장 많은 컴퓨팅을 가진 자에게 지는 자본 전쟁이며, 얕은 접근권과 읽혀지는 작업을 가진 회사가 빠지는 함정이다. 범용적인 작업 영역에서 프론티어를 이기려 학습에 전념하기로 결정하는 순간, 승자는 데이터센터 규모로 거의 결정된다. 결말은 보통 독립 챔피언이 아니라 컴퓨팅이 풍부한 누군가에게의 매각이다.
이것은 모두 방어다. 더 어려운 것은 공격, 즉 애초에 무엇을 만들지 선택하는 것이다. 그것이 내가 한 해를 보내며 찾는 것이고, 아마도 서너 번 찾을 것이다. 모델은 거기서 도움이 안 된다. 모델은 뭘 가리키든 할 것이지만, 무엇을 가리킬 가치가 있는지 말할 수 없고, 그것을 벤치마크할 수 없으니 학습도 불가능하다. 기존 강자들이 모든 것을 차지하지 못하는 이유이기도 하다. 그들은 가진 지반을 지키고, 다음 것은 나머지 우리가 알아채기 전에 활용법을 찾는 누군가에게서 온다. 의도(intent)가 컴퓨팅보다도 더 희소한 인풋일 수 있다.
• • •
절망은 절반은 맞다. 얇은 포장지 레이어는 실제로 흡수되고 있고, 오늘날 회사처럼 보이는 많은 것들이 얇은 포장지다. 그러나 그것이 남기는 것에 대해서는 틀렸다. 메커니즘은 명확하다. 목적지는 그렇지 않다.
내가 베팅하는 것은 방향이다. 지능은 계속 저렴해지고, 가치는 계속 모델이 닿을 수 없는 몇 안 되는 곳으로 미끄러진다.
훈련 불가능한 것은 역사를 가진 가치다. 그러니 그 내부로 들어가고, 화려하지 않은 번역 작업을 하고, 거기서 좋은 것이 무엇인지 기록하기 시작하라. 어차피 누군가는 그렇게 할 테니까.
올해 가장 많이 인용되는 벤치마크 점수는 두 가지다. 곧 무용지물이 될 영역의 지도이자, 무엇이 좋은 것인지 말할 권리를 곧 잃을 사람에 대한 공고.
역주
- Devin: Cognition AI가 2024년 3월 공개한 자율 소프트웨어 엔지니어링 에이전트. 스스로 코드를 작성·디버깅·배포하는 “세계 최초의 AI 소프트웨어 엔지니어”로 소개됐다. 초기 SWE-Bench 벤치마크에서 13.86%를 기록해 화제가 됐다. ↩
- Noam Brown: OpenAI 연구 과학자. 텍사스 홀덤 포커 AI인 Libratus(2017)와 Pluribus(2019)로 유명해졌으며, 이후 OpenAI에서 추론(reasoning) 모델인 o1 시리즈 개발에 핵심 기여를 했다. ↩
- Gabe Pereyra: Google Brain 출신 AI 연구자이자 스타트업 창업자. 특히 AI 시스템의 실제 조직 내 도입 과정에 대한 통찰로 주목받는다. ↩
- Rippling: 급여·HR·IT 관리를 통합한 미국 기업 운영 플랫폼. 2016년 Parker Conrad가 설립했으며, 기업 내 직원 데이터를 단일 시스템으로 연결하는 구조로 빠르게 성장했다. ↩
- 인퍼런스 클라우드(Inference Cloud): AI 모델 추론(inference)을 대규모로 실행하는 전용 클라우드 인프라. 범용 클라우드(AWS, GCP 등)와 달리 GPU 클러스터를 AI 추론에 특화하여 운용하며, Baseten·Fireworks·Together AI 등이 대표적 사업자다. ↩
- SWE-Bench Verified: AI 코딩 에이전트의 실제 소프트웨어 엔지니어링 능력을 평가하는 업계 표준 벤치마크. GitHub의 실제 이슈와 풀 리퀘스트를 기반으로 하며, “Verified” 버전은 인간이 검수한 고품질 문제만 포함한다. ↩
- OpenEvidence: 의사·임상의를 위한 AI 의료 질의응답 플랫폼. 임상 근거 문헌을 기반으로 안전하고 출처가 명시된 답변을 제공하며, 미국 내 의사들 사이에서 높은 일일 활성 사용률을 기록하고 있다. ↩
- 머니볼(Moneyball): 2003년 출간된 마이클 루이스의 논픽션 동명 도서(2011년 영화화)에서 비롯된 비유. 오클랜드 애슬레틱스 구단이 기존 직관 중심 스카우팅 대신 데이터 분석으로 경기를 최적화한 사례를 다룬다. 오늘날 “머니볼한다”는 표현은 데이터·지표 기반의 최적화 전략을 의미한다. ↩
- Sierra: 2023년 Bret Taylor(전 Salesforce 공동 CEO)와 Clay Bavor(전 Google VP)가 설립한 기업용 AI 고객 서비스 에이전트 스타트업. 결과 기반 과금(문제 해결 시에만 청구) 모델로 주목받았다. ↩
- Baseten / Fireworks: 미국의 AI 모델 추론 인프라 스타트업들. Baseten은 ML 모델 배포·서빙 플랫폼이며, Fireworks AI는 오픈소스 LLM의 고속 추론을 전문으로 한다. 두 회사 모두 빠른 속도·안정성·희소 GPU 접근 보장을 차별점으로 내세우며 AI 네이티브 기업들의 선호 인프라가 됐다. ↩
- Harvey: 2022년 설립된 법률 특화 AI 스타트업. A16z(Andreessen Horowitz) 등에서 투자를 받았으며, Allen & Overy, PwC 등 대형 로펌·회계법인과 계약해 계약 검토·법률 리서치·소송 서류 작성 등을 자동화한다. 법률 분야 자체 벤치마크를 발행하는 등 도메인 평가 기준 수립에도 나서고 있다. ↩
저자 소개: Sarah Guo는 AI 스타트업 전문 벤처캐피털 Conviction의 창업자 겸 GP다. 전 Greylock Partners 파트너 출신으로, Figma, Abnormal Security 등을 초기 투자했다.
참고: 이 글은 Sarah Guo(saranormous)가 Substack에 게시한 아티클을 번역한 것입니다.
원문: The Untrainable — Sarah Guo, saranormous (2026년 6월 10일)
번역: Claude (Anthropic)