AI

Claude Opus 4.8, 자기 코드의 오류를 네 배 더 잡아낸다

Susan Hill

Anthropic이 가장 강력한 모델을 Claude Opus 4.8로 올렸다. 핵심 변화는 더 큰 두뇌가 아니라 더 신중한 두뇌다. 회사는 이 모델이 자기가 쓴 코드의 결함을 짚지 않고 지나칠 확률이 이전 버전보다 약 네 배 낮으며, 확신이 서지 않는 작업 부분을 더 적극적으로 표시한다고 말한다. 코딩이든, 분석 실행이든, 컴퓨터 조작이든 실제 일을 AI에 넘기는 사람에게는 바로 그 신뢰성이 진짜로 중요한 성능이다.

오늘날 AI 에이전트의 약점은 어리석음이 아니라 자신감이다. 완성된 듯 보이고 매끄럽게 읽히는 결과를 내놓으면서 조용히 오류를 안고 있고, 혼자 돌아가는 시스템은 다음 단계를 앞선 실수 위에 쌓는 경향이 있다. 에이전트에 여러 단계 작업을 맡기면 처음의 잘못된 가정 하나가 뒤따르는 모든 것에 번질 수 있어, 일은 다 된 것처럼 들어오지만 아무도 모르게 망가져 있다. 자신의 의심을 덧칠하지 않고 드러내는 모델은 사람이 어디를 봐야 할지 알기에 감독하기가 더 쉽다.

가장 분명한 증거는 코드에 있다. Anthropic은 Opus 4.8이 만들어 낸 코드의 결함을 표시 없이 지나치는 경우가 크게 줄었다고 밝힌다. 검토가 아니라 운영에서 드러나는 그 조용한 버그다. 초기 시험에 참여한 투자사 Bridgewater Associates는 모델이 분석의 입력과 출력 양쪽의 문제를 스스로 짚어냈으며, 이는 다른 시스템이 으레 놓치던 점이라고 말했다. 지식 노동과 금융에서 위험한 오류는 바로 아무도 제때 잡지 못하는 오류다.

벤치마크 수치는 이 틀을 뒷받침하지만 본질은 아니다. Opus 4.8은 실제 소프트웨어 엔지니어링 과제로 짠 시험인 SWE-Bench Pro에서 69.2퍼센트를 받았다고 전해지며, OpenAI의 GPT-5.5와 Google의 Gemini 3.1 Pro를 앞섰다. Anthropic 자체 측정에서는 한 코딩 시험의 모든 노력 수준에서 이전의 모든 Opus 모델을 이기고, 법적 추론 시험에서 회사가 기록한 최고 점수를 세웠다. 격차는 실재하지만 좁고, 벤치마크 승리는 모델이 하루 종일 수수한 일을 할 때 어떻게 행동하는지 잘 예측하지 못한다.

모델에는 새 도구가 따라온다. Claude Code 안의 리서치 프리뷰 기능인 dynamic workflows는 Opus가 큰 작업을 계획한 뒤 한 세션에서 수백 개의 하위 에이전트를 병렬로 돌리게 해 준다. 수십만 줄에 이르는 코드 이전을 겨냥하며, 프로젝트의 기존 테스트 묶음을 합격 기준으로 삼는다. 또한 Claude.ai와 회사의 Cowork 환경의 새 조절기는 사용자가 모델이 한 응답에 얼마만큼의 노력과, 몇 개의 토큰을 들일지 정하게 한다.

단서들은 약속에 바짝 붙어 있다. 신뢰성 향상은 대부분 Anthropic 자체 시험에 기대며, 네 배 낮다 같은 수치는 독립 감사를 거친 것이 아니라 내부 측정이다. 정직함도 밖에서 검증하기 어렵다. 모델은 자신의 불확실성을 알리고도 틀릴 수 있고, 엉뚱한 곳에 깃발을 들 수도 있다. dynamic workflows는 완성된 기능이 아니라 프리뷰로만 나오며, 속도 이야기도 들리는 만큼 후하지 않다. 빠른 모드는 표준 요금의 두 배이고, 더 싸다는 말은 예전의 프리미엄 가격에 견줄 때만 성립한다.

비용을 따지는 쪽이라면, 표준 이용은 입력 100만 토큰당 5달러, 출력 100만당 25달러로 이전 Opus와 같게 유지된다. 빠른 모드는 100만당 10달러와 50달러에 약 2.5배 속도로 돌아가, 새로운 노력 조절기를 품질 손잡이이자 예산 도구로 만든다. Claude Opus 4.8은 지금부터 Anthropic의 개발자 API에서 claude-opus-4-8 이름으로 쓸 수 있으며, 회사는 같은 날 어디서나 배포한다고 말한다. 목요일에 나왔는데, Opus 4.7로부터 약 6주 뒤로 이례적으로 짧은 간격이다. 그 버전에 대한 미지근한 반응과 OpenAI, Google의 잇단 경쟁 출시가 뒤를 이었다. 진짜 시험은 자신을 의심하도록 훈련된 모델이 순위표에서 빛나도록 훈련된 모델보다 일상 업무에서 더 쓸모 있는지이며, 그 판정은 사람들이 실제로 돌리도록 두는 에이전트가 내릴 것이다.

토론

댓글 0개가 있습니다.