Opus 4.6에 2점 뒤졌지만 5배 저렴, Gemini 3.5 Flash가 셈을 다시 쓴다

구글은 월요일 Gemini 3.5 Flash를 100만 입력 토큰당 1.50달러, 100만 출력 토큰당 9달러에 출시했다. 새 모델은 초당 280개가 넘는 출력 토큰을 유지하고, 전작과 같은 100만 토큰의 컨텍스트 창을 그대로 둔 채 Artificial Analysis Intelligence Index에 55점, Gemini 3 Flash보다 9점 위에 자리잡았다. 화요일 아침 r/Anthropic의 한 스레드는 그 차트를 Claude Opus 4.6 옆에 이미 붙여두고, 이 시장이 여섯 달 동안 빙빙 돌고 있던 질문을 던졌다. 벤치마크에서 두 점 우위는 어느 지점부터 다섯 배 가격에 값을 다하지 못하게 되는가.

Intelligence Index는 추론, 지식, 코딩, 수학, 에이전트 과제 수행에 걸친 공개 평가의 묶음을 1에서 100까지의 단일 점수로 합산한다. 적응형 추론 모드의 Claude Opus 4.6은 57점에 머무른다. 5월 19일에 나온 Gemini 3.5 Flash는 55점에 자리잡았다. 버전 간 9점 도약은 Flash가 한 세대에서 기록한 가장 가파른 단일 진전이며, 새 모델이 Anthropic의 직전 Sonnet을 원천 지능에서 Sonnet 가격의 일부분으로 따라잡기에 충분한 폭이다.

레딧 스레드가 쓴 「더 똑똑하다」는 프레임은 Flash 쪽으로 격차를 부풀린다. 순수 Intelligence Index에서 Opus 4.6은 여전히 두 점 앞이다. 스레드를 터뜨린 차트는 Intelligence Index 그 자체가 아니다. 지능-효율 대 비용 뷰다. 거기서 축은 다른 일을 하고, 거기서 Flash 3.5는 Opus 4.6을 단지 이기는 것이 아니라 근처에 다른 누구도 없는 부류에 앉아 있다.

Opus 4.6은 100만 입력 토큰당 약 6.25달러, 100만 출력당 25달러를 청구한다. Flash는 1.50과 9를 청구한다. 출력 쪽 2 대 1로 가중된 채팅 부하에서 실효 비율은 스레드 제목의 동그란 「다섯 배」보다 4.5배에 더 가깝다. 반올림은 정직하다. 속도는 기함의 그림을 더 나쁘게 만든다. Flash 3.5는 초당 280개가 넘는 출력 토큰을 유지하지만, Opus 4.6은 최대 노력 추론 모드에서 같은 벤치마크 세트에서 그 속도의 약 10분의 1로 달린다. 사용자가 커서를 들여다보는 종류의 제품 — 코딩 어시스턴트, 지원 에이전트, 모든 대화형 흐름 — 에서는 레이턴시가 가격이 되살 수 없는 기능이다.

1년 전에는 가장 비싼 모델을 사는 논거가 한 줄에 들어갔다. 다음 등급으로의 품질 도약이 충분히 가팔라서 가격 차이가 제공되는 가치에 대해 반올림 오차였다. 스레드가 붙인 차트는 다른 차트다. 마지막 두 지능 점수의 한계비용이 프로덕션 로드의 가격 결정 전체가 되었고, 반올림 오차는 이제 지출하는 6달러마다 4.75달러에 더 가깝게 떨어진다.

Opus 4.6을 스택에 남겨두는 깨끗한 논거가 있다. 수백 페이지에 걸친 긴 컨텍스트 추론, 단계마다 오류가 쌓이는 에이전트 루프, 두 점 차가 작업별로 훨씬 큰 격차를 가리는 문서 분석. Opus는 실패 모드가 「답이 틀렸다」이지 「답이 늦었다」가 아닐 때 엔지니어가 여전히 손을 뻗는 모델이다. 그렇게 생긴 프로덕션 로드의 비중은 줄고 있다. 0은 아니며, 정확히 100만당 25달러가 봉급을 버는 띠다.

청구 가능한 토큰의 대부분을 움직이는 채팅 차례 — 작성, 요약, 분류, 번역, 코드 자동완성, 고객 대면 추론 — 은 모두 Flash의 사정거리에 있다. 엔지니어링 팀이 분기마다 던지는 질문은 이제 「어떤 모델이 최고인가」가 아니다. 「용인 가능한 레이턴시에서 달러당 가장 많이 돌려주는 모델은 무엇인가」다. 그 두 번째 질문을 Flash는 해석에 미묘함을 요구하지 않는 격차로 지금 이기고 있다.

스레드의 이차 프레이밍, 즉 어디서나 Opus 4.6이 4.7보다 낫다는 공감대가 있다는 것은 더 부드러운 처리를 받을 만하다. 일화적이다. Anthropic의 최근 두 Opus 버전은 코드 평가와 도구 사용의 엄밀성에서 갈린 평을 받아왔다. 일부 팀은 4.7에서 긴 에이전트 루프의 후퇴를 보고하고, 다른 팀은 동일한 부하에서 깨끗한 승리를 보고한다. 행위가 마이너 버전 사이에서 여러 축으로 조정되고 있을 때 두 관찰이 동시에 참일 수 있다. 두 모델은 공개 지수에서 서로 1점 이내에 서 있어, 커뮤니티의 분열은 능력보다 취향에 가까운 다툼처럼 보인다. 논쟁 밖에 있는 것은, 어느 Opus의 가격도 꿈쩍하지 않는다는 사실이다.

레딧 대화의 더 깊은 신호는 사용자들이 다투지 않은 것이다. 스레드에서 아무도 Opus의 가격을 원칙적 차원에서 옹호하지 않았다. 등장한 변론은 부하 한정이었다. 「Opus는 내 에이전트 루프에서 여전히 나를 이긴다.」「Opus는 우리 문서 검토 파이프라인에 남는다.」 실재하지만, 부하 변론이지 기함 변론은 아니다. 기함은 스펙트럼에서 이겨야지, 특정 차선에서만 이기는 것이 아니다.

지능 차 2점. 가격 5배. 반대 방향으로 속도 6배. 100만 토큰 컨텍스트 창이 100만 입력당 1.50달러. 멀티모달 입력, 에이전트 과제 Elo 1650 초과, 캐시된 입력에 90퍼센트 할인. 다음 분기 Anthropic의 응답은 자신의 이야기를 풀 것이다. 2026년 5월에 더 쓰기 어려운 것은, 영업 담당자가 고객 회의에 들고 가야 하는 논거 쪽이다.

태그: Google, tech-en1, Anthropic, AI, Artificial Analysis, Claude Opus 4.6