AI

Claude Fable 5 복귀: Anthropic이 차단한 건 탈옥 기법이지, 모델 능력이 아니다

Adrian Kessler

Anthropic이 공개한 AI 모델 중 가장 강력한 Claude Fable 5가 전 세계에서 다시 이용 가능해졌다. 복귀는 18일간의 완전 중단 이후다. 미국 정부가 Anthropic에 사용자 국적을 실시간으로 확인하도록 요구하는 수출 통제를 부과했을 때, Claude의 글로벌 사용자 규모에서는 그 요건을 충족할 수 없다고 판단한 회사는 부분 준수 대신 전면 접근 차단을 선택했다.

통제를 촉발한 기법은 Amazon 연구자들이 발견한 특정 탈옥 방법이었다. 이 방법은 Fable 5를 이용해 미국 수출 규제가 일부 외국 국민에게 금지하는 방식으로 소프트웨어 취약점을 파악했다. 내부 조사 결과 규제 논리를 복잡하게 만드는 사실이 드러났다. 같은 종류의 취약점이 Opus 4.8, GPT-5.5, Kimi K2.7 등 훨씬 덜 강력한 모델로도 파악될 수 있었던 것이다. 즉, 해당 능력이 Fable 5만의 것이 아니었다.

수출 통제를 해제한 해결책

바뀐 것은 Amazon이 문서화한 우회 기법을 차단하도록 특별 훈련된 새 안전 분류기다. Anthropic에 따르면 분류기는 공개된 방법을 99% 이상의 경우에서 차단한다. 이것이 향후 탈옥에 대한 완전한 보호 보장은 아니다. 알려진 취약점에 대한 표적 수정이다. 분류기는 입력 계층에서 작동하며, 문서화된 패턴과 일치하는 요청을 모델이 처리하기 전에 다른 경로로 돌린다.

더 넓은 함의는 AI 규제가 어떻게 발전할지와 관련이 있다. Fable 5에 수출 통제가 적용된 것은 이 모델만이 해당 위협을 가능하게 했기 때문이 아니라, 알려진 기법이 이를 악용했기 때문이다. 규제가 해제된 것도 규제 체계가 그 문제를 해결했기 때문이 아니라, 분류기가 문서화된 허점을 닫았기 때문이다. Anthropic은 Amazon, Microsoft, Google과 함께 AI 탈옥 심각도를 네 가지 기준—능력 획득, 획득 범위, 무기화 용이성, 발견 가능성—으로 평가하는 공통 프레임워크를 마련 중이다. 이 프레임워크는 아직 공개 표준으로 존재하지 않는다.

모델이 하는 일과 비용

모델 자체는 바뀌지 않았다. Fable 5는 까다로운 장기 추론과 에이전트 작업을 위해 설계됐다. 각 단계에서 사람의 승인 없이 긴 시퀀스에 걸쳐 계획, 실행, 궤도 수정이 필요한 작업이다. 컨텍스트 창은 100만 토큰이며, 이것이 기본값이기도 하다. 응답당 최대 출력은 12만 8천 토큰이다. 사고 과정은 항상 활성화되며 생 추론 체인 대신 읽을 수 있는 요약으로 반환된다.

접근에는 중단 전에 없던 조건이 따른다. Fable 5는 이제 30일 데이터 보존을 요구하며, 데이터 무보존 계약에서는 이용할 수 없다. 의료, 법률, 정부 기관처럼 AI 도구 도입의 기본 요건이 무보존 계약인 곳에서는 직접적인 영향을 미친다. 가격은 Opus 등급 이상이다. 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러. 안전 분류기를 작동시키는 요청은 거절 대신 폴백 모델이 처리할 수 있으며, 그 전환이 최종 사용자에게 보이는지 여부는 각 운영자의 설정에 달려 있다.

이용 가능성

Fable 5에는 형제 모델 Claude Mythos 5가 있다. 기본 능력과 가격은 같지만 Fable 5에 없는 공격적 사이버보안 기능을 포함한다. Mythos 5는 별도 접근 등급인 Project Glasswing을 통해 제공된다. 두 모델은 동시에 돌아오지 않았다. Mythos 5 접근은 Fable 5의 글로벌 복귀 1주일 전에 일부 미국 기관에 복구됐다.

Fable 5는 현재 Claude 플랫폼, Claude.ai, Claude Code, Claude Cowork에서 이용 가능하다. Pro, Max, Team, 일부 Enterprise 요금제에서는 7월 7일까지 주간 이용 한도의 최대 50%에 포함되며, 이후 이용 크레딧 요금제로 전환된다. AWS, Google Cloud, Microsoft Foundry를 통한 접근은 단계적으로 복원되고 있다. 다음 새 우회 기법이 나타났을 때 어떻게 대응할지를 규정할 프레임워크는 아직 구축 중이다.

태그: , , , , ,

토론

댓글 0개가 있습니다.