기술

OpenAI의 새 음성 모델은 오디오 루프 안에서 사고한다 — AI를 들통내던 그 정적이 사라진다

정체를 들통내는 건 그 멈칫이다. 지금까지 음성 AI는 발화를 받아 적고, 텍스트를 언어 모델에 넘기고, 답을 받아 다시 오디오로 합성하는 방식으로 일해 왔다. 단계마다 시간이 든다. 사용자는 침묵을 듣고, 반대편에서 무엇인가가 처리되는 중임을 직감하며, 그 이음매를 느낀다. OpenAI의 새 모델 GPT-Realtime-2는 이 모든 파이프라인을 하나의 모델로 접어 넣어, 추론이 오디오 루프 자체 안에서 일어나게 만든다. 이음매는 사라진다.
Susan Hill

OpenAI는 이번 주 Realtime API에 세 가지 새 오디오 모델 — GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper — 을 풀어 놓았다. 간판은 첫 번째다. OpenAI는 이를 “GPT-5급 추론”을 갖춘 최초의 음성 모델로 소개하면서, 입력 오디오와 출력 오디오를 하나의 모델이 다루도록, 그리고 사고 과정이 전사·합성 단계 사이에 끼이는 게 아니라 대화 안에 짜여 들어가도록 설계했다고 밝힌다. 뒷받침하는 숫자들은 구체적이다. Big Bench Audio 점수는 직전 기준 모델 대비 81.4퍼센트에서 96.6퍼센트로 뛰었다. Audio MultiChallenge는 34.7퍼센트에서 48.5퍼센트로 올라섰다. 컨텍스트 창은 3만 2,000토큰에서 12만 8,000토큰으로 확장됐다 — 한 통의 통화 동안 고객의 전체 이력을 통째로 품고 있을 수 있는 넓이다.

구조적 변화는 벤치마크에서 더디게 드러난다. 지난 3년간 음성 에이전트를 운영 환경으로 끌고 가려는 모든 이들은 스택을 직접 꿰매야 했다. 전사에는 Whisper나 Deepgram, 추론에는 LLM, 음성에는 ElevenLabs나 Cartesia, 그리고 지연을 가리기 위한 프롬프트 엔지니어링이 차례차례 붙었다. 부품 사이를 건너뛸 때마다 밀리초와 명료함이 비용으로 빠져나갔다. 사용자가 들은 건 스크립트가 끼워 넣은 “잠시만요, 확인해 보겠습니다”, 모델이 사고하는 동안의 침묵, 그리고 마침내 도달한 답이라는 삼막극이었다. GPT-Realtime-2는 그 비계를 네이티브 동작으로 들고 들어왔다. 프리앰블 덕분에 에이전트는 도구를 호출하는 동안 “잠시만요, 확인해 보겠습니다”라고 발화할 수 있고, 사용자는 침묵 속에 앉아 있지 않아도 된다. 병렬 도구 호출은 모델이 여러 백엔드 요청을 동시에 쏘면서 어떤 게 진행 중인지를 말로 풀어주게 한다. 복구 동작은 실패를 대화의 정지 대신 수면 위로 끌어올린다.

개발자에게 열린 제어면이 가장 흥미로운 대목이다. “추론 강도(reasoning effort)”가 구성 가능해졌다 — minimal, low, medium, high, xhigh — 기본값은 low로, 단순 질의에서는 지연을 낮게 잡는다. “몇 시에 닫나요?”에 답하는 에이전트에 GPT-5급 추론은 필요 없다. 환불 분쟁을 끌고 가는 에이전트에는 필요하다. 같은 모델이 턴마다 얼마나 깊게 사고할지를 지시받을 수 있다는 점은, 추론 깊이가 고정돼 있어 배포 시점에 “빠르냐, 똑똑하냐” 둘 중 하나를 골라야 했던 이전 모델과 비교했을 때 실질적인 변화다.

회의에는 자리를 내줘야 한다. “GPT-5급 추론”은 마케팅 라인이지 검증 가능한 주장은 아니다. 현실적 대화 위에서 돌린 독립 벤치마크가 없는 한, 비교는 내부에 머문다. 음성 에이전트에는 벤치마크가 잘 잡지 못하는 별도의 실패 양식이 있다. 차분하고 자연스러운 목소리로 틀린 내용을 단언하는 그 순간이다. 추론이 좋아지면 도움은 되지만, 이 문제 자체를 지우지는 못한다. 가격도 무게를 가진다. GPT-Realtime-2는 오디오 입력 100만 토큰당 32달러, 출력 100만 토큰당 64달러다. GPT-Realtime-Translate는 분당 0.034달러, GPT-Realtime-Whisper는 분당 0.017달러. 대량 고객 응대에 쓰기에는 충분히 싸다. 대화량이 많은 일반 소비자 제품에 그냥 쏟아부을 만큼 싼 가격은 아니다 — 세션 길이를 설계 단계에서 따져야 한다.

배포 문맥이 이야기의 나머지를 메운다. Zillow는 같은 날 음성 부동산 검색을 가동했다. 도이체텔레콤은 14개 유럽 시장에서 실시간 번역을 곁들인 음성 지원을 깔았다. 두 사례 모두 OpenAI가 가격을 책정한 바로 그 용례다 — 길고, 거래 성격이 강하고, 문맥이 두꺼운 대화. 사용자가 단순 검색이 아니라 진짜 사고하는 에이전트로부터 이득을 얻는 자리다. Priceline은 호텔 예약 관리와 항공편 지연 추적을 통째로 음성으로만 처리하는 시스템을 만들고 있다. OpenAI가 가장 먼저 거명한 고객들의 패턴은 분명하다 — 그 동안 음성 시스템이 가장 못 굴러갔던 자리들이다. 콜센터, 지원 라인, 거래성 여행. 사용자가 오늘도 전화기에 대고 “상담원”을 외치는 바로 그 자리다.

모델은 지금부터 Realtime API에서 사용할 수 있다. ChatGPT 본체의 음성 업그레이드는 여전히 대기 중이다 — “기대해 주세요, 지금 굽는 중입니다”, OpenAI는 그렇게 말했다. 샘 올트먼은 이번 출시를 행동 변화의 틀에서 짚었다. 사용자는 많은 맥락을 “쏟아내고” 싶을 때 점점 더 음성 쪽으로 기울고 있다는 것이다. 그 패턴이 굳는다면, 음성 AI와 텍스트 AI 사이의 거리는 좁혀지기 시작한다 — 그리고 전화선 위에서 AI를 들통내던 그 이음매는, 점점 들리지 않는 것이 된다.

토론

댓글 0개가 있습니다.