공유영상 기반 가상 비서 마야를 선보인 스타트업 Sesame, 기반 AI 모델 공개

인상 깊도록 현실적인 목소리 비서 마야를 구동하는 기본 모델을 공개한 AI 기업 Sesame입니다.

모델은 10억 개의 매개변수(모델의 개별 구성 요소를 가리킴)로 이루어져 있으며, Apache 2.0 라이선스 하에 공개되었습니다. CSM-1B라고 불리는 이 모델은 텍스트 및 오디오 입력에서 'RVQ 오디오 코드'를 생성한다고 Sesame가 AI 개발 플랫폼 Hugging Face에서 설명했습니다.

RVQ는 '잔여 벡터 양자화'를 의미하며, 오디오를 코드라고 불리는 이산 토큰으로 인코딩하는 기술입니다. RVQ는 Google의 SoundStream 및 Meta의 Encodec와 같은 최근 AI 오디오 기술에서 사용됩니다.

CSM-1B는 Meta의 Llama 패밀리에서 모델을 백본으로 사용하고 오디오 '디코더' 구성 요소와 짝을 이루고 있습니다. Sesame에 따르면, CSM의 세부 조정된 변형이 마야를 구동합니다.

'여기 공개된 모델은 기본 생성 모델입니다,' Sesame는 CSM-1B의 Hugging Face 및 GitHub 저장소에서 설명합니다. '다양한 목소리를 만들 수 있지만 특정 목소리에 대해 세밀하게 조정되지 않았습니다. 이 모델은 교육 데이터에 데이터 오염이 있어 비-영어 언어에 대한 일부 용량이 있지만 잘 작동하지는 않을 것입니다.'

Sesame가 CSM-1B를 훈련시키기 위해 어떤 데이터를 사용했는지 명확하지 않습니다. 회사는 말하지 않았습니다.

이 모델은 실직적인 보호장치가 전혀 없는 것을 주목할 가치가 있습니다. Sesame는 영광의 원칙이 있으며, 개발자와 사용자에게 당사 모델을 사전 동의 없이 사람의 목소리를 모방하거나 가짜 뉴스와 같은 오도되고 해로운 또는 악의적인 활동에 사용하지 말라고 촉구하고 있습니다.

나는 Hugging Face에서 데모를 시도해 보았는데, 내 목소리를 복제하는 데 1분 이하가 걸렸습니다. 거기서부터는 선거나 러시아 프로파간다와 같은 논란이 되는 주제로 말하는 것이 쉬웠습니다.

소비자 보고서는 최근 시장에서 인기 있는 AI 기반 목소리 복제 도구 중 많은 것들이 사기나 남용을 방지하기 위한 '의미 있는' 보호장치가 없다고 경고했습니다.

오큘러스 공동 창립자인 브랜든 이라이브가 공동 창립한 Sesame은 언커니 밸리 영역을 뚫어내는 가까운 가상 비서 기술로 지난 2월 말에 바이러스를 통했습니다. 마야와 Sesame의 다른 비서인 마일즈는 숨을 쉬고 말을 더듬어하며 OpenAI Voice Mode와 유사하게 말하는 것이 가능합니다.

Sesame는 Andreessen Horowitz, Spark Capital 및 Matrix Partners로부터 액수 미상의 자본을 조달했습니다. 음성 비서 기술을 구축하는 것 외에도, 회사는 사용자가 하루 종일 착용할 수 있도록 디자인된 AI 안경을 프로토타입 중이며 특수 모델이 장착될 예정입니다.