
리드 호프만과 함께 진행 중인 팟캐스트 '가능성(Possible)'에 최근 출연한 구글 DeepMind CEO Demis Hassabis는, 검색 업체가 지금은 Gemini AI 모델을 Veo 비디오 생성 모델과 결합하여 전자의 물리 세계 이해를 향상 시킬 계획이라고 밝혔다.
'우리는 항상 Gemini라는 우리의 기초 모델을 다중 모달로 구축했는데, 그 이유는 이렇게 하는 것이 (물리 세상을 이해하는) 범용적 디지털 어시스턴트의 아이디어에 대한 비전을 가지고 있기 때문입니다,'라고 Hassabis는 말했다.
AI 산업은 '옴니' 모델로 점진적으로 나아가고 있으며 - 다양한 형태의 미디어를 이해하고 종합하는 모델입니다. 구글의 최신 Gemini 모델은 이미지와 텍스트뿐만 아니라 오디오도 생성할 수 있으며, OpenAI의 ChatGPT의 기본 모델은 이미지를 생성할 수 있게 되었습니다 - 물론 스튜디오 지브리 스타일의 예술도 가능합니다. 아마존도 올해 나중에 '어디서든 어디로도' 모델을 출시할 계획을 발표했습니다.
이러한 옴니 모델은 많은 양의 훈련 데이터 - 이미지, 비디오, 오디오, 텍스트 등 - 가 필요합니다. Hassabis는 Veo의 비디오 데이터가 대부분 YouTube에서 가져온다고 암시했는데, YouTube는 구글이 소유한 플랫폼입니다.
'기본적으로 YouTube 비디오를 많이 시청함으로써(프로젝션 2는) 세계의 물리학을 파악할 수 있습니다,'라고 Hassabis는 말했습니다.
구글은 이전에 자사 모델이 YouTube 콘텐츠를 일부 학습할 수 있다고 TechCrunch에 밝힌 바 있습니다. 보고서에 따르면, 회사는 지난해 이용약관을 확장하여 AI 모델을 훈련하기 위해 더 많은 데이터를 활용하도록 한 것입니다.