
유네스코와 협력하여 새로운 프로그램을 시작하는 Meta는 회사가 미래에 공개적으로 이용 가능한 AI 개발에 도움이 될 것이라고 말한음성 녹음 및 텍스트 전사를 수집하고 있습니다.
언어 기술 파트너 프로그램인 이 프로그램은 ‘다양한 언어’에서 10시간 이상의 음성 녹음과 전사, 대량의 서면 텍스트 및 번역된 문장 세트를 공헌할 수 있는 협력자를 찾고 있습니다. Meta에 따르면 파트너는 회사의 AI 팀과 협력하여 이러한 언어를 AI 음성 인식 및 번역 모델에 통합할 것이며, 완성되면 공개 소스로 공개될 것입니다.
지금까지 파트너로는 캐나다 북부에 위치한 인구가 희박한 영토인 누나부트 정부가 포함되어 있습니다. 누나부트의 일부 주민은 이누크투트(Inuktut이라고도 함)라고 불리는 이누이트 언어를 구사합니다.
Meta는 TechCrunch에 제공한 블로그 게시물에서 “우리의 노력은 유네스코의 작업을 지원하는 언서비드 언어에 특히 초점을 맞추고 있습니다.” 라며 “최종적으로 우리의 목표는 언어나 문화적 배경과 관계없이 복잡한 인간 요구에 대해 이해하고 대응할 수 있는 지능적인 시스템을 만드는 것입니다.” 라고 썼습니다.
이번 새 프로그램과 관련하여, Meta는 언어 번역 모델의 성능을 평가하기 위한 오픈 소스 기계 번역 벤치마크를 공개하고 있습니다. 언어학자가 작성한 문장으로 이루어진 이 벤치마크는 7개 언어를 지원하며, AI 개발 플랫폼 Hugging Face에서 액세스 및 기여할 수 있습니다.
Meta는 두 가지 이니셔티브를 모두 자선적으로 선보이고 있습니다. 하지만 회사는 업그레이드된 음성 인식 및 번역 모델로 혜택을 보게 됩니다.
Meta는 AI 기반 어시스턴트 Meta AI가 지원하는 언어의 수를 계속 확대하고 있으며, 창작자들을 위한 자동 번역과 같은 기능을 시험 중입니다. 작년 9월에 Meta는 Instagram Reels에서 목소리를 번역하는 도구 테스트를 시작하겠다고 발표했는데, 이로써 크리에이터들이 자신의 음성을 더빙하고 자동으로 입술 싱크를 맞출 수 있게 되었습니다.
Meta의 플랫폼에서 다른 언어로 된 콘텐츠 처리는 많은 비판을 받았습니다. 하나의 보고서에 따르면, 이탈리아어 및 스페인어 COVID 거짓 정보의 거의 70%가 플래그가 되지 않은 반면, 비슷한 영어 정보의 29%만이 플래그 되지 않았다고 합니다. 그리고 회사의 유출된 문서들에 따르면, 아랍어로 작성된 게시물들은 정체된 혐오 발언으로 잘못 플래그 되는 경우가 자주 있습니다.
Meta는 자신의 번역 및 관리 기술을 개선하기 위한 단계를 취하고 있다고 합니다.