
글자 '딸기'에서 'ㄹ'이 몇 번 나타납니까? GPT-4o나 클로드와 같은 형성 가능한 AI 제품들은 대답이 두 번이라고 합니다.
대규모 언어 모델(LLMs)은 수 초 만에 에세이를 쓰고 방정식을 풀 수 있습니다. 그들은 인간이 책을 열기도 전에 테라바이트의 데이터를 종합할 수 있습니다. 그러나 이 같은 만능한 AI들은 때로는 대단히 실패하여 그 실수가 바이럴 미미가 되는 경우가 있습니다. 그때 우리는 새로운 AI 군주들에게 굴복하기 전에 아직 시간이 있을지 모른다는 것에 안도합니다.
oh pic.twitter.com/K2Lr9iVkjQ— Rob DenBleyker (@RobDenBleyker) August 26, 2024
대규모 언어 모델들이 글자와 음절의 개념을 이해하지 못하는 실패는 때로는 우리가 자주 잊는 대규모 진실을 나타냅니다. 이러한 것들은 두뇌를 가지고 있지 않습니다. 그들은 우리처럼 생각하지 않습니다. 그들은 인간도 아니며 특별히 인간과 유사하지도 않습니다.
대부분의 LLMs는 딥 러닝 아키텍처인 트랜스포머에 기초하여 구축됩니다. 트랜스포머 모델은 텍스트를 토큰으로 분해하는데, 이것은 모델에 따라 완전한 단어, 음절 또는 글자가 될 수 있습니다.
대학 산타 바바라의 AI 연구자이자 조교수인 매튜 귀지달은 TechCrunch에 이렇게 말했습니다. 'LLMs는 실제로 텍스트를 읽지는 않는 이 트랜스포머 아키텍처에 기반합니다. 입력 프롬프트를 입력하면 인코딩으로 변환됩니다. 'The'란 단어를 보면 'The'의 의미에 대한 한 가지 인코딩을 가지고 있지만 'T', 'H', 'E'에 대해 알지는 않습니다.'
이는 트랜스포머가 텍스트를 효율적으로 입력하거나 출력할 수 없기 때문입니다. 대신, 텍스트는 자신의 수치적 표현으로 변환되며, 이후 AI가 논리적인 응답을 만들 수 있도록 문맥화됩니다. 다시 말해, AI는 'straw'와 'berry'가 'strawberry'를 구성한다는 것을 알지만 'strawberry'가 's', 't', 'r', 'a', 'w', 'b', 'e', 'r', 'r', 'y'라는 특정한 순서로 구성되어있음을 이해하지 못할 수 있습니다. 따라서 'strawberry' 단어에 몇 개의 글자 - 심지어 몇 개의 'r'이 나타나는지 말할 수 없습니다.
이것은 이 LLMs가 작동하는 아키텍처에 깊게 녹아있어 쉽게 고칠 수 있는 문제가 아닙니다.
I thought Dune 2 was the best movie of 2024 until I watched this masterpiece (sound on). pic.twitter.com/W9WRhq9WuW— Peter Yang (@petergyang) March 7, 2024
TechCrunch의 카일 위거스가 지난달 이 문제를 조사하고 LLM 해석 가능성을 연구 중인 노스이스턴 대학의 박사 후생디 아우흐트와 이야기했습니다.
'언어 모델에 대한 '단어'는 정확히 무엇이어야 하는지에 대한 문제를 우회하는 것은 어렵습니다. 심지어 인간 전문가들이 완벽한 토큰 어휘를 합의한다 해도 모델은 아마도 더 나아가 것을 더 작은 조각으로 '뭉치는'것이 여전히 유용할 것입니다.' 그는 말했습니다. '내 추정에 따르면 이런 식으로 완벽한 토크나이저를 찾는 것은 약간 모호하기 때문에 완벽한 토큰화라는 것은 없을 것입니다.'
이 문제는 LLM이 더 많은 언어를 배울수록 더 복잡해집니다. 예를 들어, 일부 토큰화 방법은 문장의 공백은 항상 새로운 단어가 앞에 온다고 가정할 수 있지만 중국어, 일본어, 태국어, 라오스어, 한국어, 캄보디어어 등 많은 언어는 단어를 구분하기 위해 공백을 사용하지 않습니다. 구글 딥마인드 AI 연구자인 예니 준은 2023년 연구에서 동일한 의미를 전달하기 위해 영어보다 최대 10배 많은 토큰이 필요한 언어들을 발견했습니다.
'트랜스포머를 통해 실제 캐릭터를 보게 하고, 현재는 트랜스포머에게 컴퓨터 작업이 불가능하다' 고 아우흐트는 말했습니다.
미드젠이나 DALL-E 같은 이미지 생성기는 ChatGPT와 같은 텍스트 생성기의 깊은 아키텍처 아래에 있는 트랜스포머 아키텍처를 사용하지 않습니다. 이미지 생성기들은 일반적으로 잡음에서 이미지를 재구성하는 확산 모델을 사용합니다. 확산 모델은 대규모 이미지 데이터베이스에서 훈련되고 훈련 데이터를 통해 배운 것과 유사한 것을 다시 만들려는 동기가 있습니다.

DAIR 연구소의 창립자이자 펠로우인 아스멜라시 테카 하두는 TechCrunch에 이렇게 말했습니다. '이미지 생성기들은 차량과 사람 얼굴과 같은 기본 사항에 대해 더 잘 수행하고 손가락과 필체와 같은 더 작은 사항에서는 그렇게 하지 않은 것 같습니다.'
이 작은 세부사항들이 훈련 세트에서 큰 세부사항만큼 두드러지게 나타나지 않기 때문일 수 있습니다. 확산 모델의 문제는 트랜스포머를 괴롭히는 문제보다 해결하기 쉬울 수 있습니다. 예를 들어, 일부 이미지 생성기들은 실제 인간 손에 대한 더 많은 이미지를 훈련함으로써 손과 같은 부분을 더 잘 표현하도록 개선되었습니다.
'작년만 해도 이 모든 모델들은 손가락에 대해 정말 나쁘었습니다. 손 척수를 살펴보면 '와우, 이것은 손가락 같습니다' 라고 말할 수 있을 만큼 지역적으로 정말 좋아지고 있습니다. 그래로 생성된 텍스트를 보면 'H'와 'P'처럼 보일 수 있지만 이것들을 전체적으로 구조화하는 것은 정말로 나쁩니다.' 귀지달은 설명했습니다.

그래서 이미지 생성기에 멕시칸 레스토랑 메뉴를 생성하도록 요청하면 '타코'와 같은 일반 항목을 얻을 수 있지만 '태밀로스', '엔치다아' 및 '버힐토스'와 같은 제안을 찾을 수도 있습니다.
'딸기'의 철자를 제대로 못하는 AI에 관한 밈이 인터넷에 넘쳐나는 동안 OpenAI는 Strawberry라는 코드명을 가진 새로운 AI 제품을 개발 중입니다. 이 제품은 추론에 더 뛰어난 것으로 알려져 있습니다. ChatGPT와 같은 제품을 더 정확하게 만들기 위해 세상에 충분한 훈련 데이터가 없어서 LLMs의 성장이 제한되었지만, Strawberry는 가짜 데이터를 생성하여 OpenAI의 LLMs를 더 나아게 만들 수 있습니다. The Information에 따르면 Strawberry는 뉴욕 타임즈의 Connections 단어 퍼즐을 해결할 수 있으며, 창의적인 사고와 패턴 인식이 필요한 이 단어 퍼즐을 해결할 수 있으며, 그것이 본점 시험에서 은메달을 받기에 충분한 성과입니다.
한편 구글 딥마인드는 최근 공식 수학 추론을 위한 AlphaProof 및 AlphaGeometry 2라는 AI 시스템을 공개했습니다. 구글은 이 두 시스템이 국제 수학 올림피아드에서 6문제 중 4개를 해결했다고 말하며, 이는 존경받는 대회에서 은메달을 따기에 충분한 성과입니다.

'딸기'의 철자를 제대로 쓰지 못하는 AI에 대한 밈들이 퍼지는 동안 OpenAI CEO 샘 알트먼은 그의 정원에서 상당히 인상적인 딸기 수확이 있음을 보여주기 위한 기회에 덤벼들었습니다.