GPT-4o는 어떻게 이미지를 인코딩하여 토큰으로 분해하는가?

AI 채팅 서비스 "ChatGPT"의 모델 중 하나인 GPT-4o는, 인간으로부터 받은 텍스트를 먼저 "토큰"으로 처리한 뒤, AI가 다루기 쉬운 수치 벡터로 변환해 계산을 수행하는데, 이미지에서도 같은 처리를 실시하지만, 그 때에 어떠한 처리를 하고 있는지 알아보자.

GPT-4o가 고해상도 이미지를 처리할 때는, 이미지를 512x512픽셀의 타일로 잘라서 처리하여, 타일당 170토큰을 소비한다. 이 "170토큰"이라는 숫자에 착안하여 "오픈AI가 쓰는 숫자치고는 너무 어중간하다"고 지적, 왜 170이라는 숫자가 나오는지를 조사.

가설로서, 각 타일이 170개의 특징 벡터로 변환되어, 그것이 연속되는 형태로 나열되어 있다는 것을 생각할 수 있다고 하는데, GPT-4o와 같은 딥러닝 모델이 이미지를 다룰 때는, 이미지 픽셀 정보를 직접 처리하는 것이 아니라, 고차원 벡터 공간에 매핑 후 처리하는 것이 더 효율적이기 때문이다.

이미지를 벡터 공간에 매핑하는 단순한 방법으로, 우선 512x512의 이미지를 64개의 "미니타일"로 분할하는 방법이 있고, 각 미니 타일은 64×64 픽셀로, 각각 RGB의 3개의 컬러 채널을 가지고 있다. 이러한 픽셀을 평탄하게 나열하면, 64×64×3의 1만 2288차원으로 변환되고, 이 상태는 512x512의 이미지가 64개의 연속된 12,288차원 벡터(미니타일 1개 분량)로 변환되었다고 표현할 수 있다. 이것을 처리하려면 64 토큰이면 된다.

단, 상기 처리 방법은 비효율적이며, 또한 전문가는 GPT-4o가 처리하는 차원수도 12,288이라고 가정하고 있지만, 위의 방법에서는 미니타일이 64개 늘어놓기 때문에 170개 나란히 처리하고 있어야 하는 GPT-4o와도 일치하지 않는다. 전문가는 근사치를 내는 처리 방법으로서, 중첩 뉴럴 네트워크의 아키텍처의 1종인 「YOLO」를 소개.

YOLO는 픽셀을 평탄하게 나열하는 것이 아니라, 최소 13×13의 그리드에 나열하고 처리를 마치는 것이 특징. 13×13은 169가 되지만, 전문가가 YOLO 아키텍처를 기반으로 실험한 결과, GPT-4o는 5x5 이하에서는 완벽한 퍼포먼스를 발휘하는데, 그 이상이 되면 성능이 떨어지기 시작해, 13×13에서는 거의 임베딩 벡터를 처리할 수 없다는 것을 알게 되었다.

GPT-4o는 실제로 어떤 처리를 하고 있는지 한 가지 가설을 세워보면....

전문가의 가설은, GPT-4o는 이미지를 여러 그리드로 분할하여 처리하고 있다는 것으로, 우선은 화상 전체를 1회 처리하고, 다음에 화상을 3×3으로 분할해 처리, 이번에는 5×5로 분할해 처리해……라고 하는 식이다. 이를 수식으로 하면 1 + 3^2 + 5^2 + 7^2 + 9^2 = 1 + 9+25+49+81=165가 되어, 전제의 170에 가까워진다. 여기에 2×2의 그리드와 또 하나의 「1」을 더하면 170이 되어, 전제와 합치한다고 하는 것이 전문가의 주장.

GPT-4o가 5×5의 그리드까지만 완벽하게 처리할 수 있다는 점을 가미하면, 아래와 같이 최대로도 5×5의 그리드로 분할하여 처리하고 있을 가능성도 생각할 수 있다. 이 경우 1개의 타일마다 3토큰, 분할하는 처리마다 1토큰을 소비한다고 보면 3 × (1^2 + 2^2 + 3^2 + 4^2 + 5^2) + 5 = 170이며, 일치한다.

다만 전문가는 "이것은 숫자적으로는 충분히 만족스러운 것이 아닙니다"라고 지적하고, 나아가 GPT-4o가 OCR(화상 내 문자의 텍스트화)을 능숙하게 하는 이유도 설명할 수 없다고 말한다.

마지막으로 전문가는 「매립 벡터에의 매핑에는 YOLO와 같은 아키텍처와 매우 비슷한 어프로치가 있는 것 같습니다. 170토큰이라는 것은 이미지를 처리하는 데 필요한 계산량의 근사치가 아니라, 정확하게 계산된 후에 산출된 것이라고 생각합니다만, 진상은 불분명합니다. 이미지를 그리드에 분할해 처리하는 가설은, 제가 생각해 낸 최고의 것이지만, 깔끔한 것은 아니기 때문에, 좀 더 짜임새 있는 이론을 가지고 계신 분의 의견을 꼭 들려 주세요"라고 정리.

GPT-4o는 어떻게 이미지를 인코딩하여 토큰으로 분해하는가?

댓글 쓰기

Made with Love by

Contact form

GPT-4o는 어떻게 이미지를 인코딩하여 토큰으로 분해하는가?

You Might Like

댓글 쓰기

Contact form