완전히 개방적이고 재현 가능한 대규모 언어 모델 "오픈 코더(OpenCoder)" 출시

IT Search
0

 중국 상하이의 AI 기업 「INF Technology」나 오픈 소스의 AI 연구 커뮤니티 「M-A-P」등에 재적하는 연구자 팀에 의해, 최종 모델 뿐만이 아니라 트레이닝 데이터나 데이터 처리 파이프라인 등, 모델을 재현하는데 필요한 정보 모두가 오픈한 대규모 언어 모델 「OpenCoder」가 공개되었다.



대규모 언어 모델에 대해 '오픈한 모델'이라고 말할 경우, 어느 정도 오픈되어 있는지에 대해서는 다양한데, 모델 아키텍처가 공개되어 있고 누구나 자체 데이터로 대규모 언어모델을 트레이닝 할 수 있는 경우를 '오픈소스', 트레이닝이 끝난 모델이 공개되어 있고 누구나 자신의 로컬 PC에서 실행할 수 있는 경우를 '오픈웨이트', 트레이닝에 사용한 데이터가 공개되어 있고 누구나 트레이닝을 재현할 수 있는 경우를 '오픈데이터'라고 한다. OpenCoder는 모든 것을 공개하고 있는 '완전 오픈된 모델'이다.


OpenCoder는 15억 파라미터의 모델과 80억 파라미터의 모델이 출시되었으며, 80억 파라미터의 모델은 '완전히 오픈된 모델'의 카테고리에서 베이스 모델로서는 같은 규모의 모델 내에서 역대 최고의 스코어를 획득.


OpenCoder는 90%의 코드 데이터와 10%의 코드 관련 웹 데이터의 합계 750억 토큰을 이용해, 총 2조 5000억 토큰분의 사전 트레이닝이 행해졌다고 하고, 그 후, 450만개의 고품질의 예를 이용해 지도형 기계학습이 실시되었다.


현 시점에서, 모델의 작성 방법이 자세하게 기재된 논문, 트레이닝 후의 모델 본체, 지도형 기계학습에 이용된 450만개의 고품질의 예가 공개되어 있으며, 기타 데이터에 대해서도 공개를 위한 작업이 진행 중이라고 한다.



실제로 OpenCoder를 시험한 사람에 의한 코멘트에 의하면, 실제로 그만큼 OpenCoder의 품질은 높지 않은 것 같고, GPT-4에는 멀리 미치지 못하고, 알리바바가 개발한 Qwen 2.572B 모델이나 Meta의 Llama 3.170B 모델 등에도 완전히 패배한 것 외에 환각의 발생율도 높인다는 것.


다른 모델과는 달리, OpenCoder는 모델의 개발에 필요한 정보 전부를 공개하는 대처를 실시하고 있기 때문에 「모델의 퍼포먼스를 불문하고, 모든 공정이 공개되고 있는 것은 전원에게 이익이 되는 것이다」라고 공개에 대해 칭찬하는 코멘트도 행해지고 있다.


댓글 쓰기

0댓글

댓글 쓰기 (0)