중국의 쯔위엔연구원(BAAI, Beijing Academy of Artificial Intelligence)이 개발한 대규모 AI 모델 “우따오(悟道)1.0″ 을 소개합니다. 우따오는 한자 음으로 읽자면 “오도“이며, 불교에서 말하는 “도를 깨달음” 이라는 의미를 가지고 있습니다. 모델 이름에서부터 알 수 있듯, 우따오는 AGI(범용 인공지능)를 목표로 개발되고 있는 모델입니다.
중국이 AI 산업을 육성하는 것을 보고 있자면 참 체계적이라는 느낌이 듭니다. 정부가 주도적으로 IT 기술 드림팀을 꾸리고 산학협력을 이뤄내는 모습은 항상 인상적입니다. AI 분야의 최강자라는 국가 차원의 목표를 바탕으로 끊임없이 투자하며 연구개발한다면 앞으로 기술 격차는 더 벌어질 것으로 보입니다.(역자 주)
원문: 智源研究院发布超大规模智能模型悟道1.0 先期启动4个大模型研发|智源研究院|智能模型_新浪科技_新浪网 (sina.com.cn)
3월 20일, 베이징 쯔위엔연구원은 “쯔위엔 우따오1.0 AI 연구 성과 발표회 및 대규모 모델 사전학습 진행 공유 포럼”에서 대규모 AI 모델 “우따오1.0”을 발표했습니다. 2018년에 설립된 쯔위엔연구원은 중국 과학기술부 및 베이징시 위원회의 지도 아래 AI의 종합적 발전을 위해 각 대학, 연구기관, 기업이 모여 연구를 진행하는 곳입니다. 유명 대학은 물론 바이두, 샤오미, 바이트댄스, 메그비(旷视科技) 등 거대 IT 기업도 참여하여 함께 기술 연구를 하고 있습니다.
우따오1.0은 중국 최초의 대규모 AI 모델 시스템으로, 쯔위엔연구원 학술부원장이자 칭화대 교수인 탕제(唐杰)를 필두로 베이징대, 칭화대, 중국인민대, 중국과학원 등에서 모인 100여 명의 과학자가 참여해 개발하고 있습니다.
이들은 많은 AI 기술 영역에서 최고 성과를 내고 있으며, 대규모 AI 모델링을 통해 언어, 멀티데이터(텍스트, 이미지, 동영상), 인지능력, 단백질 구조 예측 방면의 모델을 생성 및 학습하고 있습니다. AGI(Artificial General Intelligence) 개발에도 도전하며, 중국의 AI 애플리케이션 인프라를 구축하는 상황입니다. 동시에 IT 기업과 공동으로 산업급 시범 운용을 실시하고 있으며, 모델 활용 생태계 조성에 더욱 박차를 가할 계획입니다.
우따오1.0은 여러 프로젝트를 진행 중이지만 대표적으로 우따오·문원(文源), 우따오·문란(文澜), 우따오·문회(文汇), 우따오·문소(文溯) 등 4개의 대표적인 대규모 AI 모델을 기반으로 합니다.
이 중 우따오·문원은 파라미터 개수가 26억 개에 달하는 “중국어 중심의 대규모 사전학습 모델”로, 기억, 이해, 검색, 수치계산, 다언어 등 다양한 능력을 갖추었습니다. 이는 오픈 도메인 QA 및 문법 오류 등 20개의 중국어 NLP 작업을 수행하며, 기술력은 GPT-3와 이미 어깨를 나란히 하고 있습니다. 세계 최대 규모의 중국어 중심 사전학습 언어 모델을 구축해 중국어, 영어 등 세계 주류 언어에서 최고의 처리능력을 기록하는 것이 목표입니다. 또한 텍스트 분류, 감정 분석, 문장 추론 및 독해 등 다양한 임무에서 인간 평균 수준을 뛰어넘는, 범용 능력을 갖춘 NLP 기술을 모색하고 뇌를 자극하는 언어 모형 연구를 수행할 것이라고 합니다.
“대규모 멀티모달 사전학습 모델”인 우따오·문란은 파라미터 개수가 10억 개에 달하며, 오픈소스에서 수집한 5000만 쌍의 이미지+텍스트를 기반으로 학습한 최초의 중국어 오픈소스 모델입니다. 이미지, 텍스트, 동영상을 결합한 멀티모달 데이터에 기초한 사전학습의 한계를 돌파하고, 여러 국제 벤치마크 평가에서 최고 성능을 기록하는 것이 목표입니다. 참고로 우따오·문란은 오픈소스로 홈페이지에 API가 공개된 상태입니다.
우따오·문회는 113억 개의 파라미터를 학습한 “인지능력 지향 대규모 신형 사전학습 모델”로, 다양한 임무에서 튜링 테스트를 통과할 수준을 보여주었습니다. 파인튜닝을 통해 시 짓기, 그림 그리기, 동영상 제작, 이미지+텍스트 생성 및 검색, 복잡한 추론 등이 구현 가능하며, 보다 AGI에 가까운 모습을 위해 인지능력을 강화할 예정입니다. 나아가 천억에서 조 단위의 파라미터 구축, 세계 최고 성능 달성을 목표로 사전학습 모델 시스템을 마련하고 AI 인지 생태계를 조성하고 있는 상황입니다.
우따오·문소는 “대규모 단백질 서열 예측 사전학습 모델”로 단백질 방면에선 100GB UniParc(단백질 순차 데이터 DB) 데이터 기반 BERT 모델을 구축하고, 유전자 방면에선 말초혈액 면역세포(세포유형 25-30종) 데이터 5~10만개 및 내성균 데이터 1만 개를 학습했습니다. 유전자 지도를 통해 10억 개에 달하는 파라미터를 생성해 연구개발하고, 긴 단백질 서열을 처리할 수 있는 대규모 사전학습 모델을 구축해 기본 성능, 가해성, 강건성(robustness) 등 다양한 측면에서 최고 성능 기록을 목표로 하고 있습니다.
탕제에 따르면, 우따오1.0 버전은 수백억 개 및 수천억 개의 파라미터로 사전학습을 마쳤으며, 여러 국제 벤치마킹 평가에서 1위를 차지하는 등 AI 인지 및 추론 학습 능력을 증명했습니다. 올해는 후속 모델을 잇달아 발표해 산업계에 개방할 것으로 보입니다.
이번 포럼에서 연구원장 황티에쮠(黄铁军)은 우따오 모델 개발의 취지를 설명했습니다. 그에 따르면, AI의 기본 특징은 “데이터+연산+알고리즘=모델”인데, 모델은 학습 데이터의 내부 패턴을 농축한 것이며 AI 애플리케이션의 토대가 됩니다. 최근 AI의 발전은 “반복 학습”에서 점차 “대규모 학습”으로 나아가고 있는데, 고급 알고리즘 설계를 통해 가능한 한 많은 데이터를 통합하고 연산 능력을 고도화하여 학습한 대규모 모델을 산업에서 사용할 수 있도록 하는 것이 필연적 추세입니다.
AI 모델은 규모(주로 파라미터 갯수로 판단) 뿐 아니라 지능이 높아야 다양한 애플리케이션 수요를 충족시킬 수 있으며, 이는 기술적인 한계를 극복해야 가능합니다. 예를 들어, 다음과 같은 과제를 생각해 볼 수 있습니다.
- 어떻게 사전학습 모델이 인간과 같은 논리, 의식, 추리에 부합하는 인지능력을 갖추게 할 것인가?
- 어떻게 이미지, 텍스트, 동영상 등 다양한 형식의 데이터 정보에 대한 이해와 통합을 이뤄낼 것인가?
- 어떻게 중국어를 사전학습 모델에 적용하여 중국어 기반의 AI 발전을 촉진시킬 것인가?
- 어떻게 사전학습 모델을 자연과학 연구와 융합하여 더욱 길고 복잡한 단백질 서열에 대한 모델링과 예측을 할 것인가?
쯔위엔연구원은 AI 기술 혁신을 사명으로 하는 새로운 연구기관으로, 2020년 10월 대규모 AI 모델 우따오 프로젝트를 본격적으로 시작했고, 최종적으로 AGI(Artificial General Intelligence) 실현을 꿈꾸고 있습니다.
이번 발표에는 학계 및 산업계에서 온 과학자 9명으로 구성된 우따오기술위원회도 소개되었습니다. 위원회 주임은 칭화대학교 교수 탕제가 맡았고, 기술위원회는 앞으로 대규모 모델 연구개발에 집중할 것이라고 합니다. 탕제에 따르면, 다음 단계인 우따오 모델 적용 생태계 조성은 시범 적용, API 생태계, 커뮤니티 운영 유지라는 3가지 주요 단계로 나눠 진행될 것이라고 합니다.
첫 번째는 시범 적용을 위한 단계로, 이커머스, 텍스트 처리 서비스, 독립 애플리케이션 등 다양한 비즈니스 분야를 고려할 것입니다. 또한 고품질의 데모 서비스를 개방하여 각 사용자가 활용하고 테스트할 수 있도록 지원합니다.
두 번째는 API 및 플랫폼 생태계를 위한 단계로, 여러 버전의 API를 설계하여 모델을 사용하려는 사용자의 다양한 요구를 만족시키는 것입니다. 빠른 통합 및 추론을 지원하는 API 인터페이스를 구축하여 기업 및 개인 단위의 개발자가 모델 혹은 특정 기능에 요청하는 내용을 지원합니다.
세 번째는 커뮤니티 운영 및 유지를 위해 온라인 리뷰를 적극 수용하고, 개발자 및 사용자 커뮤니티를 구축하여 완벽한 피드백 메커니즘을 구축하는 것입니다. 이를 토대로 모델 파라미터를 추가적으로 고려하고 모델링 개선 속도 역시 높일 계획입니다.
현재 쯔위엔연구원은 첫 번째 단계인 시범 적용 작업을 진행 중이며, 콰이쇼우(快手), 쏘우고우(搜狗), 360, 알리바바, 지푸화장(智谱华章), 이란췬지(一览群智), 쉰환지능(循环智能), 신화통신(新华社) 등의 기업과 모델 적용 및 산업급 시범 운용에 대해 협력하고 있습니다.
중국이 AI 산업을 육성하는 것을 보고 있자면 참 체계적이라는 느낌이 듭니다. 정부가 주도적으로 IT 기술 드림팀을 꾸리고 산학협력을 이뤄내는 모습은 항상 인상적입니다. AI 분야의 최강자라는 국가 차원의 목표를 바탕으로 끊임없이 투자하며 연구개발한다면 앞으로 기술 격차는 더 벌어질 것으로 보입니다.
중국에 대한 정보 없이 중국을 너무 낮잡아 생각하고 있었던 것 같습니다.
다른 내용들은 인공지능 관련하여 낯설지 않은 내용인데, ‘중국어 기반의 AI 촉진’은 새삼 놀랍습니다.
단순하게도 ‘인공지능은 영어로 해야 읽기 쉬워.’ , ‘중국어같은 표어 문자는 글자 수도 많고 복잡해서 인식 할 때 컴퓨터 처리 능력을 떨어뜨리니까 중국도 별 수 없이 영어를 써야 하지 않을까?’란 짧은 생각을 하고 있었습니다.
GPT-3와 견주는 기술력이라면 정말 중국은 사력을 다하고 있네요.
자본의 논리보다 국가가 밀어붙이면 되니까 오히려 더 빠른 부분은 장점으로도 보이구요. 국민보단 국가를 위한 발전 같긴 하지만…
내 머릿 속 미진한 중국과, 소요를 통해 알게 되는 중국의 갭 차이가 커서, 중국의 동북공정이나 우기기가 100년 뒤 모두 진실로 바뀔까봐 무서워지네요. 인공지능의 발달과 갭 차이가 문화침략으로 이어지는게 어렵지 않을 것 같다는 생각도 들고…
중국 관련해서는 긍정적인 생각이 잘 안 드는데, 두려워서인지 부러워서인지 잘 모르겠네요^^