OpenAI사가 작년 하반기에 공개한 대규모 언어 예측 모델 GPT-3는, 일반 작문부터 프로그래밍까지 장르를 가리지 않는 놀라운 글쓰기 실력으로 인공지능에 회의적이었던 사람조차도 새로운 가능성을 인정하게 하였습니다.

더 넥스트 웹(The Next Web)의 최근 기사에 따르면, 온라인 교육 사이트인 에듀렙(EduRef)사는 GPT-3와 대학생의 글쓰기 능력을 비교할 수 있는 실험을 하고 그 결과를 공개하였습니다.

전공 교수 패널이 작성한 미국 역사, 연구방법, 창작, 그리고 법률에 관한 제시문을 GPT-3와 대학 및 대학을 갓 졸업한 학생들에게 주고 각자 글을 쓰게 합니다. 인공 지능과 학생들의 글은 누가 작성했는지를 가린 채로 교수들에 의해 평가를 받았습니다.

GPT-3가 받은 최고의 성적은 ‘미국 예외주의(American exceptionalism)‘에 관한 역사 논문과 법학 수업의 정책 메모의 B-였습니다. 인간 경쟁자인 대학생과 졸업생들도 B와 C+를 받아서 비슷한 성과를 얻었습니다. 하지만 평가에 참여한 세 학생 중 오직 한 명만이 법률 과제에서 인공지능보다 높은 점수를 받았습니다. GPT-3는 또한 COVID-19 백신 효능에 대한 연구 방법 논문으로 C를 받았으며 학생들은 B와 D를 받았습니다.

하지만 창의적 글쓰기에서 GPT-3는 점수를 받는데 실패했습니다. 반면 대학생들의 성적은 A부터 D+까지 다양했습니다. 인공지능의 놀라운 기술력도 아직은 창의적인 작업에서는 크게 성과를 내지 못하고 있다는 것을 보여주는 것이었습니다.

EduRef 사이트 화면 캡처

에듀렙사는 평가에 참여한 교수들에게 인공지능이 쓴 논문에 대해서 어떻게 생각하는지 물었습니다. 물론 그 글이 GPT-3가 작성한 것임을 알려주지 않았습니다. 교수들의 공통적인 평가는 GPT-3가 문법과 구문 및 단어의 활용에 있어서 매우 인상적이지만, 창의적 글쓰기에서는 강력한 서사를 만들어 내지 못했다는 것이었습니다.

이러한 결과는 GPT-3의 기술적 특성을 이해하면 충분히 예측 가능한 것입니다. GPT-3는 인터넷에 존재하는 방대한 정보로 학습하고, 그것을 기반으로 단어와 구, 그리고 문장이 통계적(경험적)으로 가장 높은 가능성으로 구성합니다. 따라서 역사와 법학처럼 지식과 논리적 전개가 요구되는 글에서는 강한 이점을 가지고 있습니다. 반면에 기존의 자료를 재구성하는 것 보다는 상상력과 서로 다른 아이디어의 결합에 더 의존하는 창의적 글쓰기에는 약할 수밖에 없습니다.

GPT-3는 부족한 창의력을 글쓰기 속도로 대신했습니다. 이번 실험에서 GPT-3는 각 과제에 대한 콘텐츠를 생성하는데 불과 3~20분이 소요되었지만, 인간은 평균 3일이 걸렸습니다.

GPT-3가 창의적 글쓰기에 실패한 것에 안도(?)하는 사람이 있을지도 모르겠습니다. 그렇지만, 인공지능의 놀라운 발전 속도는 그런 여유가 오래가지 않을 것이라고 말해줍니다. 2019년에 공개된 GPT-2는 기사 작성에 실패했지만, 불과 1년 후에 나온 GPT-3는 영국 가디언지에 편집자도 놀랄만한 수준의 칼럼을 선보였습니다. 올해 초에 OpenAI사가 새롭게 공개한 DALL-E는 인간이 제시한 텍스트에서 이미지를 생성해서 창의적 작업도 가능하다는 것을 보여주었습니다.

에듀렙은 이 실험을 탐색적인 것으로 한계 짓고 깊은 의미를 부여하는 것을 경계하고 있습니다. 그렇지만, 20년 가까운 세월을 교육 받은 사람들 중에 자신의 생각을 제대로 된 글로 표현할 수 있는 이가 많지 않은 교육의 현실은 이 실험 결과를 가볍게 받아들이기 힘들게 합니다. 인간다운 글은 무엇이고, 글쓰기 교육은 어떻게 변해야 할까요?(계속)

인쇄하기

이전
다음
2+

소요 사이트를 방문해주셔서 고맙습니다. 액수에 관계없이 여러분의 관심과 후원이 소요 사이트를 유지하는 데 큰 힘이 됩니다. 후원금은 협동조합 소요 국민은행 037601-04-047794 계좌(아래 페이팔을 통한 신용카드결제로도 가능)로 후원하실 수 있습니다.