기자명 백진호 기자
  • 입력 2023.02.08 17:00

SKT '에이닷'에 초거대 AI 모델 접목 계획…편향성·유해성 극복해야

[뉴스웍스=백진호 기자] 최근 오픈AI의 GPT-3.5에 기초한 챗봇 '챗GPT'의 인기가 뜨겁다.

챗GPT는 생성형 AI로 AI를 통해 문자, 이미지, 음악, 음성, 코드, 동영상을 만들어낼 수 있다. 챗GPT는 사용자가 입력한 문장을 이해하고, 관련된 답변을 생성하며 마치 사람과 대화하는 것처럼 일상적인 언어를 사용해 의사소통을 한다. 

챗GPT는 지난해 11월 30일 출시된 후 다양한 활용 가능성을 증명했고, 출시 5일 만에 100만명을, 2주일 만에는 200만명의 사용자를 불러 모았다. 대화형 질의에 답변하는 것을 넘어 챗봇 개발, 언어 번역, 콘텐츠 생성, 텍스트 요약과 같은 광범위한 부분에서 높은 성능을 보여주며 관심을 끌었다.

GPT란 오픈AI에서 개발한 자연어 생성 모델로, 주어진 텍스트의 다음 단어를 예측하는 임무를 학습해 사람이 쓴 것처럼 의미 있는 글을 만들어낸다. GPT의 성능은 매개변수(파라미터)의 개수에 따라 결정되는데, 지난해 11월 30일 공개한 GPT-3.5는 2018년에 처음 출시한 GPT-1(1억1700만개)보다 1500배 많은 1750억개를 갖췄다.

빅테크 입장에서는 탐을 낼 수밖에 없다. 

GPT 별 매개변수 수. (사진=THE AI REPORT 2023-1 캡처)
GPT 별 매개변수 수. (사진=THE AI REPORT 2023-1 캡처)

◆해외 빅테크, GPT 개발에 칼 빼들다

챗GPT와 생성형 AI에 대한 주목에 글로벌 빅테크는 GPT 개발에 발 벗고 나섰다.

대표적으로 마이크로소프트(MS)와 구글을 들 수 있다.  

구글의 모회사 알파벳은 신규 대화형 AI 서비스 '바드'를 개방할 것이라고 밝혔다. 이어 일반인을 위한 서비스를 준비하고 있다고 설명했다. 바드는 구글의 AI 언어 프로그램인 '람다'에 의해 작동한다.

'마이크로소프트'의 '빙' 화면. (사진=빙 화면 캡처)
'마이크로소프트'의 '빙' 화면. (사진=빙 화면 캡처)

MS도 가만있지 않았다.

챗GPT를 장착한 검색 엔진 '빙'을 출시했다. 오픈AI의 챗GPT와 유사한 모델을 적용해 검색 기능에 채팅 카테고리를 추가했다. 검색에 특화된 오픈AI의 차세대 거대언어모델(LLM)을 적용했다. MS는 빙의 신 버전을 PC용으로 제한하고, 일반에 공개할 예정이다. 모바일 앱 버전도 업데이트할 방침이다.

구글과 MS가 GPT 열풍에 뛰어드는 사이 중국의 인터넷 기술 기업 바이두는 챗GPT의 중국판을 3월에 내놓겠다고 밝혔다.

바이두는 챗GPT의 중국판 서비스인 '어니 봇'의 내부 테스트를 오는 3월 완료할 것이라고 말했다. 바이두의 챗봇 어니는 2019년부터 머신러닝 모델로 데이터를 학습해온 것으로 알려졌다. 바이두는 검색 서비스에 어니를 통합해 사용자가 검색을 하면 대화형 검색 결과를 제시하는 방안을 준비 중이다.

◆국내 빅테크도 외면 못하는 GPT

국내 빅테크도 GPT 개발과 적용에 열을 올리고 있다.

SK텔레콤은 자사의 AI 서비스 '에이닷'에 챗GPT와 유사한 초거대 AI 모델을 접목할 계획이다.

현재 AI의 대화 서비스는 명령 위주의 '목적성 대화'와 사소한 대화를 함께할 수 있는 '감성 대화', 지식을 얻기 위한 '지식 대화'로 나뉜다. 이를 챗GPT와 연계하면 챗GPT의 정보를 통해 지식 대화를 더 강화할 수 있다.

SKT는 2020년부터 초거대 언어모델인 GPT-3와 유사한 한국어 범용 언어 모델(GLM)을 개발하기 위해 국립국어원과 제휴를 맺었고, 이를 통해 지난해 5월 GPT-3 한국어 특화기술을 자체 개발해 한국어 대화를 할 수 있는 에이닷을 선보였다.

2021년 11월 공개된 카카오브레인의 '코지피티'는 GPT-3를 기초로 300억개가 넘는 파라미터를 보유하고 있다. 한국어를 바탕으로 문장에 대한 긍정과 부정 판단, 긴 문장 한 줄 요약, 결론 예측, 문맥 이해를 통한 언어 과제를 처리할 수 있다. 지난해 8월에는 시를 짓는 AI 시아가 시를 써 시집을 냈고, 10월에는 AI 화가 칼로와 이미지 생성 앱 비디스커버를 공개한 바 있다.

LG AI연구원의 '엑사원'은 초거대 AI로 대규모 데이터를 스스로 학습해 인간처럼 사고하고 판단한다. 언어·시각 정보를 모두 소화할 수 있는 '멀티모달'이어서 문서나 대화를 이해하고 문장 생성을 넘어 이미지를 텍스트로 변환할 수 있다. 이와 반대로 텍스트를 이미지로 바꾸는 것도 가능하다. 

네이버의 '하이퍼클로바'는 한국어에 특화된 GPT-3 기반의 AI 모델이다.

2040억개의 파라미터를 보유하고 있고, GPT-3보다 6500배 더 많은 한국어 데이터로 학습을 거쳤다. 국내 최초의 초거대 AI이고, 네이버쇼핑과 웹툰 그리기· 클로바 케어콜·검색 및 번역 엔진 성능 향상에 활용된다. 지난 3일 열린 네이버 컨퍼런스콜에서 최수연 CEO는 "올 상반기 중 네이버의 서치 GPT를 선보이겠다"며 "생성형 AI의 단점인 신뢰성·최신성 부족, 한국어로 번역했을 때 나타나는 문제를 네이버의 기술력으로 해결할 수 있다"고 말했다.

서치 GPT는 네이버의 초거대 AI 하이퍼클로바를 기반으로 검색 결과를 고도화한 서비스다. 오픈 AI가 챗 GPT라는 베타 서비스를 출시했듯, 네이버도 서치 GPT라는 베타 서비스로 생성 AI 기술을 실험한다. 서치 GPT는 블로그나 클로바노트 정보 등의 사용자생성콘텐츠(UGC)까지 학습해 결과를 도출한다. 네이버는 서치 GPT 베타 서비스 결과에 따라 순차적으로 검색 서비스에 적용할 계획이다.

◆"지능적 AI에게서 오류 발견된다는 건 놀라운 사실"

정보통신산업진흥원의 글로벌 ICT 주간동향리포트 '챗GPT를 선두로 한 제너레이티브 AI 기술 동향'에 따르면 "생성형 AI는 거짓되고 오해의 소지가 있는 콘텐츠를 생성할 수 있는 경각심을 불러일으키고 있다"고 밝혔다.

이어 "인간과 유사하거나 인간과 기계를 구별할 수 없는 지능적인 행동을 나타내는 기계의 능력을 테스트하는 튜링테스트를 쉽게 넘어설 만큼 발전하고 지능적인 AI에게서 오류가 발견된다는 것은 놀라운 사실"이라며 "이 같은 AI는 플랫폼과 생태계 전반에서 가짜 뉴스 및 허위 정보를 생성하는 데 오용될 수 있다"고 경고했다. 

또 "생성형 AI는 수많은 영역과 과제에서 판도를 바꿀 수 있는 요소가 될 수 있지만, 모델 확산과 사회 및 경제에 미치는 영향을 보다 신중하게 통제해야 한다"며 "이는 민간 기업이 아니라 시민사회와 정책 입안자들에게도 동일한 과제이고, 노동 시장의 붕괴·데이터의 정당성·저작권 침해·편향되거나 유해한 콘텐츠·잘못된 정보에 대한 고려가 이뤄져야 한다"고 조언한다.

저작권자 © 뉴스웍스 무단전재 및 재배포 금지