기자명 백진호 기자
  • 입력 2023.01.29 06:00

임효주 IITP 선임 "산학연 협력·경량화·윤리 원칙 마련이 돌파구"

(사진=픽사베이)
(사진=픽사베이)

[뉴스웍스=백진호 기자] 인간에 가까운 인공지능(AI)을 개발하려는 욕구가 커지며 인간처럼 종합적으로 사고하고 학습할 수 있는 범용 인공지능(AGI)에 대한 주목도가 높아졌다. 

AGI에는 '초거대 AI'가 필수적이다. 초거대 AI란 대용량 연산을 할 수 있는 컴퓨팅 인프라를 기초로 대규모 데이터를 스스로 학습해 인간처럼 사고·학습·판단하는 AI다.

기존 AI보다 모델 파라미터 수와 학습 데이터셋 크기를 늘려 성능을 높인 모델이다. 초거대 AI는 의료 분야에서 복잡한 분자 구조를 예측해 신약개발에 도움을 주고, 금융 분야에서는 차세대 금융 서비스를 제공하는 데 기여한다. 가상인간을 만들 수 있고, 생활 밀접형 AI로서 이용자 맞춤형 서비스를 제공할 수 있다.

◆구글 등 빅테크, '초거대 AI' 개발 경쟁

국내·외 빅테크 기업들은 초거대 AI 개발에 사활을 걸고 있다.

시장조사업체 IDC에 따르면 초거대 AI를 포함한 전 세계 AI 시장 규모는 2024년 5543억달러에 이를 것으로 보인다.이 역시 기업들이 초거대 AI 개발에 노력을 기울이는 이유 중 하나다.

초거대 AI를 개발하려면 수많은 학습 데이터, 컴퓨팅 파워와 개발 인력이 필요하다. 때문에 초거대 AI 개발은 큰 비용을 감당할 수 있는 글로벌 빅테크 기업을 중심으로 이뤄지고 있다. 이 같은 현상은 국내에서도 마찬가다.

해외에서는 대표적으로 오픈AI와 구글·딥마인드·마이크로소프트를 들 수 있고, 국내에서는 네이버·LG AI연구원·카카오브레인·SK텔레콤·KT를 들 수 있다.

GPT의 발전 단계. (자료=ICT 브리프 '초거대 AI 대화형 '챗GPT'…검색엔진 시장에 미칠 영향 주목' 캡처)
GPT의 발전 단계. (자료=ICT 브리프 '초거대 AI 대화형 '챗GPT'…검색엔진 시장에 미칠 영향 주목' 캡처)

오픈AI는 최초의 초거대 AI로 평가받는 GPT-3를 개발했다. 인간 뇌의 뉴런보다 많은 1750억개의 파라미터와 3000억개의 토큰으로 이뤄졌고, 언어 모델과 함께 이미지와 영상에서도 활용할 수 있다. 올해 1조개 이상의 파라미터를 갖추고, 멀티모달(시각·청각을 비롯해 여러 인터페이스로 정보를 주고받는 모델)을 지향하는 GPT-4를 공개할 것으로 예측된다.

구글의 람다는 대화형 언어 모델로, 1370억개의 파라미터로 구성됐다. 30억개의 문서와 11억개의 대화 데이터로 학습한다. 인피니트네이처-제로는 멀티모달로, 사진 한 장만으로 3D 뷰를 만들 수 있다. PaLM은 GPT-3의 3배 수준인 5400억개의 파라미터를 갖췄다. 딥마인드의 고퍼는 2800억개의 파라미터와 3000억개의 데이터로 학습을 한 모델이다. 성능 면에서 GPT-3를 능가한다.

마이크로소프트의 DialoGPT는 레딧 홈페이지에서 추출한 1억4700만개의 대화형 코멘트로 학습을 한 챗봇 모델로, GPT-2의 아키텍처를 기반으로 대화 형식에 맞는 변형 설계가 가능하다. 고델(Godel)은 DialoGPT의 개선 버전이다. 훈련 데이터에 없는 외부 정보를 기초로 응답하는 언어 모델이다. 작업지향 대화, 사회적 대화, 잡담과 일상 소통을 할 수 있다. 사전에 훈련한 모델을 기반으로 미세조정을 수행할 수 있다.

국내 업체에서는 네이버의 하이퍼클로바가 대표적이다. 한국어에 특화된 GPT-3 기반의 AI 모델로 2040억개의 파라미터를 보유하고 있다. GPT-3보다 6500배 많은 한국어 데이터로 학습을 거쳤다. 국내 최초 초거대 AI이고, 네이버쇼핑·웹툰 그리기·클로바 케어콜·검색 및 번역 엔진 성능 향상에 쓰인다.인

LG AI연구원의 엑사원은 멀티모달로 3000억개의 파라미터를 지니고 있다. 언어·이미지·영상처럼 인간의 의사소통과 연관된 정보를 학습하고 처리할 수 있다. SK텔레콤의 GLM은 한국어 특화 대화형 AI 모델이며 SKT의 AI 서비스인 에이닷에 적용됐다. KoGPT2는 단어를 예측해 문장을 생성한다. 챗봇을 구축하고, 텍스트의 감성을 예측하며, 텍스트 분석 기반의 응답을 만드는 데 활용된다.

KT는 현재 믿음(MIDEUM)을 개발 중으로, 올해 상반기에 믿음 기반의 대화형 서비스를 공개할 예정이다. 지난해 11월에 있었던 KT의 'AI 전략 간담회'에 따르면 적은 양의 데이터를 빠르게 학습해 사용자의 의도를 알아내고, 상황에 맞게 말투나 목소리를 바꿀 수 있다.

◆AGI 시대 열려면 '진입장벽·ESG 실천·윤리 문제' 해결해야 

정보통신기획평가원(IITP)이 지난해 12월 발간한 '초거대 AI의 발전양상과 향후 과제'에 따르면 높은 성능의 초거대 AI가 지속적으로 공개되고 있지만, AGI를 실현하기 위해서는 몇 가지 해결해야 할 문제가 있다.

문제는 크게 세 가지다. 상용화와 ESG 실천, AI의 윤리·도덕성 확보다. 

초거대 AI를 개발하는 데는 천문학적인 투자 비용이 필요하다. 이는 대규모 자본을 갖추지 못한 중소기업과 스타트업의 개발을 가로막아 초거대 AI 개발을 빅테크 기업들만의 잔치로 만들며, 상용화의 진입장벽으로 작용한다.

초거대 AI는 기본적으로 큰 크기를 요구한다. 그래서 기업들은 경쟁사보다 큰 크기의 모델을 만들기 위해 힘쓸 수밖에 없다. AI 모델의 크기가 커질수록 더 많은 탄소를 배출할 수밖에 없다. 이 때문에 초거대 AI 개발과 활용에서 ESG가 요구된다.

초거대 AI를 개발하는 과정에서 편향된 데이터를 입력하면 편향된 결과가 나오게 된다. 데이터는 AI 모델의 성능을 결정짓는 요소인데, 성능도 중요하지만 AI의 공정성도 중요한 만큼 편향되지 않은 데이터를 통해 공정성을 담보하는 AI의 윤리가 필요하다.

임효주 IITP 선임은 진입장벽 문제와 관련해 보고서에서 '협업'을 강조한다.

그는 2020년 KT를 주축으로 출범한 AI 원팀을 초거대 AI 상용화 촉진의 한 방법으로 꼽았다.

그는 보고서에서 "AI 원팀, 산·학·연 협력이 초거대 AI 상용화 촉진의 한 방법"이라며 "기업은 산·학·연 협력을 통해 다양한 분야의 연구를 공동으로 수행하며 부담을 경감하고, 학교와 연구기관은 AI 연구를 위한 대규모 GPU 인프라를 확보할 수 있다"고 짚었다.

임 선임은 "기업 간의 양극화 완화와 상용 서비스 확대를 위해 정부의 정책적 지원이 필요하다"며 정부의 역할도 강조했다. 

임 선임은 ESG 실천에 관해 "단순히 모델만 큰 초거대 AI를 넘어 효율성과 경량화가 필요하다"며 마이크로소프트와 오픈AI가 초거대 AI 개발 과정에서 실천한 환경비용 절감 노력을 예로 들었다. 

LG그룹의 인공지능(AI) 윤리 원칙. (사진=LG AI 연구원 홈페이지 캡처)
LG그룹의 인공지능(AI) 윤리 원칙. (사진=LG AI 연구원 홈페이지 캡처)

임효주 선임은 "인간과 같은 윤리·도덕적 판단을 하는 AI를 위한 윤리 원칙을 마련해야 한다"며 네이버의 AI 윤리 준칙과 LG그룹의 AI 윤리 원칙을 예로 제시했다. 그는 이어 "AI의 모델과 데이터를 개방해 다수의 사용자가 모델을 이용·점검하도록 하면서 모델의 편향과 오용을 줄일 수 있다"고 덧붙였다.

저작권자 © 뉴스웍스 무단전재 및 재배포 금지