• 입력 2017.05.26 17:26

알파고가 바둑에서 인간 최고 고수를 뛰어넘었으니 조만간 대부분의 분야에서 인공지능이 인간을 능가하게 될까.

답부터 말하면 “지나친 일반화”란 게 내 생각이다. 바둑은 경우의 수가 엄청나게 많지만 굉장히 독특한 문제다. 우선 과제(게임)의 목표와 규칙을 컴퓨터가 이해할 수 있도록 ‘숫자’로 명확히 표현할 수 있다. 또한 다음 수를 결정할 때 고려해야 할 요소가 판 위에 모두 공개된다. 마지막으로 주어진 상황에서 인간 전문가가 어떤 결정을 내렸는지에 대한 데이터(기보)가 충분히 쌓여 있다.

각자 ‘현재 내가 고민하는 문제’를 머릿속으로 떠올려보자. 그 문제가 바둑과 유사한 특징을 갖고 있는가? 그렇지 않은 경우가 대부분일 것이다. 고민은 숫자로 명확히 표현되지도 않을뿐더러 고려해야 할 요소를 미리 알아내기도 불가능하기 때문이다.

활용 1순위는 재무·유통 등 숫자 정보 기반 영역

그렇다면 인공지능은 어떤 분야에 우선적으로 활용될 수 있을까? 가장 먼저 떠올릴 수 있는 건 재무·유통처럼 ‘언어 처리가 필요 없는’ 업무다. 인공지능의 자연어 취급 능력은 아직 숫자 취급 능력을 따라오지 못하기 때문이다. 수많은 기업이 음성 인식 등 인간과 인공지능 간 인터페이스 기술 개발 투자에 집중하는 이유도 바로 여기 있다.

인공지능 중에서도 딥러닝(deep learning)은 ‘한두 번의 실수가 치명적이지 않고 통계적 성능이 높으면 되는’ 분야에 적합하다. 딥러닝의 장점은 소위 ‘도메인 지식(특정 영역에 국한된 지식)’을 그다지 필요로 하지 않는다는 것이다. 쉽게 말해 알파고를 만든 구글 엔지니어들은 이세돌 9단만큼 바둑을 잘 둘 필요가 없다. 바둑 잘 두는 비결을 입력해준 게 아니라 수많은 사례를 통해 인공지능 스스로 그 길을 찾아 나서게 했기 때문이다.

이는 딥러닝의 약점이기도 하다. 실제로 알파고는 바둑을 엄청나게 잘 두지만 개발자조차 그 정확한 이유를 이해하지 못한다. 한발 더 나아가 알파고가 가끔 저지르는 실수, 즉 오류가 왜 발생하는지 모르기 때문에 적절한 예방도 어렵다. 알파고와 이세돌 9단 간 ‘세기의 대결’ 다섯 판을 통틀어 둔 517수 중 약 500수는 아주 잘 뒀다. 이세돌 9단이 자신에게 불리한 형세를 만회하기 위해 다양한 변화구를 던졌지만 번번이 이를 아주 잘 받아 쳤다. 심지어 어떤 수는 일견 나쁜 수처럼 보였지만 분석한 결과 좋은 수로 판명되기도 했다. 반면 10여 수는 아마추어 중급 실력 보유자도 두지 않을 소위 ‘떡수’였다. 인간 최고수를 이긴 실력에 걸맞지 않은, 어처구니없는 실수였다.

‘딥러닝’ 기반 인공지능, 장점만큼 한계도 뚜렷

여기 비슷한 예가 하나 더 있다. 한 연구진이 딥러닝을 활용해 ‘사진 속에 탱크가 존재하는지 판독해내는’ 인공지능 개발에 나섰다. 신경망을 학습시키려면 탱크가 포함된 사진, 그리고 탱크 없이 배경만 찍힌 사진이 많이 필요했다. 그래서 팀원들은 오전이면 포격 연습장으로 이동하는 탱크의 사진을 찍었고, 점심 식사 직후 같은 자리로 돌아와 탱크가 없는 배경만 다시 촬영했다.

이렇게 얻은 사진들로 인공지능을 학습시킨 결과, 탱크가 건물 뒤에 일부 가려지고 포신만 나와 있어도 탱크를 아주 잘 찾아내는 것처럼 보였다. 호기심이 생긴 연구진은 이번엔 탱크가 포신까지 건물에 완전히 가려진 사진을 제시했다. 사진 상으론 도저히 탱크를 찾아낼 방법이 없었다. 그런데도 이 신경망은 ‘탱크가 있다’고 답했다.

확인 결과 인공지능은 연구진이 전혀 의도하지 않았던 방법으로 탱크의 존재 여부를 구분하고 있었다. 인공지능이 사용한 구분 기준은 ‘빛의 각도’였다. 탱크가 있는 사진은 전부 오전에, 탱크가 없는 사진은 전부 오후에 각각 촬영된 만큼 다른 요소는 모두 배제한 채 오로지 태양의 위치만 따진 것이다. 사진이 찍힌 시점으로 탱크 유무 여부를 판별하는 이 인공지능은 당연히 실전에선 무용지물이다.

구글과 아마존이 인공지능 연구서 앞서가는 이유

신경망이 복잡해질수록 개발자는 그것의 작동 원리를 정확하게 이해하기 어렵다. 오류를 예방하긴 더더욱 어렵다. 알파고는 517수 중 500수를 잘 뒀으니 정확도가 97%쯤 되는 셈이다. 바둑이나 퀴즈 같은 분야에선 이 정도 정확한 인공지능으로도 충분하다. 세기의 대결 당시 알파고는 제4국에서 실수를 연발, 이세돌 9단에게 패했다. 바둑 한 판 지면 어떤가? 하지만 의료나 교통처럼 간혹 발생하는 오류도 치명적일 수 있는 분야에선 딥러닝으로 개발된 인공지능에 전적으로 의존하기 어렵다.

인공지능을 개발하려면 △머신 러닝 알고리즘 △컴퓨팅 파워(하드웨어) △데이터 등 세 요소가 필요하다. 머신 러닝 알고리즘은 주요 라이브러리가 이미 오픈 소스 형태로 풀려있다. 컴퓨팅 파워 측면에서도 독자적 하드웨어를 갖추지 않아도 클라우드 서비스를 이용할 수 있는 등 진입 장벽이 충분히 낮아졌다. 결국 인공지능 개발의 성패는 ‘데이터를 얼마나 확보할 수 있느냐’에 달렸다. 구글·페이스북·아마존 같은 기업이 인공지능 분야에서 앞서나가는 것 역시 이들이 각각 검색과 SNS, 유통 분야에서 가장 많은 데이터를 확보하고 있기 때문이다.

데이터가 많으니 인공지능 성능이 뛰어나고, 사용자가 여기에 몰리며 데이터가 또 축적된다. ‘부익부 빈익빈’ 현상이다. 이런 상황에서 후발주자가 집중해야 할 질문은 ‘어떻게 하면 우리 고객이 각자 보유한 데이터를 기꺼이 내놓게 만들 수 있을까? 그렇게 하려면 어떤 인센티브를 제공하는 게 가장 효과적일까?’와 같은 것이다. 

정부 역할은 ‘민간 비즈니스 모델’ 나오도록 돕는 것

‘리멤버’란 애플리케이션을 아시는지. 여기저기서 받은 명함이 수백 장씩 쌓여 일일이 입력하기조차 막막했던 경험이 누구에게나 있을 것이다. 그 명함들을 이 앱 제조사에 보내면 소속 타이피스트들이 항목별로 깔끔하게 입력해준다. 인공지능 시대에 전혀 어울리지 않는 노동집약적 서비스 같은데 뜻밖에도 이 회사가 인공지능 업계에서 가장 주목 받고 있다. ‘대한민국에서 누가 누굴 만나 어떤 비즈니스를 하는지’ 한눈에 파악할 수 있는 데이터베이스를 확보하고 있기 때문이다.

인공지능 분야에서 어떤 사업 모델이 성공을 거둘지, 향후 생태계는 어떻게 바뀌어갈진 누구도 예측하기 어렵다. 유일한 대처 방법은 민간에서 다양한 ‘돌연변이’가 나오게 하는 것이다. 따라서 정부는 연구·개발 방향을 주도하기보다 공공이 확보한 데이터 관련 제도를 ‘개인정보를 보호하면서도 민간이 활용할 수 있도록’ 정비하는 데 집중해야 한다. 아울러 민간 보유 데이터를 공공 서비스 개발이나 정책 결정에 활용할 때 적절한 대가를 지불하도록 관련 모델을 개발하는 일도 시급하다.

저작권자 © 뉴스웍스 무단전재 및 재배포 금지