기자명 최재필기자
  • 입력 2016.03.31 13:54

빅데이터 분석기술·러닝머신 접목 신개념 선거예측 프로그램 활용

<뉴스웍스>는 국내 빅데이터 전문기업인 ㈜JPD 빅데이터연구소와 공동으로 '빅데이터로 본 20대 총선 격전지' 코너를 마련했다. <뉴스웍스>는 이 코너를 통해 서울지역 격전지 11곳을 선정, 두 차례에 걸쳐 통계자료에 근거한 빅데이터 분석을 통해 각 지역구 후보들의 지지율을 예측할 예정이다. 

특히 이번 선거예측 시스템은 일반적 유·무선전화에 따른 여론조사 방식이 아닌 빅데이터를 활용한 미래예측 방법론에 근거한 신개념 선거예측 방식으로, 국내에서 처음 시도된다. ㈜JPD 빅데이터연구소가 5년간 연구 끝에 개발한 빅데이터 선거예측 분석 시스템인 JEFA(JPD Election Forecasting Analysis System)이 그것이다.

JEFA는 쉽게 설명하면 구글의 알파고처럼 인공지능 학습화 방법론과 유사하다. 예측 분석 데이터의 모든 패턴 가중치를 의사결정 데이터(VAF)로 관리한 뒤, 실제 예측과 결과와의 격차가 생겨도 패턴 가중치 데이터를 역추적해 찾아내서 자동으로 보정하는 방식이다.

특히, JEFA 데이터베이스인 JDDB(JPD 의사결정 데이터베이스)는 이 시스템의 핵심 요소다. JDDB는 선거구 연령대별 투표율과 득표율의 관계성을 의사결정 요인 데이터와 실제 검증데이터를 동시에 관리하는 데이터 관리 시스템이다.

JPD 측은 "JDDB는 이미 학습된 머신러닝 기법에 의해 추출된 의미있는 의사결정 데이터의 군집"이라며 "향후 지속적 고도화가 가능한 모델"이라고 소개했다.

이번에 적용하는 빅데이터 선거예측 시스템은 <그림1>과 같은 절차에 따라 분석되며, 의사결정에 필요한 분석 자료 일부는 <그림2>와 같다.

[그림1]빅데이터 기반 선거예측 시스템의 프로세스.<자료=JPD제공>

장수진 JPD 대표는 "20년간 과거 선거 예측 데이터와 실제 득표 데이터를 분석한 결과를 토대로 지역별 정치적 성향이 연령대별로 어떻게 변화하는지를 추적한 데이터 모델링 방법을 개발했다"며 "지역별 인구변화에 따라 예측 정치 성향 및 득표율을 역산출하는 방식으로 개발된 예측 방법 모델링을 적용했다"고 설명했다.

이처럼 빅데이터를 통한 선거예측은 그동안 여론조사 방식과는 자료수집부터 분석, 결과 생성까지 진행과정이 확연히 달라 여론조사 방식의 부정확성을 상당 부분 개선시킬 것으로 기대된다.

장 대표는 "그동안 각종 여론조사의 경우 전화나 설문중심의 방법으로 진행돼 오차범위가 조사 기관별로 천차만별이고, 신뢰도에 문제가 있었다"고 지적하며 "빅데이터 미래예측 방법(JPM)은 빅데이터를 기반으로 예측과 검증이 가능하기 때문에 여론조사보다 더욱 높은 신뢰성을 갖고 있다"고 말했다.

[그림2]의사 결정용 선거예측 분석 화면. 이 그래픽은 참고용이며, 실제와는 다름.<자료=JPD제공>

실제 JPD는 이 방법으로 2012년 18대 대통령선거 여론조사에서 5% 과반 이상 득표를 예측하기도 했다. 장 대표는 "18대 대선에서 박빙의 결과를 예측했던 기존 여론조사 결과에 비해 5%의 과반이상 득표, 51.9%대 47.3%의 득표율까지 정확히 예측했다"고 말했다.

이어 "최근 구글 알파고와 같은 인공지능은 거의 모든 산업 분야에 적용되고 있는데 그 핵심 기술은 빅데이터 분석기술과 러닝머신 분야"라며 "이를 적용한 JEFA시스템은 이번 예측 결과를 통해 향후 국내 선거관련 예측조사에 더욱 체계적 지능화 시스템이 발전할 것"이라고 부연했다.

 

#20대 총선 #총선 #격전지 #여론조사 #빅데이터 #여론조사 결과 #지지율 #총선 후보 #[격전지

저작권자 © 뉴스웍스 무단전재 및 재배포 금지