기자명 허운연 기자
  • 입력 2024.01.24 09:27
메인라인이 최근 OCR AI와 관련된 특허를 획득했다. 메인라인 최현길 대표와 특허증. (사진제공=메인라인)
메인라인이 최근 OCR AI와 관련된 특허를 획득했다. 메인라인 최현길 대표와 특허증. (사진제공=메인라인)

[뉴스웍스=허운연 기자] IDP(지능형문서처리) 전문기업 '메인라인'이 AI(인공지능) OCR 관련 기술로 특허 등록을 완료했다고 24일 밝혔다.

특허 취득에 성공한 기술은 '딥러닝 기반 이종의 OCR AI 알고리즘을 이용해 최적 텍스트를 인식하는 장치, 방법 및 사용자 단말(특허 제 10-2619368호)' 기술이다.

OCR은 광학을 이용해 인식된 텍스트와 이미 저장된 텍스트 데이터 간 비교를 통해 글자를 판독하는 기술이다. 기존 OCR 기술은 로직, 패턴, 알고리즘 등 PC용 솔루션을 통해 글자를 인식할 수 있었지만 최근 AI 기술 발전에 따라 머신러닝, 딥러닝 등을 활용해 스캔된 이미지를 분석함으로써 자동으로 글자를 인식할 수 있게 됐다.

다만 OCR AI에는 다양한 신경망 알고리즘이 이용되는데, 이용되는 알고리즘에 따라 텍스트 인식 결과가 각각 다르게 도출되는 문제점을 가지고 있다.

이를 해결하기 위해 메인라인은 이미지 데이터에 적용할 최소 둘 이상의 알고리즘을 포함한 텍스트 인식 엔진을 이용해 보다 정확한 텍스트 인식 결과를 도출하도록 했다.

이종의 OCR AI 알고리즘을 이용해 각각의 후보 텍스트를 도출하고, 도출된 각각의 후보 텍스트를 이미 학습된 강화학습모델에 입력한 후 최종 텍스트를 도출함으로써 높은 정확도의 텍스트 인식 결과와 최적의 텍스트 인식율을 제공할 수 있도록 한 것이다.

한글 이미지 데이터의 경우 다양한 용어, 어순, 문장에 대해 점검을 수행하고 단어의 정확한 텍스트 추출이 우선적으로 수행됐는지를 검증한 후 수정을 통해 최종 텍스트를 도출할 수 있다.

예를 들어 진료비 영수증의 경우 청구명세서, 검사료, 진찰료, 비급여 등의 용어를 건강보험심사평가원의 진료비 청구명세서의 요양 기관별, 종별의 용어에 기초해 수정할 수 있다.

해당 특허 기술은 각각의 후보 텍스트 및 사용자 규칙 정보를 강화학습모델에 입력해 상태(state)를 인식하고, 인식된 상태로부터 리워드(Reward) 함수를 만족하는 행동(Action)을 도출하도록 강화학습모델을 학습시킬 수도 있다.

이에 진료비 영수증이나 사업자등록증, 공공기관 문서 등 텍스트를 포함하고 있는 다양한 이미지 데이터를 보다 정교하게 텍스트로 인식해 더욱 수준 높은 IDP 기술을 의료, 엔터프라이즈, 공공 등 폭넓은 산업 분야에 적용할 수 있게 됐다.

최현길 메인라인 대표는 "국내 대표 IDP 리딩 기업으로서 선행 기술 R&D에 앞장서고 있다"며 "향후 텍스트 및 이미지를 활용한 AI 기술 분야로 진출을 위해 기술 경쟁력을 계속 확보할 것"이라고 말했다.

저작권자 © 뉴스웍스 무단전재 및 재배포 금지