AI Hub
인라이플 / i-BOT
첨부파일
없음
등록일
2019.12.18
조회수
700

소재지 : 서울시 구로구 디지털로 272 501~ 506

대표자 : 한경훈 ( 홈페이지 URL: http://enliple.com )

조직원수 : 280

설립연도 : 2012

대표연락처 : 010-****-2303

 

 

 

AI서비스 개발 목표는?

인라이플의 AI 챗봇인 i-BOT 서비스는 2017년부터 시나리오와 인공지능 엔진을 탑재해 고객 상담을 응대한다는 계획으로 시작하였습니다.

쇼핑몰에서는 대부분 상품에 관련된 대응이 가장 많고, 적절한 대응은 구매로 연결 될 것이라고 예상하고 시중에 있는 기본 챗봇 기능 외에 다른 기능을 고민했습니다. 그 고민의 결과, 어떤 상품이 가지고 있을 예상 질문 그리고 그 질문의 답변을 미리 제공할 수 있는 기능도 서비스할 목표를 세웠습니다.

 

무슨 문제가 있었는지?

대개 쇼핑몰에서는 구매 촉진을 위해 판매 상품에 대한 되도록이면 자세한 설명을 하고 있습니다. 텍스트로 된 이 특징으로 제품을 분석하고, 머신러닝 모델을 만들었습니다. 제품별로 가질 수 있는 상품에 관한 질문과 답변 세트를 추천하는 이 서비스는 꽤 높은 정확도를 보였습니다. 하지만 쇼핑몰 중 30% 이상이 디지털 텍스트가 없이 이미지로 제품을 설명하고 있었습니다. 한정적인 범위내에서 서비스를 할 수 밖에 없었습니다.

 

어떤 AI허브 데이터를 활용?
 

1

이 문제점을 해결하기 위해 OCR Text 기술을 활용하였습니다. 이미지에서 디지털 텍스트를 추출해 서비스에 이용했습니다. 텍스트 추출을 위한 훈련 모델은 한글 데이터 셋을 필요로 합니다. 기계학습 훈련 모델이 대부분 그렇듯 데이터가 많으면 많을 수록 좋다는 조건과, 쇼핑몰에는 다양한 디자인의 글씨체들이 존재하는 환경적 요건이 있었습니다. OCR Text 연구를 하면서 실험한 결과, 훈련되지 않은 글씨체는 정확도 40% , 훈련된 글씨체는 적어도 80% 이상의 정확도 보였습니다. 최대한 많은 글자체를 훈련 시키기 위해 AI hub에서 제공하는 한국어 글자체 이미지 AI 데이터를 활용하는 것은 마땅한 일이 었습니다.

 

AI서비스 개발을 위한 활용 방법은?

2

디지털 텍스트를 추출하기 위한 OCR Text 방법은 이미지에서 Detection 알고리즘을 이용해 이미지 내에 있는 텍스트 영역을 인식하는 모델을 거친 후 , 텍스트로 인식된 영역의 이미지를 디지털 텍스트로 추출하는 Recognition 모델을 통하여 최종 결과를 얻습니다.

AI hub 데이터 셋은 Recognition 모델을 학습할 때 사용되고 그림과 같은 절차를 거칩니다.

 

어떤 성과를 나타내었나?

딥러닝을 이용하여 이미지에서 텍스트 추출하기 때문에, 학습하지 않은 유형의 글씨체는 인식하기 어려운게 자명합니다. AI hub 데이터는 되도록 다양하고 많은 글자를 학습하여 정확도를 올리는데 사용합니다.

그림은 훈련되지 않은 글자는 40% 수준의 정확도이지만, 유사한 유형의 글자가 훈련되었을 경우 80% 이상의 성능을 보여주는 실험 결과입니다.

 

앞으로 어떻게 발전시킬 계획?

현재 AI hub에서 제공하는 데이터 수는 손글씨와 인쇄체를 합하여 25만자를 제공하고 있지만, 기존 데이터에 비하면 비중이 많이 작습니다.

AI hub 에서는 손글씨와 인쇄체를 500만자까지 구축할 계획을 가지고 있습니다. 500만자의 글자 데이터가 추가로 확보되고 모델에 훈련한다면, 만족할 만한 추출 결과를 얻을 수 있는 이미지 텍스트가 많아 질것으로 예상됩니다.

또한, 인라이플에서는 텍스트와 이미지 분석 기술을 결합해 상품에 해당되는 예상 질문과 답변을 추천하는 비지니스 모델로 특허 등록을 진행하고 있습니다.