한국어 글자체 이미지

한국어 글자체 이미지 AI데이터

Korean Font Image AI Training Dataset

'19년 구축량
  • 손글씨-370만자(현대한글 74만자, 단어 98만자, 문장 198만자)
  • 인쇄체-280만자(현대한글 55만자, 단어 75만자, 문장 150만자)
  • Text in the Wild-10만장(표지판·이정표 1.7만장, 상표 3.7만장, 간판 3.0만장, 기타 1.6만장)
대표도면
adf

 

필요성
  • OCR 기술은 자율주행, 증강현실(AR), IoT 등의 산업분야에서 사물의 문자를 인식해서 제공하는 서비스의 기반기술임
  • 글로벌 기업(네이버, 구글 등)이 OCR 활용 인지서비스를 제공하고 있으나, 공개된 한국어 글자체 데이터셋이 없어 기관, 기업의 연구개발에 어려움이 있음
  • 전세계적으로 OCR은 AI 기반의 OCR로 변화하고 있으므로 한글 글자체에 대한 공개된 학습용 데이터셋이 필요
  • 초성, 중성, 종성의 조합형 형태에 맞춘 데이터셋 구축을 통한 한글 인식 정확도 향상 기반 마련
구축내용
  • 현대 한글 글자체 데이터셋 : 현대 한글 문자 11,172자에 대한 인쇄체 및 손글씨체 500만자, text in the wild 10만장
  • 현대한글, 국립국어원의 한국인이 가장 많이 쓰는 단어 6천자, 뉴스 기반 문장 등으로 작성한 글자
  • 간판, 표지판, 상표, 도서표지 등 text in the wild는 직접 촬영한 이미지를 사용
데이터 구조
  • 라벨링 정보는 데이터셋정보, 이미지정보, 어노테이션, 라이선스 정보로 구성
  • 아래의 라벨링 정보 중 학습의 목적에 맞는 Label 정보를 선택하여 AI OCR 모형 학습 데이터로 활용
상식 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식)
No 항목 길이 타입 필수여부 비고
    한글명 영문명        
1 데이터셋정보 info   Object    
  1-1 데이터셋명 info.name 100 String Y  
1-2 데이터셋상세설명 info.description 1000 String    
1-3 데이터셋URL info.url 200 String    
1-4 데이터셋생성일자 info.date_created 100 String Y  
2 이미지정보 images   List    
  2-1 이미지식별자 images[].id 100 String Y  
  2-2 이미지너비 images[].width 4 Number Y  
  2-3 이미지높이 images[].height 4 Number Y  
  2-4 이미지파일명 images[].file_name 100 String Y  
  2-5 이미지라이선스 images[].license 100 String Y  
  2-6 이미지촬영일자 date_created 100 String Y  
3 어노테이션정보 annotations   List    
  3-1 어노테이션식별자 annotations[].id 100 String Y  
  3-2 연관이미지식별자 annotations[].image_id 100 String Y  
  3-3 어노테이션텍스트 annotations[].text 1000 String Y  
  3-4 어노테이션속성 annotations[].attributes 1 Object    
  3-5 어노테이션 바운딩박스 annotations[].bbox 4 List   Text in the Wild 에서 사용
4 라이선스 licenses   List    
  4-1 라이선스명 licenses[].name 100 String Y  
  4-2 라이선스URL licenses[].url 200 String Y  
활용예시
산업분야
 
  • 자율주행차 이정표 인식, 증강현실 및  IoT 산업의 문자 판독, 전자상거래 사업의 상품 라벨 및 도서표지 검색 등에 활용

연구분야
 
  • 의료, 금융 등 빅데이터 활용을 위한 종이문서 인식, 개인정보 식별 및 개인정보보호 등에 관한 연구 분야에 활용
데이터셋 구축 담당자
수행기관(주관) : ㈜키니앤파트너스

 

 
책임자명 전화번호 대표이메일 담당업무
김대중 02-857-6230 thekiny@thekiny.com · AI 모형 개발 및 홍보
수행기관(참여)
 
 
기관명 담당업무
㈜슈퍼브에이아이 · AI 학습용 데이터 수집
· 정제 및 가공
가이드라인 다운로드