야외 실제 촬영 한글 이미지

야외 실제 촬영 한글 이미지

데이터셋명 야외 실제 촬영 한글 이미지
데이터 분야 음성/자연어 데이터 유형 이미지
구축기관 동양시스템즈 데이터 관련 문의처 담당자명 정용우(인포플라)
가공기관 인포플라 전화번호 070-5055-4813
검수기관 인포플라, 앙코르브라보노협동조합 이메일 sunokk125@infofla.com
구축 데이터량 50만 구축년도 2020년
버전 1.0 최종수정일자 2021.06.27
소개 일상에서 접할 수 있는 다양한 한글 이미지(간판, 책표지)를 이용하여 다양한 OCR 솔루션에 사용될 수 있는 text-in-the-wild 이미지 데이터
주요 키워드 한글 이미지, 간판. 메뉴판, 책표지, 상품명, 이미지데이터, 한글 텍스트
저작권 및 이용정책 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기]
데이터설명서 자료보기 구축활용가이드 자료보기
샘플데이터 다운로드 교육활용동영상 영상보기
저작도구 다운로드 AI모델 업데이트 중
데이터 변경이력
버전 일자 변경내용 비고
1.0 2021.06.27 데이터 최초 개방  
구축 목적
  • 일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술 
    개발용 학습 데이터 셋
활용 분야
  • 웨어러블카메라 및 모바일OCR(책표지 인식통한 온라인 구매) 등 
    야외에서 한글의 인식이 필요한 분야
소개
  • 문서(font)나 필기체 외에 일상에서 접할 수 있는 다양한 한글 이미지를 이용하여 각종 비정형 한글을 인식함으로써 각종 솔루션에 사용될 수 있는 한글 이미지 학습 데이터 구축

     

    야외 실제 촬영 한글 이미지 소개
구축 내용 및 제공 데이터량
  • 간판
    • 간판 사진은 전국 범위를 대상으로 낮, 밤, 우천, 눈 등 조건하에서 가로/세로형 간판, 돌출형 간판, 창문이용 간판 등을 중심으로 실내외 환경에서 여러 시야각도로 촬영을 목표로 함.
    • 최종 인공지능 데이터 : 간판 한글단어 바운딩박스 45만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
    - JPEG 이미지 약 450,000건 : 한글단어 45만 건에 해당하는 학습 데이터 구축
    - 어노테이션 JSON 파일 약 450,000개 : 한글단어 45만 건 이상에 해당하는 학습 데이터 구축 완료
    - 이미지와 JSON 파일 수량 비율은 1:1
    간판 구축 내용 및 제공 데이터량 표
    분류 세분류 촬영수량 비율
    실외간판 가로형간판 140,000 31.0%
    세로형간판 30,000 6.7%
    돌출간판 55,000 12.2%
    지주이용간판 30,000 6.7%
    현수막 30,000 6.7%
    창문이용광고물 30,000 6.7%
    소계 315,000 70%
    실내간판 실내간판 90,000 20%
    실내안내판 45,000 10%
    소계 135,000 30%
    합계 450,000 100%
  • 책표지
    • 최종 인공지능 데이터 : 책표지 한글단어 바운딩박스 5만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
    - JPEG 이미지 약 50,000건 : 한글단어 5만 건에 해당하는 학습 데이터 구축
    - 어노테이션 JSON 파일 약 50,000개 : 한글단어 5만 건 이상에 해당하는 학습 데이터 구축 완료
    - 이미지와 JSON 파일 수량 비율은 1:1
    책표지 구축 내용 및 제공 데이터량 표
    분류(KDC) 촬영수량 비율
    총류 2,500 5%
    철학 3,500 7%
    종교 4,000 8%
    사회과학 8,000 16%
    자연과학 2,500 5%
    기술과학 8,000 16%
    예술 2,500 5%
    언어 4,000 8%
    문학 8,000 16%
    역사 3,000 6%
    기타(유아) 4,000 8%
    합 계 50,000 100%
대표도면
  • 간판 한글 인식(OCR) 학습용 데이터대표도면-1

     

  • 책표지 한글 인식(OCR) 학습 데이터대표도면-2

     

필요성
  • 기존 OCR분야는 최적의 인식을 위해 노이즈 없는 인쇄체나 필기체를 학습 및 인식의 대상으로 집중해 왔으며, 따라서 실내 사무분야 등에서는 인공지능 인식이 성과를 보이고 있음. 그러나 실외 간판이나 책표지와 같은 비정형 폰트형태의 한글을 많이 사용하는 분야는 산업계의 관심 및 투자 부족과 기술개발의 난이도 등으로 해당분야 한글 이미지의 인식율이 매우 낮았음. 
  • 이에 따라 본 과제에서는 인공지능 OCR엔진이 실내외에 위치한 간판, 책표지의 한글데이터를 인식할 수 있도록 학습데이터를 구축하고 학습모델을 개발하여 비정형 한글데이터의 인식율 향상을 노력하고자 함.
  • 1600*1200 해상도의 jpeg 이미지를 촬영하며, 야외(LSVT) 45만장, 책표지 5만장 총 50만장의 이미지 및 라벨링 json 구축 목표
  • 본 사업은 야외 간판 한글데이터 수집을 주요 목적으로 하고 있으나, 좀더 다양한 유형의 한글데이터 구축을 위하여 비정형 한글 폰트를 사용하는 책표지의 한글데이터를 일부 포함하여 구축하기로 함.
데이터 구조
  • 데이터 구성
    데이터 구성 표1
    Key Description Type Child Type
    annotations   List Object
    [   Object  
    id   Number  
    image_id   Number  
    text   String  
    bbox   List Object
     [   Object  
      x좌표 Number  
      y좌표 Number  
      width Number  
      height Number  
    ]      
    cropLables   List  
    []      
    images   List Object
    [   Object  
    데이터 구성 표2
    Key Description Type Child Type
    id   Number  
    width   Number  
    height   Number  
    file_name   String  
    date_created   Date  
    ]      
    info   List Object
    [   Object  
    name   String  
    description   String  
    date_created   Date  
    ]      
    metadata   List Object
    [   Object  
    class   String  
    subclass   String  
    area   String  
    device   String  
    weather   String  
    illuminance   String  
    light   String  
    outline   String  
    wordorientation   String  
    wordsize   String  
    wordfont   String  
    wordcolor   String  
    wordconnection   String  
    ]      

     

  • 어노테이션 포맷
    어노테이션 포맷 표1
    No. 항목 길이 타입 필수
    여부
    한글명 영문명
    1 어노테이션 정보 annotations   List  
      1-1 어노테이션 식별자 annotations[].id 10 Number Y
    1-2 인식문자이미지식별자 annotations[].image_id 10 Number Y
    1-3 어노테이션 텍스트 annotations[].text 1000 String Y
    1-4 어노테이션 바운딩박스 annotations[].bbox 4 List  
    2 Crop라벨 cropLables   List  
    3 이미지정보 images   List  
      3-1 이미지식별자 images[].id 10 Number Y
    3-2 이미지너비 images[].width 4 Number Y
    3-3 이미지높이 images[].height 4 Number Y
    3-4 이미지파일명 images[].file_name 100 String Y
    3-5 이미지촬영일자 date_created 100 String Y
    4 데이터셋정보 info   Object  
      4-1 데이터셋명 info.name 100 String Y
    4-2 데이터셋설명 info.description 1000 String  
    4-3 데이터셋생성일자 info.date_created 100 String Y
    5 메타데이터 metadata   List  
      5-1 분류 metadata[].class 100 String Y
    5-2 세분류 metadata[].subclass 100 String  
    5-3 지역 metadata[].area 100 String  
    5-4 수집장치 metadata[].device 100 String Y
    5-5 날씨 metadata[].weather 100 String  
    어노테이션 포맷 표2
    No. 항목 길이 타입 필수
    여부
    한글명 영문명
      5-6 조도 metdata[].illuminance 100 String  
    5-7 광원 metadata[].light 100 String  
    5-8 외곽선 선명도 metadata[].outline 100 String Y
    5-9 글씨방향 metadata[].wordorientation 100 String Y
    5-10 글씨크기 metadata[].wordsize 100 String Y
    5-11 글씨폰트 metadata[].wordfont 100 String Y
    5-12 글자색 metadata[].wordcolor 100 String Y
    5-13 글자연결 metadata[].wordconnection 100 String Y
데이터셋 구축 담당자
수행기관(주관) : 동양시스템즈
수행기관(주관)
책임자 전화번호 대표이메일 담당업무
김시진 02-405-7443 sijin.kim@tysystems.com · 원문 데이터 확보 및 제공
· 데이터 구축 총괄
수행기관(참여)
수행기관 (참여)
기관명 담당업무 기관명 담당업무
인포폴라 · 데이터 수집, 가공 및 검수 앙코르브라보노협동조합 · 데이터 검수
넥스인테크놀로지 · 크라우드소싱 플랫폼 개발