콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#한글 이미지 # 이미지데이터 # 한글 텍스트

야외 실제 촬영 한글 이미지

야외 실제 촬영 한글 이미지
  • 분야한국어
  • 유형 이미지
구축년도 : 2020 갱신년월 : 2023-02 조회수 : 15,599 다운로드 : 1,798 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-02-22 원천데이터, 라벨링데이터 수정
    1.0 2021-06-27 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-13 신규 샘플데이터 개방

    소개

    일상에서 접할 수 있는 다양한 한글 이미지(간판, 책표지)를 이용하여 다양한 OCR 솔루션에 사용될 수 있는 text-in-the-wild 이미지 데이터

    구축목적

    일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술 개발용 학습 데이터셋
  • 구축 내용 및 제공 데이터량

    • 간판
      • 간판 사진은 전국 범위를 대상으로 낮, 밤, 우천, 눈 등 조건하에서 가로/세로형 간판, 돌출형 간판, 창문이용 간판 등을 중심으로 실내외 환경에서 여러 시야각도로 촬영을 목표로 함.
      • 최종 인공지능 데이터 : 간판 한글단어 바운딩박스 45만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
      - JPEG 이미지 약 450,000건 : 한글단어 45만 건에 해당하는 학습 데이터 구축
      - 어노테이션 JSON 파일 약 450,000개 : 한글단어 45만 건 이상에 해당하는 학습 데이터 구축 완료
      - 이미지와 JSON 파일 수량 비율은 1:1
      간판 구축 내용 및 제공 데이터량 표
      분류 세분류 촬영수량 비율
      실외간판 가로형간판 140,000 31.0%
      세로형간판 30,000 6.7%
      돌출간판 55,000 12.2%
      지주이용간판 30,000 6.7%
      현수막 30,000 6.7%
      창문이용광고물 30,000 6.7%
      소계 315,000 70%
      실내간판 실내간판 90,000 20%
      실내안내판 45,000 10%
      소계 135,000 30%
      합계 450,000 100%
    • 책표지
      • 최종 인공지능 데이터 : 책표지 한글단어 바운딩박스 5만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
      - JPEG 이미지 약 50,000건 : 한글단어 5만 건에 해당하는 학습 데이터 구축
      - 어노테이션 JSON 파일 약 50,000개 : 한글단어 5만 건 이상에 해당하는 학습 데이터 구축 완료
      - 이미지와 JSON 파일 수량 비율은 1:1
      책표지 구축 내용 및 제공 데이터량 표
      분류(KDC) 촬영수량 비율
      총류 2,500 5%
      철학 3,500 7%
      종교 4,000 8%
      사회과학 8,000 16%
      자연과학 2,500 5%
      기술과학 8,000 16%
      예술 2,500 5%
      언어 4,000 8%
      문학 8,000 16%
      역사 3,000 6%
      기타(유아) 4,000 8%
      합 계 50,000 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 다운로드
  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2021.06.27 데이터 최초 개방  

    구축 목적

    • 일상에서 접할 수 있는 실내외 이미지 속 한글의 디지털 텍스트를 다량으로 확보하여, 문서나 필기체 외에 다양한 폰트로 노출되어 있는 한글자원을 효과적으로 활용하기 위한 인공지능 기반 OCR 기술 
      개발용 학습 데이터 셋

    활용 분야

    • 웨어러블카메라 및 모바일OCR(책표지 인식통한 온라인 구매) 등 
      야외에서 한글의 인식이 필요한 분야

    소개

    • 문서(font)나 필기체 외에 일상에서 접할 수 있는 다양한 한글 이미지를 이용하여 각종 비정형 한글을 인식함으로써 각종 솔루션에 사용될 수 있는 한글 이미지 학습 데이터 구축

       

      야외 실제 촬영 한글 이미지- 소개

     

    구축 내용 및 제공 데이터량

    • 간판
      • 간판 사진은 전국 범위를 대상으로 낮, 밤, 우천, 눈 등 조건하에서 가로/세로형 간판, 돌출형 간판, 창문이용 간판 등을 중심으로 실내외 환경에서 여러 시야각도로 촬영을 목표로 함.
      • 최종 인공지능 데이터 : 간판 한글단어 바운딩박스 45만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
      - JPEG 이미지 약 450,000건 : 한글단어 45만 건에 해당하는 학습 데이터 구축
      - 어노테이션 JSON 파일 약 450,000개 : 한글단어 45만 건 이상에 해당하는 학습 데이터 구축 완료
      - 이미지와 JSON 파일 수량 비율은 1:1
      간판 구축 내용 및 제공 데이터량 표
      분류 세분류 촬영수량 비율
      실외간판 가로형간판 140,000 31.0%
      세로형간판 30,000 6.7%
      돌출간판 55,000 12.2%
      지주이용간판 30,000 6.7%
      현수막 30,000 6.7%
      창문이용광고물 30,000 6.7%
      소계 315,000 70%
      실내간판 실내간판 90,000 20%
      실내안내판 45,000 10%
      소계 135,000 30%
      합계 450,000 100%
    • 책표지
      • 최종 인공지능 데이터 : 책표지 한글단어 바운딩박스 5만 건이 포함된 1600*1200 해상도의 한글 이미지들과 한글이 입력되어 있는 해당 이미지별 어노테이션 JSON 파일
      - JPEG 이미지 약 50,000건 : 한글단어 5만 건에 해당하는 학습 데이터 구축
      - 어노테이션 JSON 파일 약 50,000개 : 한글단어 5만 건 이상에 해당하는 학습 데이터 구축 완료
      - 이미지와 JSON 파일 수량 비율은 1:1
      책표지 구축 내용 및 제공 데이터량 표
      분류(KDC) 촬영수량 비율
      총류 2,500 5%
      철학 3,500 7%
      종교 4,000 8%
      사회과학 8,000 16%
      자연과학 2,500 5%
      기술과학 8,000 16%
      예술 2,500 5%
      언어 4,000 8%
      문학 8,000 16%
      역사 3,000 6%
      기타(유아) 4,000 8%
      합 계 50,000 100%

     

    대표도면

    • 간판 한글 인식(OCR) 학습용 데이터야외 실제 촬영 한글 이미지- 대표도면- 간판 한글 인식(OCR) 학습용 데이터 예시 이미지

       

    • 책표지 한글 인식(OCR) 학습 데이터야외 실제 촬영 한글 이미지- 대표도면- 책표지 한글 인식(OCR) 학습 데이터 예시 이미지

       

    필요성

    • 기존 OCR분야는 최적의 인식을 위해 노이즈 없는 인쇄체나 필기체를 학습 및 인식의 대상으로 집중해 왔으며, 따라서 실내 사무분야 등에서는 인공지능 인식이 성과를 보이고 있음. 그러나 실외 간판이나 책표지와 같은 비정형 폰트형태의 한글을 많이 사용하는 분야는 산업계의 관심 및 투자 부족과 기술개발의 난이도 등으로 해당분야 한글 이미지의 인식율이 매우 낮았음. 
    • 이에 따라 본 과제에서는 인공지능 OCR엔진이 실내외에 위치한 간판, 책표지의 한글데이터를 인식할 수 있도록 학습데이터를 구축하고 학습모델을 개발하여 비정형 한글데이터의 인식율 향상을 노력하고자 함.
    • 1600*1200 해상도의 jpeg 이미지를 촬영하며, 야외(LSVT) 45만장, 책표지 5만장 총 50만장의 이미지 및 라벨링 json 구축 목표
    • 본 사업은 야외 간판 한글데이터 수집을 주요 목적으로 하고 있으나, 좀더 다양한 유형의 한글데이터 구축을 위하여 비정형 한글 폰트를 사용하는 책표지의 한글데이터를 일부 포함하여 구축하기로 함.

    데이터 구조

    • 데이터 구성
      데이터 구성 표1
      Key Description Type Child Type
      annotations   List Object
      [   Object  
      id   Number  
      image_id   Number  
      text   String  
      bbox   List Object
       [   Object  
        x좌표 Number  
        y좌표 Number  
        width Number  
        height Number  
      ]      
      cropLables   List  
      []      
      images   List Object
      [   Object  
      데이터 구성 표2
      Key Description Type Child Type
      id   Number  
      width   Number  
      height   Number  
      file_name   String  
      date_created   Date  
      ]      
      info   List Object
      [   Object  
      name   String  
      description   String  
      date_created   Date  
      ]      
      metadata   List Object
      [   Object  
      class   String  
      subclass   String  
      area   String  
      device   String  
      weather   String  
      illuminance   String  
      light   String  
      outline   String  
      wordorientation   String  
      wordsize   String  
      wordfont   String  
      wordcolor   String  
      wordconnection   String  
      ]      

       

    • 어노테이션 포맷
      어노테이션 포맷 표1
      No. 항목 길이 타입 필수
      여부
      한글명 영문명
      1 어노테이션 정보 annotations   List  
        1-1 어노테이션 식별자 annotations[].id 10 Number Y
      1-2 인식문자이미지식별자 annotations[].image_id 10 Number Y
      1-3 어노테이션 텍스트 annotations[].text 1000 String Y
      1-4 어노테이션 바운딩박스 annotations[].bbox 4 List  
      2 Crop라벨 cropLables   List  
      3 이미지정보 images   List  
        3-1 이미지식별자 images[].id 10 Number Y
      3-2 이미지너비 images[].width 4 Number Y
      3-3 이미지높이 images[].height 4 Number Y
      3-4 이미지파일명 images[].file_name 100 String Y
      3-5 이미지촬영일자 date_created 100 String Y
      4 데이터셋정보 info   Object  
        4-1 데이터셋명 info.name 100 String Y
      4-2 데이터셋설명 info.description 1000 String  
      4-3 데이터셋생성일자 info.date_created 100 String Y
      5 메타데이터 metadata   List  
        5-1 분류 metadata[].class 100 String Y
      5-2 세분류 metadata[].subclass 100 String  
      5-3 지역 metadata[].area 100 String  
      5-4 수집장치 metadata[].device 100 String Y
      5-5 날씨 metadata[].weather 100 String  
      어노테이션 포맷 표2
      No. 항목 길이 타입 필수
      여부
      한글명 영문명
        5-6 조도 metdata[].illuminance 100 String  
      5-7 광원 metadata[].light 100 String  
      5-8 외곽선 선명도 metadata[].outline 100 String Y
      5-9 글씨방향 metadata[].wordorientation 100 String Y
      5-10 글씨크기 metadata[].wordsize 100 String Y
      5-11 글씨폰트 metadata[].wordfont 100 String Y
      5-12 글자색 metadata[].wordcolor 100 String Y
      5-13 글자연결 metadata[].wordconnection 100 String Y
  • 데이터셋 구축 담당자

    수행기관(주관) : 동양시스템즈
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김시진 02-405-7443 sijin.kim@tysystems.com · 원문 데이터 확보 및 제공 · 데이터 구축 총괄
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    인포폴라 · 데이터 수집, 가공 및 검수
    넥스인테크놀로지 · 크라우드소싱 플랫폼 개발
    앙코르브라보노협동조합 · 데이터 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정용우(인포플라) 070-5055-4813 sunokk125@infofla.com
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.