콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#컴퓨터 비전 #자연어

NEW 표 이미지-텍스트 쌍 데이터

표 이미지-텍스트 쌍 데이터 아이콘 이미지
  • 분야영상이미지
  • 유형 텍스트 , 이미지
구축년도 : 2023 갱신년월 : 2024-12 조회수 : 3,389 다운로드 : 313 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.2 2024-12-04 서브라벨링 추가 개방
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 문서 내 표의 내용 정보를 구조화된 문장으로 자동 추출하기 위한 표 이미지와 설명문 텍스트 데이터 쌍 구축

    구축목적

    - 표 이미지 및 이미지에 대응하는 내용 정보 텍스트를 쌍으로 구축하여 표 이미지의 내용 정보에 대한 요약문을 자동 생성하고, 표에 대한 다양한 관점을 제공하는 해설 문장을 생성하기 위함
  • - 데이터 통계

    어노테이션 포맷 1) 영상 데이터
    데이터 종류 데이터 형태 원천데이터 규모 라벨링데이터 규모 어노테이션 규모
    요약문 설명문
    기본표 표 이미지 139,995장  139,995건 139,995건
    (1문장 생성)
    139,995건
    (3문장 생성)
    표 내용정보 139,995건
    조합표 표 이미지 57,856장  57,856건 57,856건
    (1문장 생성)
    57,856건
    (3문장 생성)
    표 내용정보 57,856건
    병합표 표 이미지 125,162장 125,162건 125,162건
    (1문장 생성)
    125,162건
    (3문장 생성)
    표 내용정보 125,162건
    콘텐츠 병합표 표 이미지 81,067장 81,067건 81,067건
    (1문장 생성)
    81,067건
    (3문장 생성)
    표 내용정보 81,067건
    총계 808,160건 404,080건 404,080건
    (1문장 생성)
    404,080건
    (3문장 생성)


    - 데이터 분포

      - 표 종류 분포

    데이터 분포 - 표 종류 분포
    표 종류 데이터 수량 비율
    기본표 139,995 34.65%
    조합표 57,856 14.32%
    병합표 125,162 30.97%
    콘텐츠 병합표 81,067 20.06%
    합계 404,080 100.00%

     

      - 표 분야 분포

    데이터 분포 - 표 분야 분포
    표 분야 데이터 수량 비율
    경제 74,301 18.39%
    산업 106,693 26.40%
    과학 39,506 9.78%
    문화 26,540 6.57%
    보건 16,390 4.06%
    교육/사회 140,650 34.81%
    합계 404,080 100.00%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 활용 모델 : KE-T5-base

    활용모델 KE-T6-base이미지
     사전 학습 데이터 : 국립 국어원 모두의 말뭉치 및 RealNews Dataset 289.02GB
     모델 설명 : 다양한 Generative task를 통하여 Downstream task에서 더욱 효과적인 성능을 보이는 모델. Prefix를 통해 모델의 생성 문장을 수행해야하는 task에 적합하도록 학습

     

    - 실험 환경
       1) 데이터셋 구성
          학습데이터 : 323,836 건
          검증데이터 :  39,986 건
          평가데이터 :  40,258 건
       2) 학습 방법
          (1) 표 이미지에서 인식된 텍스트 추출
          (2) 표 이미지 텍스트로부터 표 설명문/표 요약문을 각각 생성하도록 모델 학습
             (표 설명 모델과 표 요약 모델은 독립적인 2개의 모델)
       3) 성능평가지표 : BLEU (어휘 매칭 기반 점수), BLEURT (의미 매칭 기반 점수)
       4) 성능 평가 결과

    성능 평가 결과
      BLEU BLEURT
    Table Explanation Model - 0.52
    Table Summarization Model 23.44 -

       5) 목표 대비 성능
          (1) 표 요약 목표 성능 (BLEU) 22.3
              KE-T5 요약 모델 성능 (BLEU) 23.44 (+1.14)
          (2) 표 설명 목표 성능 (BLEURT) 0.105
              KE-T5 설명 모델 성능 (BLEURT) 0.52 (+0.415)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    데이터 구성
    항목 파일포맷 데이터 규모 데이터(라벨링) 유형 데이터 종류
    원천 데이터 jpg 404,080장  이미지 표 이미지
    html 404,080건 텍스트 표 내용정보
    라벨링 데이터 json 404,080건 내용요약(자연어) 표 요약문/표 설명문


    - 어노테이션 포맷

    어노테이션 포맷
    구분 속성명 타입 필수여부 설명 범위
    1 file_id integer 필수 문서 ID  
    2 file_name string 필수 표 이미지 파일명  
    3 file_format string 필수 표 이미지 파일 포맷  
    4 img_size integer 필수 표 이미지 파일 크기(KB)  
    5 table_meta object 필수 표 메타데이터  
    6 table_meta.doc_title string 필수 문서제목  
    7 table_meta.publisher  string 필수 발행기관  
    8 table_meta.publish_year integer 선택 발행연도   
    9 table_meta.table_type string 필수 표(테이블) 종류 기본표
    조합표
    병합표
    콘텐츠 병합표
    10 table_meta.table_field string 필수 표(테이블) 분야 경제
    산업
    과학
    문화
    보건
    교육/사회
    11 table_meta.table_unit string 선택 표 단위  
    12 table_meta.table_title string 필수 표 제목  
    13 table_meta.table_header string 필수 표 헤더  
    14 table_meta.table_row_number integer 필수 표 행 개수  
    15 table_meta.table_column_number integer 필수 표 열 개수  
    16 table_meta.table_header_bold string 필수 표 헤더 볼드처리 여부  
    17 table_meta.table_background string 필수 표 바디 배경색 여부  
    18 table_meta.html_path string 필수 표이미지에서 변환된 html 문서 경로  
    19 table_data object 필수 표 문장  
    20 table_data.text_explanation string 필수 표 설명문  
    21 table_data.text_summary string 필수 표 요약문  


    - 데이터 포맷

     1) 원천 데이터
         - 표 이미지 : *.jpg

    원천데이터 표 이미지

     

         - 표 내용정보 : *.html

    표 내용정보

        < table class="waffle" cellspacing="0" cellpadding="0" >
            < thead >
                < tr >
                    < th class="row-header freezebar-origin-ltr" >< /th >
                    < th id="1805698442C0" style="width:193px;" class="column-headers-background" >A< /th >
                    < th id="1805698442C1" style="width:109px;" class="column-headers-background" >B< /th >
                    < th id="1805698442C2" style="width:125px;" class="column-headers-background" >C< /th >
                    < th id="1805698442C3" style="width:164px;" class="column-headers-background" >D< /th >
                < /tr >
            < /thead >
            < tbody >
                < tr style="height: 19px" >
                    < th id="1805698442R0" style="height: 19px;" class="row-headers-background" >
                        < div class="row-header-wrapper" style="line-height: 19px" >1< /div >
                    < /th >
                    < td class="s0" >구분< /td >
                    < td class="s0" >단위및기준< /td >
                    < td class="s0" >줄처< /td >
                    < td class="s0" >자료 범위< /td >
                < /tr >
                < tr style="height: 19px" >
                    < th id="1805698442R1" style="height: 19px;" class="row-headers-background" >
                        < div class="row-header-wrapper" style="line-height: 19px" >2< /div >
                    < /th >
                    < td class="s1" dir="ltr" >실거래가격지수(아파트)< /td >
                    < td class="s1" >시도 및 강남4구< /td >
                    < td class="s1" >한국감정원< /td >
                    < td class="s1" dir="ltr" >2012년 1월~2019년 10월< /td >
                < /tr >
                < tr style="height: 19px" >
                    < th id="1805698442R2" style="height: 19px;" class="row-headers-background" >
                        < div class="row-header-wrapper" style="line-height: 19px" >3< /div >
                    < /th >
                    < td class="s1" dir="ltr" >매매 및 전세 중위가격(아파트)< /td >
                    < td class="s1" >시도 및 강남4구< /td >
                    < td class="s1" >한국감정원< /td >
                    < td class="s1" dir="ltr" >2012년 1월~2020년 01월< /td >
                < /tr >
                < tr style="height: 19px" >
                    < th id="1805698442R3" style="height: 19px;" class="row-headers-background" >
                        < div class="row-header-wrapper" style="line-height: 19px" >4< /div >
                    < /th >
                    < td class="s1" >전월세전환율< /td >
                    < td class="s1" >전국< /td >
                    < td class="s1" >한국감정원< /td >
                    < td class="s1" dir="ltr" >2012년 1월~22019년 12월< /td >
                < /tr >
                < tr style="height: 19px" >
                    < th id="1805698442R4" style="height: 19px;" class="row-headers-background" >
                        < div class="row-header-wrapper" style="line-height: 19px" >5< /div >
                    < /th >
                    < td class="s1" dir="ltr" >주택구매력지수(HAI)< /td >
                    < td class="s1" >시도 및 강남4구< /td >
                    < td class="s1" >국민은행< /td >
                    < td class="s1" dir="ltr" >2012년 1월~2019년 12월< /td >
                < /tr >
                < tr style="height: 19px" >
                    < th id="1805698442R5" style="height: 19px;" class="row-headers-background" >
                        < div class="row-header-wrapper" style="line-height: 19px" >6< /div >
                    < /th >
                    < td class="s1" >사회적할인율< /td >
                    < td class="s1" >전국< /td >
                    < td class="s1" >예비타당성 조사 수행 총괄지침< /td >
                    < td class="s1" dir="ltr" >-< /td >
                < /tr >
            < /tbody >
        < /table >

     

     2) 라벨링 데이터 : *.json

    라벨링 데이터

    {
      "file_id": 3,
      "file_name": "T01_C01_50000_1133_2.jpg",
      "file_format": "jpg",
      "img_size": 291,

      "table_meta": {
          "table_meta.doc_title": "아파트 가격거품 검증과 시사점 (2012년~2020년 1월)",
          "table_meta.publisher": "국토연구원",
          "table_meta.publish_year": 2020,
          "table_meta.table_type": "기본표",
          "table_meta.table_field": "경제",
          "table_meta.table_unit": "",
          "table_meta.table_title": "분석자료 범위 및 출처",
          "table_meta.table_header": "Y",
          "table_meta.table_row_number": 6,
          "table_meta.table_column_number": 4,
          "table_meta.table_header_bold": "N",
          "table_meta.table_background": "N",
          "table_meta.html_path": "/원천데이터/T01/C01/T01_C01_50000_1133_2.html"
      },

      "table_data": {
          "table_data.text_explanation": "1) 실거래가격지수(아파트)의 단위 및 기준은 시도 및 강남4구이며 출처는 한국감정원이고 자료 범위는 2012년 1월~2019년 10월이다. 2) 전월세전환율의 단위 및 기준은 전국이며 출처는 한국감정원이고 자료범위는 2012년 1월~2019년 12월이다. 3) 표에 따르면 실거래가격지수, 매매 및 전세 중위가격, 주택구매력지수의 단위 및 기준은 시도 및 강남4구이며 전월세전환율, 사회적할인율의 단위 및 기준은 전국이다.",
          "table_data.text_summary": "표는 분석자료 범위 및 출처에 관한 내용으로 6행 4열이며 실거래가격지수, 매매 및 전세 중위가격, 전월세전환율 등에 관한 단위 및 기준, 출처, 자료 범위를 나타낸 표이다."
      }

    }
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜메트릭스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    박래희 02-6377-0826 plhee@metrix.co.kr 사업총괄 및 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜스위트케이 데이터 수집, 정제, 가공, 검사, 저작도구 개발 및 운영
    브레인벤쳐스 품질검증
    건국대학교 산학협력단 AI 모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    윤종현 02-3434-3120 planb@sweetk.co.kr
    이준호 02-3434-3120 jh.lee@sweetk.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    한미래 010-4539-6105 future26@konkuk.ac.kr
    장영진 010-5594-4777 danyon@konkuk.ac.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    윤종현 02-3434-3120 planb@sweetk.co.kr
    이준호 02-3434-3120 jh.lee@sweetk.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.