콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#질의응답 #기계학습

NEW 표 정보 질의응답 데이터

표 정보 질의 응답 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 5,052 다운로드 : 201 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-01 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-15 산출물 전체 공개

    소개

    테이블이 포함된 일반 문서 내에서 표 내의 특정 값을 탐색하기 위한 기계학습용 질의어와 정답 세트 데이터

    구축목적

    정형화된 문서가 아닌 다양한 형태의 표 문서를 통해 질의응답을 할 수 있는 기계학습 모델을 위한 활용 기반 마련
  • 데이터 구축 규모

    데이터 종류 데이터 형태 원문 규모 Q/A유형 원천 데이터 규모 최종 어노테이션 규모
    한국학술정보㈜,국가통계포털,서울소통광장 등 일반 표 문서 HWP, PDF 약100만 건 정답 추출형 160,000 800,000
    응답 불가형 40,000 200,000

     

    데이터 분포


    - 질의응답 유형 분포

    질의응답 유형 분포
    유형 구축목표 건수 가공실적 건수
    정답 추출형 800,000 800,000
    응답 불가형 200,000 200,000
    합계 1,000,000 1,000,000

     

     

    - 카테고리별 분포

    카테고리별 분포
    카테고리 가공실적 건수 비율
    건축 200,470 20.04
    공공행정 63,595 6.35
    과학기술 198,950 19.89
    교육 110,525 11.05
    금융 59,100 5.91
    기타 11,576 5.78
    농수산 57,880 5.35
    문화·스포츠 117,570 11.75
    보건·의료 53,805 5.38
    환경 84,595 8.45
    합계 1,000,000 100

     

    - 행의 개수 분포

    행의 개수 분포
    행의 수 가공실적 건수 비율(%)
    5 ~ 7행 370,755 37.07
    8~ 11행 282,040 28.2
    12 ~ 16행 171,495 17.14
    17행 이상 175,710 17.57
    합계 1,000,000 100

     

    - 머리글 수준 분포

    머리글 수준 분포
    머리글 수준 가공실적 건수 비율(%)
    행 depth1 752,080 75.2
    열 depth1 
    행 depth1 153,910 15.39
    열 depth2
    행 depth2 73,020 7.3
    열 depth1 
    행 depth2 20,990 2.09
    열 depth2 
    합계 1,000,000 100
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ■ AI모델 개요

     

    ● BART 기반 한국어 기계독해 모델 개발

     - BART모델의 한국어 버전인 KoBART를 사용
     - BART는 입력 텍스트 일부에 노이즈를 추가하여 이를 다시 원문으로 복구하는 autoencoder 의 형태로 학습
     - KoBART는 논문에서 사용된 Text Infilling 노이즈 함수를 사용, 40GB 이상의 한국어 텍스트에 대해서 학습한 한국어 encoder-decoder 언어모델.
     - BART 기반 기계독해 모델의 구조 (아래 그림 참조)

    BART 기반 기계독해 모델의 구조 이미지

     

    ■ 서비스 활용 시나리오

     

     - 표 정보 기계독해 학습 모델은 KMS나 검색서비스 등 관련 질의응답 서비스에 활용할 수 있음
     - 검색 엔진이나 자연어 처리 모델 등과 기계독해 모델을 결합하여 표를 포함하는 문서와 가장 유사한 문서를 탐색하고 답변을 추론하여 다양한 형태로 제시할 수 있음 

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 기계독해 질의-응답 정확도 Question Answering Bart F1-Score 0.8 0.8732

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ■ 데이터 구성

    Key Description Type Child Type
    data[].doc_id 문서 번호 string  
    data[].doc_title 문서 제목 string  
    data[].doc_source 문서의 발행기관명 string  
    data[].doc_published 문서의 발행시기
    (YYYYMMDD)
    number  
    data[].created 데이터셋 생성일시
    (YYYYMMDDHH24MISS)
    string  
    data[].doc_class 문서의 분류 정보 object  
    data[].doc_class.code 분류 기준 string  
    data[].paragraphs 분류 기호 string  
    data[].paragraphs[].context_id 지문의 리스트 array  
    data[].paragraphs[].table_title 지문 번호 string  
    data[].paragraphs[].context 표 제목 string  
    data[].paragraphs[].qas 지문 string  
    data[].paragraphs[].qas[].question_id 질의응답set의 리스트 array  
    data[].paragraphs[].qas[].question 질문 번호 string  
    data[].paragraphs[].qas[].is_impossible 질문 string  
    data[].paragraphs[].qas[].answer 질문의 답변 유무 boolean  
    data[].paragraphs[].qas[].answer.answer_start 답변의 시작 위치 number  
    data[].paragraphs[].qas[].answer.text 답변 텍스트 string  

     

     

    ■ JSON 형식

    JSON 형식 이미지


    ■ 어노테이션 포맷

     

     - 메타데이터

    구분 속성명 필수여부 Type 항목 설명 예시
    1 Dataset Y Object 데이터셋 메타데이터  
      1.1 Dataset.Identifier Y String 데이터셋 식별자 TEXT_QnA_Table_01
    1.2 Dataset.name Y String 데이터셋 이름 표 정보 질의응답 데이터
    1.3 Dataset.src_path Y String 데이터셋 폴더 위치 /dataSet/text/
    1.4 Dataset.label_path Y String 데이터셋 레이블 폴더 위치 /dataSet/text/
    1.5 Dataset.category Y number 데이터셋 카테고리 2 (2:질의응답)
    1.6 Dataset.type Y number 데이터셋 타입 0 (0: 텍스트)

     

    - 가공데이터

    구분 속성명 필수여부 Type 항목 설명 예시
    2 data Y array 레코드의 리스트  
      2.1 data[]. doc_id Y string 문서 번호 TB000001
      2.2 data[]. doc_title Y string 문서 제목 IT전문 인력양성
      2.3 data[]. doc_source Y string 문서의 발행기관명 정보통신부
      2.4 data[]. doc_published Y number 문서의 발행시기
    (YYYYMMDD)
    20211110
      2.5 data[]. created Y string 데이터셋 생성일시
    (YYYYMMDDHH24MISS)
    202203071313
      2.6 data[]. doc_class Y object 문서의 분류 정보  
        2.6.1 data[].doc_class. class Y string 분류 기준 중앙행정기관 기능분류체계
        2.6.2 data[].doc_class. code Y string 분류 기호  
      2.7 data[]. paragraphs Y array 지문의 리스트  
        2.7.1 data[]. paragraphs[]. context_id Y string 지문 번호 C_000001
        2.7.2 data[]. paragraphs[]. table_title Y string 표 제목  
        2.7.3 data[]. paragraphs[]. context Y string 지문  
        2.7.4 data[]. paragraphs[]. qas Y array 질의응답 set의 리스트  
          2.7.4.1 data[]. paragraphs[]. qas[]. question_id Y string 질문 번호 Q_00000001
          2.7.4.2 data[]. paragraphs[]. qas[]. question Y string 질문  
          2.7.4.3 data[]. paragraphs[]. qas[]. is_impossible Y boolean 질문의 답변 유무 true :  응답불가형
    false : 정답 있음
          2.7.4.4 data[]. paragraphs[]. qas[]. answer Y object 답변  
            2.7.4.4.1 data[]. paragraphs[]. qas[]. answer. answer_start Y number 답변의 시작 위치  
            2.7.4.4.2 data[]. paragraphs[]. qas[]. answer. text Y string 답변 텍스트  

     

    실제 예시

    데이터셋 메타데이터 예시 이미지 데이터셋 메타데이터 괄호 이미지 데이터셋 메타데이터
    원천데이터 메타데이터 예시 이미지 원천데이터 메타데이터 괄호 이미지 원천데이터 메타데이터
     
    지문 예시 이미지 지문 괄호 이미지 지문
    Table 정답 추출형 예시 이미지 Table 정답 추출형 괄호 이미지 Table 정답 추출형
     
    Table 응답불가형 예시 이미지 Table 응답불가형 괄호 이미지 Table 응답불가형
    예시이미지  
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜유클리드소프트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    윤은희 070-5165-8524 ehyoon@euclidsoft.co.kr 데이터 수집, 정제, 가공, 품질검사
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈔문화체육진흥원 데이터 정제, 가공
    연세대학교 산학협력단 데이터 품질검사
    ㈜포티투마루 데이터 설계, AI모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    윤은희 070-5165-8524 ehyoon@euclidsoft.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.