뉴스 기사 기계독해 데이터
- 분야한국어
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2022-11-15 라벨링데이터 수정 Training 라벨링데이터 수정 1.1 2022-09-16 원천데이터 수정 Training-라벨링데이터 재연결 1.0 2022-07-12 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-10-24 AI 모델 및 AI 모델 매뉴얼 업데이트 2022-07-12 콘텐츠 최초 등록 소개
국내 종합일간지 및 지역신문의 뉴스기사를 지문으로 활용, 자연어 질의 응답으로 이루어진 인공지능 학습 데이터
구축목적
국내 언론사(중앙일보 등 종합일간지 및 지방지)의 뉴스기사를 지문으로 활용하여 4가지 유형의 질문-답변 세트를 생성, 인공지능을 훈련하기 위한 데이터셋
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 txt 데이터 출처 한국언론진흥재단, 중앙일보 라벨링 유형 질의응답(자연어) 라벨링 형식 JSON 데이터 활용 서비스 기계독해 기반 뉴스기사 질의응답 시범서비스는 기계독해 기술을 기반으로 한 인공지능이 이용자의 질문을 이해하고 뉴스기사에서 해당 질문에 대한 답을 찾을 수 있는 서비스 데이터 구축년도/
데이터 구축량2021년/400,056건 -
데이터 통계
1. 데이터 구축 규모원시데이터 : 뉴스기사 총 36만 건, 라벨링 데이터 400,056 건
원시데이터 데이터 종류 데이터 형태 원문 규모 Q/A 유형 원천 데이터 규모 최종 어노테이션 규모 중앙일보 등 국내 종합지 및 지방지 20종 뉴스 텍스트(XML) 36만 건 추출형(서술형) 140,006건 280,014건 추론형(정답 비명시) 20,007건 40,014건 Yes/No 단문형 30,012건 60,026건 응답불가형 10,001건 20,002건 2. 데이터 분포
2. 데이터 분포 주제별 분포 카테고리 데이터 수량 비율 정치 19,173건 9.60% 경제 29,228건 14.60% 사회 50,797건 25.40% 국제(세계) 8,578건 4.30% IT과학 6,588건 3.30% 생활/문화 25,932건 13.00% 지역 38,376건 19.20% 스포츠 8,747건 4.40% 기타 12,607건 6.30% 합계 200,026건 100.00% ※ 뉴스기사 기계독해 데이터셋은 원천 데이터(뉴스기사 지문) 1건에 2건의 질문-답변이 1개의 세트로 구성되어 있으며 주제별 분포는 뉴스기사 지문의 수량을 기준으로 했음지문 길이 분포 지문 길이 분포 구분 데이터 수량 비율 200자 이상~500자 미만 41,143건 20.57% 500자 이상~1000자 미만 94,908건 47.45% 1000자 이상~1500자 미만 43,559건 21.78% 1500자 이상~2000자 미만 20,416건 10.21% 합계 200,026건 100.00% 질문의 다양성 질문의 다양성 육하원칙 의문사 데이터 수량 비율 육하원칙-비율 누가 누가 17,501건 4.37% 12.60% 누구 33,070건 8.27% 누굴 10건 0.00% 누군지 0.00% 언제 언제 25,322건 6.33% 6.30% 어디 어디 60,614건 15.15% 15.20% 어딜 0.00% 무엇 몇 11,936건 2.98% 49.40% 며칠 288건 0.07% 며칟날 0.00% 무슨 4,705건 1.18% 무엇 6,982건 1.75% 무얼 26건 0.01% 뭐 52,322건 13.08% 뭘 3,714건 0.93% 뭔 4건 0.00% 얼마 45,721건 11.43% 얼만큼 6건 0.00% 어떤 49,841건 12.46% 어느 22,215건 5.55% 왜 왜 839건 0.21% 0.20% 어째서 11건 0.00% 어찌하여 0.00% 어떻게 어떻 4,745건 1.19% 1.20% 어떠 73건 0.02% 어땠 42건 0.01% 어때 38건 0.01% 어떨 5건 0.00% yes/no ㅡ 60,026건 15.00% 15.00% 합계 400,056건 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드AI모델 개요
- 다중 태스크 학습(Multi-Task Learning, MTL)은 여러 태스크를 동시에 학습하는 동안 각 작업의 공통점과 차이점을 활용하는 기계학습의 하위 필드임
- 기계학습에서의 다중 태스크 학습은 인간이 새로운 것을 학습할 때 기존에 학습했던 비슷한 경험을 이용해 보다 빠르게 학습하는 것에 아이디어를 얻음
- 다중 태스크 학습은 학습하는 모든 태스크의 성능을 향상시키는 것을 목표로 한다는 점에서, source task와 target task가 구분되어 target task에서의 성능 향상을 목표로 하는 전이학습(transfer learning)과 구분
<데이터 통합 기계독해 모델>
서비스 활용 시나리오
- 뉴스기사 기계독해 학습 모델은 KMS(Knowledge Management System)나 검색 서비스 등 뉴스 관련 질의응답 서비스에 활용할 수 있음
- 검색 엔진이나 자연어 처리 모델 등과 기계독해 모델을 결합하여 뉴스기사의 데이터베이스로부터 질의와 가장 유사한 문서를 탐색하고 답변을 추론하여 다양한 형태로 제시할 수 있음
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 기계독해 질의-응답 정확도 Question Answering ELECTRA F1-Score 0.78 점 0.8464 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드데이터 설명
- 추출형(서술형)
문서 제목 문서 제목 농업인 역량 강화, 새해 실용교육 실시 문서의 발행기관명 경기일보 분류 기준 지역 문서의 발행시기 2020.05.19 지문 양주시는 다음달 1일부터 지역 내 결혼이민자와 영주권자에게 재난기본소득을 확대 지급한다고 밝혔다. 양주시는 올해 5월4일 0시 이전부터 신청일 현재까지 양주시에 외국인등록이 돼있는 결혼이민자와 영주권자에게 재난기본소득으로 1인당 20만원을 지급한다. 이는 지난 18일 제317회 양주시의회 임시회에서 재난기본소득 지급대상에 결혼이민자와 영주권자를 포함하는 양주시 재난기본소득 지급조례 일부 개정조례안이 통과된데 따른 것이다. 결혼이민자와 영주권자는 다음달 1일부터 7월 31일까지 주소지 읍면동 행정복지센터를 방문해 신청서와 영주증ㆍ외국인등록증 등 신분증, 개인정보 활용 동의서, 기타 가족관계증명서 등을 제출해야 하며 한국인의 배우자(F-2-1), 결혼이민(F-6) 이외 결혼이민자의 경우 혼인관계증명서가 추가로 필요하다. 혼잡 예방을 위해 다음달 5일까지는 평일 5부제를 운영하며 이후 생년 끝자리와 관계없이 신청할 수 있다. 신청은 5일까지는 평일 오전 9시~저녁 8시, 8일부터는 평일 오전 9시부터 저녁 6시까지다. 지급된 선불카드는 외국인등록 체류지 관할 지자체 내 연매출 10억원 이하 소상공인 매장에서 사용할 수 있으며 8월 31일까지 모두 사용해야 한다. 양주시 관계자는 “양주시민으로 삶을 영위하고 있는 결혼이민자와 영주권자에게도 재난기본소득을 확대 지급하기로 결정했다”며 “재난기본소득 지급 확대가 다문화가족 구성원의 생활안정과 사회통합, 침체된 지역경제 회복의 밑거름이 되었으면 한다”고 말했다. 질문1 답변 텍스트1 관내 거주 중인 결혼이민자와 영주권자에게 재난기본소득을 지원하기로 한 지자체가 어디야 양주시 질문2 답변 텍스트2 어디에서 관내 결혼이민자와 영주권자에게도 재난기본소득을 주기로 했어 양주시 - Yes/No 단문형
Yes/No 단문형 문서 제목 민주당 새 당대표에 86맏형 송영길…최고위원은 ‘친문’ 강화 문서의 발행기관명 국민일보 분류 기준 정치 문서의 발행시기 2021.05.02 지문 2022년 대통령 선거를 진두지휘할 여당의 신임 당대표에 5선 송영길 의원이 당선됐다. 함께 치러진 최고위원 선거에서는 김용민 강병원 백혜련 김영배 전혜숙 의원이 당원들의 선택을 받았다. 더불어민주당 당원들은 당대표 선거에서는 ‘쇄신’을 강조한 송 의원에게, 최고위원 선거에서는 문재인정부의 성공적인 마무리를 위한 ‘친문(친문재인) 지도부’ 구성에 힘을 실어준 것으로 평가된다. 2일 서울 여의도 당사에서 열린 민주당 임시 전국대의원회의에서 송 신임 대표는 총득표율 35.60%로 홍영표 의원을 불과 0.59%포인트 차로 누르고 당권을 손에 쥐었다. 2위 홍 의원은 권리당원 투표에서 송 의원을 앞섰지만, 반영율이 더 큰 대의원 투표에서 밀렸다. 송 신임 대표는 전당대회 직후 수락연설에서 “유능한 개혁, 언행일치의 민주당을 만들어 국민의 삶을 지켜내고, 국민의 마음을 얻겠다”며 “자랑스런 대선 주자들과 소통하면서 대선 경선을 공정하게 관리하겠다”고 강조했다. 최고위원 선거에서는 민주당 초선모임 ‘처럼회’ 멤버로 중대범죄수사청 설치 등을 주장해 온 강성 친문 김용민 의원이 가장 많은 표를 얻었다. 역시 친문 진영으로 분류되는 강병원(재선) 김영배(초선) 전혜숙(3선) 의원이 지도부에 입성했다. 비주류 진영은 ‘조국 사태’ 등에 대해 쓴소리를 했던 재선의 백혜련 의원이 유일하다. 송 신임 대표가 ‘범친문’으로 분류되긴 하지만 이번 전대기간 당의 전면적 쇄신을 요구해왔고, 친문 강성 지지층에 대한 쓴소리도 아끼지 않았다는 점에서 당내 긴장 상황이 조성될 수 있다는 우려가 일각에서 나온다. 특히 친문 핵심인 윤호중 원내대표는 물론 선출직 최고위원 5명 중 4명이 친문 진영인 상황에서 이들과 얼마나 호흡을 맞출 수 있느냐도 정치권의 관심사다. 1963년 전남 고흥에서 태어난 송 신임 대표는 인천 계양을에서 16대, 17대, 18대, 20대, 21대 국회의원을 지냈다. 2010년부터 4년간 인천시장을 역임했다. 질문1 답변 텍스트 및 답변 근거 텍스트1 처음 국회의원 직을 수행하는 민주당 의원들의 모임은 처럼회야 답변 Yes 텍스트 답변 근거 텍스트 최고위원 선거에서는 민주당 초선모임 ‘처럼회’ 멤버로 중대범죄수사청 설치 등을 주장해 온 강성 친문 김용민 의원이 가장 많은 표를 얻었다. 질문2 답변 텍스트 및 답변 근거 텍스트2 처럼회는 처음으로 국회의원 직무를 수행하는 민주당 의원들의 모임이야 답변 Yes 텍스트 답변 근거 텍스트 최고위원 선거에서는 민주당 초선모임 ‘처럼회’ 멤버로 중대범죄수사청 설치 등을 주장해 온 강성 친문 김용민 의원이 가장 많은 표를 얻었다. - 추론형(정답 비명시)
추론형(정답 비명시) 문서 제목 한남대, 학제개편 경쟁력 강화 나서 문서의 발행기관명 충청일보 분류 기준 IT과학 문서의 발행시기 2021.03.25 지문 한남대가 첨단학과의 신ㆍ증설과 특성화, 융ㆍ복합교육을 강화해 대학 경쟁력을 높인다. 한남대학교는 4차 산업혁명시대의 사회 변화에 대응하고 학생ㆍ산업계의 수요에 부응하기 위해 학제 개편에 나섰다고 25일 밝혔다. 한남대에 따르면, 2022학년도에 가칭 '스마트융합대학'과 '아트&디자인테크놀로지대학' 등 2개의 단과대학을 신설한다. 스마트융합대학은 사회적 수요가 급증하는 소프트웨어와 IT, 빅데이터 분야의 컴퓨터공학과, 산업경영공학과, AI융합학과, 수학과, 빅데이터응용학과 등 공학ㆍ이학ㆍ사회 계열의 학과들이 함께 소속돼 전공 간 시너지 효과를 극대화하게 된다. '아트&디자인테크놀로지대학'은 융합디자인학과와 회화과, 의류학과, 미디어영상학과 등으로 구성된다. 명칭에서 드러나듯 이 단과대학은 기존 조형예술학부 학과들의 예술성에 공과대학 미디어영상학과가 합류해 테크놀로지가 더해진 것이다. 예술ㆍ디자인 감각과 더불어 디지털 영상 기술을 복합적으로 갖춘 창의적 인재를 양성할 것으로 기대된다. 한남대는 최근 교육부의 첨단학과 승인을 받은 '바이오제약공학과'를 생명ㆍ나노과학대학 내에 신설해 올해부터 40명의 신입생을 선발한다. 바이오분야 학과와 교수 연구 분야의 강점을 극대화하고 국내외 연구소, 기업 등과 협업을 통해 앞으로 예측되는 IT와 바이오 융합에 의한 5차 산업혁명에 선제적으로 대처하겠다는 전략이다. 기존 학과의 커리큘럼 조정과 유망 분야를 강화하는 전략도 함께 추진된다. 경상대학의 컨벤션호텔경영학과는 '호텔항공경영학과'로 명칭이 변경돼 항공 분야가 강화된다. 영어로 수업하는 국제학부인 린튼글로벌비즈니스스쿨을 '린튼글로벌스쿨'로 이름을 바꾸고 글로벌비즈니스전공과 글로벌미디어ㆍ컬쳐 전공으로 세분화해 학생들의 선택 폭을 확대한다. 질문1 답변 텍스트 및 답변 근거 텍스트1 한남대에 새로 생기는 단과대 중에, 첨단 기술을 활용한 미술 창작 능력을 기를 수 있는 곳은 어디야 답변 아트&디자인테크놀로지대학 텍스트 답변 근거 텍스트 ‘아트&디자인테크놀로지대학'은 융합디자인학과와 회화과, 의류학과, 미디어영상학과 등으로 구성된다. 명칭에서 드러나듯 이 단과대학은 기존 조형예술학부 학과들의 예술성에 공과대학 미디어영상학과가 합류해 테크놀로지가 더해진 것이다. 질문2 답변 텍스트 및 답변 근거 텍스트2 한남대는 첨단 기술로 미술 창작을 할 수 있는 인재를 육성하기 위해 어떤 단과대를 신설했어 답변 아트&디자인테크놀로지대학 텍스트 답변 근거 텍스트 ‘아트&디자인테크놀로지대학'은 융합디자인학과와 회화과, 의류학과, 미디어영상학과 등으로 구성된다. 명칭에서 드러나듯 이 단과대학은 기존 조형예술학부 학과들의 예술성에 공과대학 미디어영상학과가 합류해 테크놀로지가 더해진 것이다. - 응답불가형
응답불가형 문서 제목 “코로나 변이 대응 무기 확보"… 美FDA, GSK-비어 항체치료제 승인 문서의 발행기관명 한국일보 분류 기준 국제 문서의 발행시기 2021.02.25 지문 미국 식품의약국(FDA)이 26일(현지시간) 글락소스미스클라인(GSK)과 비어 바이오테크놀로지가 공동 개발한 신종 코로나바이러스 감염증(코로나19) 항체 치료제의 긴급사용을 승인했다.로이터통신 등에 따르면 이날 FDA는 경증이나 보통 증상을 보이는 12세 이상 코로나19 환자에 대해 GSK-비어의 항체 치료제인 ‘소트로비맙’을 사용하는 것을 허락했다. 하지만 코로나19로 입원하거나 산소치료가 필요한 중증 환자에 대해서는 이 제품 사용이 승인되지 않았다. 패트리시아 카바조니 FDA 약품평가연구센터장은 “미국에서 변이 바이러스 확산을 막기 위해 항체 치료제라는 무기를 확보했다”고 설명했다.앞서 유럽의약품청(EMA)도 21일 중증 위험이 있지만 산소치료가 필요 없는 환자에 제한한다는 조건으로 소트로비맙 사용을 승인했다.이 치료제는 코로나19 환자 583명을 대상으로 진행한 임상 3상 시험의 중간 분석 결과 입원 또는 사망 위험을 85% 감소시키는 것으로 나타났다. 현재 유행하는 변이 바이러스에 대해서도 효과가 유지됐다는 게 업체 측 주장이다.항체 치료제는 백신과 더불어 코로나19 확산 억제와 피해 완화에 도움을 주는 의약품이다. 코로나19 완치자의 혈액에서 바이러스 중화 능력이 가장 센 항체를 선별하고 그 유전자를 삽입한 세포를 배양해 대량 생산한다. 지난해 도널드 트럼프 미 대통령과 측근인 루디 줄리아니 변호사 등의 코로나19 치료에 사용됐다.FDA의 코로나19 항체 치료제 사용 승인이 처음은 아니다. 지난해 리제네론과 일라이릴리가 각각 개발한 항체 치료제 2개 종의 긴급사용을 승인한 바 있다. 질문1 답변 텍스트1 도널드 트럼프 미 대통령의 치료에 사용한 항체 치료제는 뭐야 소트로비맙 질문2 답변 텍스트2 어떤 항체 치료제가 트럼프 미국 대통령 치료에 쓰였어 소트로비맙 - JSON 형식
데이터 구성
- 메타데이터
메타데이터 구분 메타데이터 항목명 타입 필수여부 설명 범위 비고 1 Dataset Object Y 데이터셋 정보 1.1 Identifier String Y 데이터셋 식별자 1.2 name String Y 데이터셋 이름 1.3 src_path String Y 데이터셋 폴더 위치 1.4 label_path String Y 데이터셋 레이블 폴더 위치 1.5 category Number Y 데이터셋 카테고리 1.6 type Number Y 데이터셋 타입 - 어노테이션 포맷
어노테이션 포맷 구분 항목명 타입 필수여부 설명 범위 비고 1 Dataset object Y 데이터셋 메타데이터 1.1 Dataset.Identifier string Y 데이터셋 식별자 TEXT_QnA_News_01 1.2 Dataset.name string Y 데이터셋 이름 뉴스기사 대상 기계독해 데이터 1.3 Dataset.src_path string Y 데이터셋 폴더 위치 /dataSet/text/ 1.4 Dataset.label_path string Y 데이터셋 레이블 폴더 위치 /dataSet/text/ 1.5 Dataset.category number Y 데이터셋 카테고리 2 (2:질의응답) 1.6 Dataset.type number Y 데이터셋 타입 0 (0: 텍스트) 2 data array Y 레코드의 리스트 2.1 data[].doc_id string Y 문서 번호 2.2 data[].doc_title string Y 문서 제목 2.3 data[].doc_source string Y 문서의 발행기관명 한국일보 2.4 data[].doc_published number Y 문서의 발행시기 YYYYMMDD 2.5 data[].created string Y 데이터셋 생성일시 YYYYMMDDHH24MISS 2.6 data[].doc_class object Y 문서의 분류 정보 2.6.1 data[].doc_class.class string Y 분류 기준 2.6.2 data[].doc_class.code string Y 분류 기호 경제 2.7 data[].paragraphs array Y 지문의 리스트 2.7.1 data[].paragraphs[].context_id string Y 지문 번호 C_00000001 2.7.2 data[].paragraphs[].context string Y 지문 2.7.3 data[].paragraphs[].qas array Y 질의응답 쌍의 리스트 2.7.3.1 data[].paragraphs[].qas[].qa_type number Y 데이터셋 유형 1: 추출형(서술형), 4: 추론형(정답 비명시), 5: Yes/No 단문형, 7: 응답 불가형 2.7.3.2 data[].paragraphs[].qas[].question_id string Y 질문 번호 Q_00000001 2.7.3.3 data[].paragraphs[].qas[].question string Y 질문 2.7.3.4 data[].paragraphs[].qas[].is_impossible boolean Y 질문의 답변 유무 true: 응답 불가형 false: 정답 있음 2.7.3.5 data[].paragraphs[].qas[].answer object Y 답변 2.7.3.5.1 data[].paragraphs[].qas[].answer.answer_start number N 답변의 시작 위치 5: Yes/No 단문형은 답변을 태깅하지 않아, 답변의 시작 위치가 필수항목이 아님 2.7.3.5.2 data[].paragraphs[].qas[].answer.text string Y 답변 텍스트 2.7.3.5.3 data[].paragraphs[].qas[].answer.options array N 다지선다형 행정문서 기계독해 데이터셋 유형으로 보기 답변 뉴스기사 기계독해는 해당 없음 2.7.3.5.4 data[].paragraphs[].qas[].answer.clue_text string N 답변 근거 텍스트 아래 유형은 답변근거를 지정하지 않아 답변 근거 텍스트가 필수 항목이 아님 1: 추출형(서술형), 7: 응답불가형 2.7.3.5.5 data[].paragraphs[].qas[].answer.clue_start number N 답변 근거의 시작 위치 아래 유형은 답변근거를 지정하지 않아 답변 근거 시작 위치가 필수 항목이 아님 1: 추출형(서술형), 7: 응답불가형 라벨링 데이터 실제 예시
- 추출형(서술형)
추출형(서술형) {
"doc_id": "01200101.20200520184056001",
"doc_title": "양주시, 결혼이민자와 영주권자에게도 재난기본소득 20만원 지급",
"doc_source": "경기일보",
"doc_published": 20200519,
"doc_class": {
"class": "한국언론진흥재단 빅카인즈 뉴스기사",
"code": "지역"
},
"created": "20211217143739",
"paragraphs": [
{
"context": "양주시는 다음달 1일부터 지역 내 결혼이민자와 영주권자에게 재난기본소득을 확대 지급한다고 밝혔다. 양주시는 올해 5월4일 0시 이전부터 신청일 현재까지 양주시에 외국인등록이 돼있는 결혼이민자와 영주권자에게 재난기본소득으로 1인당 20만원을 지급한다. 이는 지난 18일 제317회 양주시의회 임시회에서 재난기본소득 지급대상에 결혼이민자와 영주권자를 포함하는 양주시 재난기본소득 지급조례 일부 개정조례안이 통과된데 따른 것이다. 결혼이민자와 영주권자는 다음달 1일부터 7월 31일까지 주소지 읍면동 행정복지센터를 방문해 신청서와 영주증ㆍ외국인등록증 등 신분증, 개인정보 활용 동의서, 기타 가족관계증명서 등을 제출해야 하며 한국인의 배우자(F-2-1), 결혼이민(F-6) 이외 결혼이민자의 경우 혼인관계증명서가 추가로 필요하다. 혼잡 예방을 위해 다음달 5일까지는 평일 5부제를 운영하며 이후 생년 끝자리와 관계없이 신청할 수 있다. 신청은 5일까지는 평일 오전 9시~저녁 8시, 8일부터는 평일 오전 9시부터 저녁 6시까지다. 지급된 선불카드는 외국인등록 체류지 관할 지자체 내 연매출 10억원 이하 소상공인 매장에서 사용할 수 있으며 8월 31일까지 모두 사용해야 한다. 양주시 관계자는 “양주시민으로 삶을 영위하고 있는 결혼이민자와 영주권자에게도 재난기본소득을 확대 지급하기로 결정했다”며 “재난기본소득 지급 확대가 다문화가족 구성원의 생활안정과 사회통합, 침체된 지역경제 회복의 밑거름이 되었으면 한다”고 말했다.",
"qas": [
{
"qa_type": 1,
"question_id": 5807781,
"question": "관내 거주 중인 결혼이민자와 영주권자에게 재난기본소득을 지원하기로 한 지자체가 어디야",
"is_impossible": false,
"answers": {
"text": "양주시",
"answer_start": 0,
"clue_start": null,
"clue_text": null,
"options": null
}
},
{
"qa_type": 1,
"question_id": 5807782,
"question": "어디에서 관내 결혼이민자와 영주권자에게도 재난기본소득을 주기로 했어",
"is_impossible": false,
"answers": {
"text": "양주시",
"answer_start": 0,
"clue_start": null,
"clue_text": null,
"options": null
}
}
],
"context_id": 1116854
}
]
}- 추론형(정답 비명시) 실제예시
추론형(정답 비명시) 실제예시 {
"doc_id": "01101101.20210423120715001",
"doc_title": "경기 평당 전셋값 1위 분당... 5년 만에 과천 제쳤다",
"doc_source": "한국일보",
"doc_published": 20210423,
"doc_class": {
"class": "한국언론진흥재단 빅카인즈 뉴스기사",
"code": "경제"
},
"created": "20211217144038",
"paragraphs": [
{
"context": "성남시 분당구가 과천시를 제치고 경기 아파트 3.3㎡(평)당 평균 전세 최고가를 기록했다. 반면 그간 경기 지역 평당 평균 전세가 1위였던 과천시는 최근 들어 가격이 하락하는 양상을 보이고 있다.23일 부동산 정보제공업체 경제만랩에 따르면 지난달 기준 분당구 3.3㎡당 아파트 평균 전세가격은 2,647만6,000원으로 집계됐다. 그전까지 1위였던 과천시는 2,636만2,000원에 머무르면서 4년 10개월 만에 순위가 바뀌었다.지난해까지만 해도 과천시 전셋값은 고공행진을 했다. 작년 3월 기준 과천시 3.3㎡당 아파트 평균 전세는 2,688만5,000원이었다. 분당구는 같은 시기 1,917만4,000원으로 차이가 컸다. 그러나 지난해 7월 새 임대차보호법이 시행되고 전세 매물이 감소하면서 분당구 아파트 전셋값이 크게 오른 것이다.실거래가에서도 같은 흐름이 나타나고 있다. 국토교통부에 따르면 분당구 야탑동 ‘장미마을(동부)’ 전용면적 84.99㎡는 지난해 3월 4억7,000만 원에 전세 계약이 체결됐으나, 올해 3월에는 7억8,000만 원에 거래됐다. 1년간 전셋값이 3억1,000만 원 치솟은 것이다. 반면에 과천시 원문동 ‘래미안 슈르’ 전용면적 116.99㎡는 지난해 3월 9억5,000만 원에서 올해 3월 8억9,250만 원으로 5,750만 원 떨어졌다.황한솔 경제만랩 리서치연구원은 “과천은 지식정보타운 아파트 분양을 노린 청약 수요자들이 빠져 나갔고 입주물량도 증가해 전세가격이 조정을 받고 있다”며 “분당의 경우 신분당선으로 강남과의 접근성이 우수한데다 최근 판교를 중심으로 고소득 주거층이 형성되면서 전셋값도 상승세”라고 설명했다.",
"qas": [
{
"qa_type": 4,
"question_id": 4873872,
"question": "전세 가격으로 과천을 넘어선 도시에서 아파트 전셋값이 상승한 이유는 뭐야",
"is_impossible": false,
"answers": {
"text": "새 임대차보호법이 시행되고 전세 매물이 감소하면서",
"answer_start": 363,
"clue_start": 352,
"clue_text": "그러나 지난해 7월 새 임대차보호법이 시행되고 전세 매물이 감소하면서 분당구 아파트 전셋값이 크게 오른 것이다.",
"options": null
}
},
{
"qa_type": 4,
"question_id": 5004942,
"question": "전세 가격으로 과천을 넘어선 도시에서 아파트 전셋값이 상승한 이유는 어떤 거야",
"is_impossible": false,
"answers": {
"text": "새 임대차보호법이 시행되고 전세 매물이 감소하면서",
"answer_start": 363,
"clue_start": 352,
"clue_text": "그러나 지난해 7월 새 임대차보호법이 시행되고 전세 매물이 감소하면서 분당구 아파트 전셋값이 크게 오른 것이다.",
"options": null
}
}
],
"context_id": 662548
}
]
},- Yes/No 단문형 실제예시
Yes/No 단문형 실제예시 {
"doc_id": "01100201.20210502175653001",
"doc_title": "민주당 새 당대표에 86맏형 송영길…최고위원은 ‘친문’ 강화",
"doc_source": "국민일보",
"doc_published": 20210502,
"doc_class": {
"class": "한국언론진흥재단 빅카인즈 뉴스기사",
"code": "정치"
},
"created": "20211217144113",
"paragraphs": [
{
"context": "2022년 대통령 선거를 진두지휘할 여당의 신임 당대표에 5선 송영길 의원이 당선됐다. 함께 치러진 최고위원 선거에서는 김용민 강병원 백혜련 김영배 전혜숙 의원이 당원들의 선택을 받았다. 더불어민주당 당원들은 당대표 선거에서는 ‘쇄신’을 강조한 송 의원에게, 최고위원 선거에서는 문재인정부의 성공적인 마무리를 위한 ‘친문(친문재인) 지도부’ 구성에 힘을 실어준 것으로 평가된다. 2일 서울 여의도 당사에서 열린 민주당 임시 전국대의원회의에서 송 신임 대표는 총득표율 35.60%로 홍영표 의원을 불과 0.59%포인트 차로 누르고 당권을 손에 쥐었다. 2위 홍 의원은 권리당원 투표에서 송 의원을 앞섰지만, 반영율이 더 큰 대의원 투표에서 밀렸다. 송 신임 대표는 전당대회 직후 수락연설에서 “유능한 개혁, 언행일치의 민주당을 만들어 국민의 삶을 지켜내고, 국민의 마음을 얻겠다”며 “자랑스런 대선 주자들과 소통하면서 대선 경선을 공정하게 관리하겠다”고 강조했다. 최고위원 선거에서는 민주당 초선모임 ‘처럼회’ 멤버로 중대범죄수사청 설치 등을 주장해 온 강성 친문 김용민 의원이 가장 많은 표를 얻었다. 역시 친문 진영으로 분류되는 강병원(재선) 김영배(초선) 전혜숙(3선) 의원이 지도부에 입성했다. 비주류 진영은 ‘조국 사태’ 등에 대해 쓴소리를 했던 재선의 백혜련 의원이 유일하다. 송 신임 대표가 ‘범친문’으로 분류되긴 하지만 이번 전대기간 당의 전면적 쇄신을 요구해왔고, 친문 강성 지지층에 대한 쓴소리도 아끼지 않았다는 점에서 당내 긴장 상황이 조성될 수 있다는 우려가 일각에서 나온다. 특히 친문 핵심인 윤호중 원내대표는 물론 선출직 최고위원 5명 중 4명이 친문 진영인 상황에서 이들과 얼마나 호흡을 맞출 수 있느냐도 정치권의 관심사다. 1963년 전남 고흥에서 태어난 송 신임 대표는 인천 계양을에서 16대, 17대, 18대, 20대, 21대 국회의원을 지냈다. 2010년부터 4년간 인천시장을 역임했다. ",
"qas": [
{
"qa_type": 5,
"question_id": 4662422,
"question": "처음 국회의원 직을 수행하는 민주당 의원들의 모임은 처럼회야",
"is_impossible": false,
"answers": {
"text": "Yes",
"answer_start": null,
"clue_start": 494,
"clue_text": "최고위원 선거에서는 민주당 초선모임 ‘처럼회’ 멤버로 중대범죄수사청 설치 등을 주장해 온 강성 친문 김용민 의원이 가장 많은 표를 얻었다. ",
"options": null
}
},
{
"qa_type": 5,
"question_id": 4793492,
"question": "처럼회는 처음으로 국회의원 직무를 수행하는 민주당 의원들의 모임이야",
"is_impossible": false,
"answers": {
"text": "Yes",
"answer_start": null,
"clue_start": 494,
"clue_text": "최고위원 선거에서는 민주당 초선모임 ‘처럼회’ 멤버로 중대범죄수사청 설치 등을 주장해 온 강성 친문 김용민 의원이 가장 많은 표를 얻었다. ",
"options": null
}
}
],
"context_id": 579695
}
]
},- 응답불가형 실제예시
응답불가형 실제예시 {
"doc_id": "01101101.20210527083106001",
"doc_title": "\"코로나 변이 대응 무기 확보\"… 美FDA, GSK-비어 항체치료제 승인",
"doc_source": "한국일보",
"doc_published": 20210527,
"doc_class": {
"class": "한국언론진흥재단 빅카인즈 뉴스기사",
"code": "국제"
},
"created": "20211217144436",
"paragraphs": [
{
"context": "미국 식품의약국(FDA)이 26일(현지시간) 글락소스미스클라인(GSK)과 비어 바이오테크놀로지가 공동 개발한 신종 코로나바이러스 감염증(코로나19) 항체 치료제의 긴급사용을 승인했다.로이터통신 등에 따르면 이날 FDA는 경증이나 보통 증상을 보이는 12세 이상 코로나19 환자에 대해 GSK-비어의 항체 치료제인 ‘소트로비맙’을 사용하는 것을 허락했다. 하지만 코로나19로 입원하거나 산소치료가 필요한 중증 환자에 대해서는 이 제품 사용이 승인되지 않았다. 패트리시아 카바조니 FDA 약품평가연구센터장은 “미국에서 변이 바이러스 확산을 막기 위해 항체 치료제라는 무기를 확보했다”고 설명했다.앞서 유럽의약품청(EMA)도 21일 중증 위험이 있지만 산소치료가 필요 없는 환자에 제한한다는 조건으로 소트로비맙 사용을 승인했다.이 치료제는 코로나19 환자 583명을 대상으로 진행한 임상 3상 시험의 중간 분석 결과 입원 또는 사망 위험을 85% 감소시키는 것으로 나타났다. 현재 유행하는 변이 바이러스에 대해서도 효과가 유지됐다는 게 업체 측 주장이다.항체 치료제는 백신과 더불어 코로나19 확산 억제와 피해 완화에 도움을 주는 의약품이다. 코로나19 완치자의 혈액에서 바이러스 중화 능력이 가장 센 항체를 선별하고 그 유전자를 삽입한 세포를 배양해 대량 생산한다. 지난해 도널드 트럼프 미 대통령과 측근인 루디 줄리아니 변호사 등의 코로나19 치료에 사용됐다.FDA의 코로나19 항체 치료제 사용 승인이 처음은 아니다. 지난해 리제네론과 일라이릴리가 각각 개발한 항체 치료제 2개 종의 긴급사용을 승인한 바 있다.",
"qas": [
{
"qa_type": 7,
"question_id": 4861015,
"question": "도널드 트럼프 미 대통령의 치료에 사용한 항체 치료제는 뭐야",
"is_impossible": true,
"answers": {
"text": "소트로비맙",
"answer_start": 391,
"clue_start": null,
"clue_text": null,
"options": null
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜포티투마루
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김민경 02-6952-9201 mkgenie@42maru.ai 기계독해 AI 모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜나라지식정보 데이터 수집, 데이터 가공 ㈜단아코퍼레이션 데이터 수집, 데이터 정제, 데이터 가공 연세대학교 산학협력단 데이터 품질검수 ㈜유클리드소프트 데이터 저작도구 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김민경 02-6952-9201 mkgenie@42maru.ai
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.