AI-Hub

한국어 지식기반 관계 데이터

분야한국어
유형 텍스트

구축년도 : 2022 갱신년월 : 2024-03 조회수 : 25,790 다운로드 : 1,578 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-03-12	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-04-17	산출물 전체 공개

소개

문장 내 등장하는 개체(Named Entity) 사이의 관계(Relation) 및 그 속성을 라벨링하여, 문맥 속에서 개체 간 관계 등 다양한 분야의 의미 기반 관계 분석이 가능한 인공지능 학습용 데이터셋을 구축함

구축목적

관계 추출에서 엔티티 간의 관계를 올바르게 이해하는지 평가할 수 있는 BERT-Ko-RE, KLUE-RE와 같은 유사한 데이터를 구축하며, 더 넓은 범위의 데이터를 구축하고자 함

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	TXT	데이터 출처	뉴스, 위키, 특허, 논문
라벨링 유형	말뭉치 작성(Triple 셋트 작성)	라벨링 형식	JSON
데이터 활용 서비스	챗봇서비스, 유사도검색서비스 등	데이터 구축년도/ 데이터 구축량	2022년/1,500,000건

■ 데이터 통계
○ 관계 용어별 통계

데이터 통계 - 관계 용어별 통계
relation	COUNT	비율
against	330	0.02%
hasAttribute	224,803	14.99%
inFavorOf	27,991	1.87%
isA	225,577	15.04%
isAgainst	3,345	0.22%
isCausedBy	133,874	8.92%
isChildOf	6,532	0.44%
isColleagueOf	28,126	1.88%
isMemberOf	115,581	7.71%
isOpponentOf	13,277	0.89%
isParentOf	6,782	0.45%
isPartOf	225,500	15.03%
isPlaceOf	49,253	3.28%
isRelativeOf	4,018	0.27%
isSiblingOf	5,059	0.34%
isSpouseOf	8,125	0.54%
isTimeOf	60,324	4.02%
isToBe	98,292	6.55%
isUsedFor	113,211	7.55%
no-Relation	150,000	10.00%
계	1,500,000	100.00%

관계 용어별 통계 그래프 이미지

○ 분야별 통계

데이터 통계 - 분야별 통계
일반		뉴스	위키
	IT_과학	29,417	105,151
	경제	21,582	60,741
	국제	26,505	48,922
	문화	11,964	169,891
	스포츠	16,207	40,964
	연예	29,881	92,041
	정치	44,358	65,662
	지역_사회	28,826	180,469
일반 소계		208,740	763,841
일반 총계		972581
전문		논문	특허
	기계공학	5,102	52,263
	사회과학	16,310	-
	의약학	20,556	203,834
	인문학	17,126	-
	전기전자	7,985	204,243
전문 소계		67,079	460,340
전문 총계		527419

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

■ 활용 모델
○ 학습 모델

활용 모델 - 학습 모델
모델명	방식	관련 링크
RoBERTa	학습 및 테스트	https://klue-benchmark.com/

○ 학습 조건

활용 모델 - 학습 조건
분류	비율
학습 데이터	80%
검증 데이터	10%
테스트 데이터	10%

○ 학습 환경

활용 모델 - 학습 환경(하드웨어)
	분류	모델명	갯수
하드웨어	CPU	Intel Xeon Processor (Skylake, IBRS)	1
	GPU	Tesla V100	1
	RAM	32GB	6

활용 모델 - 학습 환경(소프트웨어)
	분 류	버 전
소프트웨어	운영체제	Ubuntu 16.04.6 LTS
소프트웨어	CUDA	10.1

○ 학습모델 검증 및 평가 방법

활용 모델 - 학습모델 검증 및 평가 방법
모델	방식	성능지표	설명
RoBERTa	학습 및 테스트	Micro-F1-Score	학습 데이터, 검증 데이터, 테스트 데이터를 8:1:1로 랜덤 샘플링하여 데이터를 나누고, 학습시 검증 데이터를 활용하여 제일 좋은 모델을 선별한 다음 최종적으로 테스트 데이터로 Micro-F1-Score를 산출한다.
RoBERTa	학습 및 테스트	Micro-F1-Score

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	관계 추출 정확성	Estimation	klue/roberta-large	F1-Score	0.65 점	0.802 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

■ 데이터 설명
○ 원천데이터
- 위키와 뉴스 데이터의 일반분야와, 논문, 특허의 전문분야로 구분하여 일반분야 100만건, 전문분야 50만건 구축.
- 원천데이터를 수집한 후 작업자가 작업이 가능한 형태로 문장을 분리하고, 특수문자 등 불필요한 요소들을 제거하여 Triple Set 구성이 가능한 형태로 원천데이터 작성.

○ 데이터 구축
- 작업자는 제시된 원천데이터로부터 Triple Set 구성이 가능한 문장을 선택
- 해당 문장에서 subj_word, obj_word, 및 각 엔티티의 속성(subj_prop, obj_prop)를 선택
- 각 엔티티의 속성에 맞는 관계(relation)을 라벨링

■ 데이터 구성

데이터 구성
항목	설정
항목	타입	유효값	null	설명
id	integer		n	트리플 고유번호
doc_type	string	"위키", "논문",	n	원천데이터 문서 유형[wiki, patent, article, news]
doc_type	string	"특허", "뉴스"	n	원천데이터 문서 유형[wiki, patent, article, news]
doc_id	string		n	원천데이터 문서 관리번호
title	string		n	문서 제목
date	string		n	문서 공개일[특허: 출원일, 논문: 출판일, wiki: 등록일, news: 공개일]
publisher	string		n	특허: 특허청, Wiki: wiki, 논문: 학회명, 뉴스: 언론사명
reg_no	string		y	특허: 등록번호, Wiki: wiki문서 ID
reg_no	string		y	(특허청 작성 기준에 따름)
ipc	string		y	국제특허분류(특허청 작성 기준에 따름)
field	string	"IT_과학", "경제", "국제", "문화", "스포츠", "연예", "정치", "지역_사회", "인문학", "사회과학", "기계공학", "의약학", "전기전자"	n	문서의 분야
subfield	string		y	문서 분야 중분류(필수아님, 특허, 논문의 경우 중분류 가능)
sentence	string		n	작업 대상인 1문장
subj_start	integer		n	Subject 개체의 시작점
subj_end	integer		n	Subject 개체의 종료점
obj_start	integer		n	Object 개체의 시작점
obj_end	integer		n	Object 개체의 종료점
subj_word	string		n	Subject 개체
subj_prop	string	"PS", "OG", "AF", "CV", "EV", "LC", "AM", "PT", "DT", "MT", "TM"	n	Subject 개체 속성
obj_word	string		n	Object 개체
obj_prop	string	"PS", "OG", "AF", "CV", "EV", "LC", "AM", "PT", "DT", "MT", "TM"	n	Object 개체 속성
relation	string	"isA", "isPartOf", "isMemberOf", "isCausedBy", "hasAttribute",	n	Subject, Object 관계
		"isParentOf", "isChildOf",
		"isSiblingOf", "isSpouseOf",
		"isRelativeOf", "isColleagueOf", "isOpponentOf",
		"noRelation",
		"isUsedFor", "inFavorOf",
		"against", "isPlaceOf",
		"isTimeOf", "isToBe",

■ 어노테이션 포멧

어노테이션 포멧
구분	속성명	타입	필수	설명
1	id	integer	y	트리플 고유번호
2	doc_type	string	y	원천데이터 문서 유형[위키, 특허, 논문, 뉴스]
3	doc_id	string	y	원천데이터 문서 번호
4	title	string	y	문서 제목
5	date	string	y	문서 공개일[특허: 출원일, 논문: 출판일, wiki: 등록일, news: 공개일]
6	publisher	string	y	특허: 특허청, Wiki: wiki, 논문: 학회명, 뉴스: 언론사명
7	reg_no	string	y	특허: 등록번호, Wiki: wiki문서 ID
8	ipc	string	y	국제특허분류
9	field	string	y	문서의 분야
10	subfield	string	y	문서 분야 중분류(필수아님)
11	sentence	string	y	작업 대상인 1문장
12	subj_start	integer	y	Subject 개체의 시작점
13	subj_end	integer	y	Subject 개체의 종료점
14	obj_start	integer	y	Object 개체의 시작점
15	obj_end	integer	y	Object 개체의 종료점
16	subj_word	string	y	Subject 개체
17	subj_prop	string	y	Subject 개체 속성
18	obj_word	string	y	Object 개체
19	obj_prop	string	y	Object 개체 속성
20	relation	string	y	Subject, Object 관계

■ 실제 예시

실제 예시 이미지

데이터셋 구축 담당자

수행기관(주관) : ㈜비네아

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
윤철웅	042-716-0095	yuncw@vinea.co.kr	사업관리, 라벨링 데이터 구축

수행기관(참여)

수행기관(참여)
기관명	담당업무
이지메타(주)	원시데이터 수집 및 정제, 라벨링 데이터 구축
㈜무하유	유효성 검증

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
윤철웅	042-716-0095	yuncw@vinea.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의