AI-Hub

#자연어

NEW 문장 유형(추론, 예측 등) 판단 데이터

분야한국어
유형 텍스트

구축년도 : 2022 갱신년월 : 2023-11 조회수 : 4,759 다운로드 : 473 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-11-10	데이터 최종 개방
1.0	2023-07-26	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-01-17	산출물 전체 공개

소개

ㅇ 문장 유형(추론, 예측 등) 판단 데이터 16만 5천 문장 이상 구축
ㅇ 역사, 사회, 금융, 문화, IT·과학, 생활·건강 카테고리에 해당하는 원시데이터를 수집·정제, 라벨링하여 인공지능 기술 개발에 필요한 학습용 문장 유형 데이터셋 구축

 ⋅ 문장 유형 판단 라벨링으로 확실성, 시간성, 긍정/부정 극성 별로 스타일 태그 라벨링
 ⋅ 최고의 전문기업들과의 협업을 통해 문장 유형 판단 학습용 데이터를 안정적으로 구축

구축목적

- 유형을 인공지능이 학습하여 모형화하고 자동화를 통한 판단을 통해 학습 데이터 구축 문장을 유형별로 라벨링을 하고 이를 통해 인공지능이 자연스러운 문장을 구사할 수 있도록 지원하는 것이 구축 목적
인공지능 학습용 데이터 구축에 따라 자연어 정보 문장 데이터 스트리밍, -

- 다운로드 관련 부가서비스 개발, 문장 데이터를 활용한 새로운 뉴스 합성 엔진 개발 등에 활용 기대

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	json, csv, txt	데이터 출처	뉴스, 매거진, 도서, 블로그, 방송대본
라벨링 유형	내용요약(자연어)	라벨링 형식	JSON
데이터 활용 서비스	문장이해, 문장판단, 문장분류, 예측 및 추론 그리고 사실성 확실성 검증	데이터 구축년도/ 데이터 구축량	2022년/165,000개 문장

라벨링 데이터 정보

● 매체별 분포

매체	문서 수	비율
뉴스	4,641	46.31%
매거진	1,628	16.24%
블로그	1,601	15.97%
방송대본	1,427	14.24%
도서	724	7.22%
합계	10,021	100%

● 카테고리별 분포

카테고리	문서 수	비율
사회	3,313	33.06%
생활건강	2,424	24.18%
IT과학	1,605	16.01%
금융	1,215	12.12%
역사	834	8.32%
문화	630	6.28%
합계	10,021	100%

● 생성 기간 분포(항목 1,000개 이상으로 파일 별도 첨부)

생성 연도	문서 수	비율
	51	0.51
2007	67	0.67
2008	421	4.2
2009	301	3
2010	899	8.97
2011	420	4.19
2012	248	2.47
2013	360	3.59
2015	55	0.55
2016	325	3.24
2017	547	5.46
2018	386	3.85
2019	956	9.54
2020	1,588	15.85
2021	867	8.65
2022	2530	25.26
합계	10021	100

● 문장 길이 분포(어절수)

어절수 구간	문장 수
1어절 이상	1,419
3어절 미만	1,419
3어절 이상	8,859
5어절 미만	8,859
5어절 이상	51,229
10어절 미만	51,229
10어절 이상	99,772
30어절 미만	99,772
30어절 이상	4,748
50어절 미만	4,748
50어절 이상	309
100어절 미만	309
100어절 이상	3
계	166,339

● 문장 유형별 극성 분포

라벨	극성	수량	비율
핵심동사	긍정	133,045	79.99%
	미정	16660	10.00%
	부정	16634	10.01%
합계

● 문장 유형별 확실성 분포

라벨	확실성	수량	비율
핵심동사	확실	144,817	87.06%
핵심동사	불확실	21,522	12.93%
합계		166,339	100%

● 문장 유형별 시제 분포

라벨	시제	수량	비율
핵심동사	현재	93,375	56.13%
	과거	46,199	27.77%
	미래	26,765	16.09%
합계		166,339	100%

● 극성 구성별 분류 분포

극성	수량	비율
긍정	133,045	79.98%
미정	16,660	10.02%
부정	16,634	10.00%
합계	166,339	100%

● 문장 유형별 분포

구분	문장 수	비율
사실형	66,382	39.90%
추론형	44,188	26.56%
대화형	43,945	26.41%
예측형	11,824	7.10%
합계	166,339	100%

데이터 통계

1)데이터 구축 규모
ㅇ 뉴스(5만4천 건), 매거진(5만4천 건), 도서(3만6천 건), 블로그(1만8천 건), 방송 대본(1만8천 건) 등 대표적인 5개 매체에서 역사, 사회, 금융, 문화, IT·과학, 생활·건강 등 다양한 카테고리별로 기승전결 흐름으로 문서의 완결성을 갖춘 1만건 이상 문서가 포함된 문장 유형(추론, 예측 등) 판단 데이터 16만 5천 문장 구축
ㅇ 역사(16.7%), 사회(16.7%), 금융(16.7%), 문화(16.7%), IT·과학(16.7%), 생활·건강(16.7%) 카테고리에 해당하는 원시데이터를 수집·정제, 라벨링하여 인공지능 기술 개발에 필요한 학습용 문장 유형 데이터셋 구축
- 문장 유형 판단 라벨링으로 확실성, 시간성, 긍정/부정 극성 별로 스타일 태그 라벨링
- 최고의 전문기업들과의 협업을 통해 문장 유형 판단 학습용 데이터를 안정적으로 구축

1) 문장 유형

구분	내용
사실형	한 개인으로서 학설이나 생각, 신문/잡지 등에서 글쓴이의 주장을 펼치는 문장
사실형	어떤 사안에 대해 한 개인 혹은 조직의 주관적 의견이 반영된 문장
추론형	이미 알고 있는 혹은 확인된 정보로부터 논리적 결론을 도출하는 문장
추론형	어떠한 판단을 근거로 삼아 다른 판단을 이끌어 내는 내용이 있는 문장
예측형	과거의 데이터를 기반으로 미래에 대해 설명하거나 결과에 대한 평가된 예상치가 포함된 문장
대화형	둘 이상의 개인 혹은 조직 간의 상호적인 의사소통의 문장

2) 문장 속성
ㅇ 확실성
- 확실 (출처 확실, 문맥상 사건 발생, 화자 확실 단언)
- 불확실 (출처 불명, 예측, 문맥상 사건 미발생, 가능성만 있고 불확실, 조건절 상정)
ㅇ 시제
- 과거 (사건이 과거에 일어났음)
- 현재 (사건이 현재 일어남)
- 미래 (사건이 미래에 일어날 것임)
ㅇ 극성
- 긍정 (문맥상 사건 발생, 사실로 밝혀짐, 사건성립, 예측 성립 후 사건 발생, 사태 성립, 조건부 사건 성립)
- 부정 (문맥상 사건 미발생, 문장 문맥상 거짓으로 밝혀짐, 예측 성립 후 사건 미발생, 의미상 사건 미발생)
- 미정 (진행 중 조사 중, 문맥상 미정, 문맥상 참 / 거짓 불명확)

2) 데이터 분포

특성	항목명	측정 지표	정량 목표			지표 및 목표 설정 근거
다양성 (통계)	매체별 분포	구성비	분포 확인			- 기승전결이 포함된 완결한 문서를 기준으로 수집하고, 각 매체/카테고리별 구성비를 기준으로 원시 데이터 획득
						- 다양성 요건 항목의 조건 충족을 위해 가공 과정에서 나타나는 매체/카테고리별 유형 구성 비율에 따라 수집 세부 비율 조정
						- 문서 수집 매체별 수집 목표를 맞추기 위한 분포 확인(블로그, 뉴스, 도서 등)
	카테고리 분포	구성비	분포 확인			- 문서 카테고리별 수집 목표를 맞추기 위한 분포 확인 (IT/과학, 문화, 금융 등)
	생성 기간 분포	구성비	분포 확인			- 라벨링 데이터의 pubdate 항목을 기준으로 한 기간 분포
	문장 길이 분포	구성비	분포 확인			- 데이터의 문장 길이(length)
	문장 유형별	구성비	분포 확인			- 각 문장 유형별 해당 문장의 극성 통계 분포 확인
	극성 분포
	문장 유형별 확실성 분포	구성비	분포 확인			- 각 문장 유형별 해당 문장의 확실성 통계 분포 확인
	문장 유형별	구성비	분포 확인			- 각 문장 유형별 해당 문장의 시제 통계 분포 확인
	시제 분포
다양성 (요건)	문장 유형별 분류	구성비	구성비 중첩률		TBD	- 데이터 구축 목적에 맞게 연구 및 산업 분야의 실질적인 원천을 제공하기 위해 카테고리 구성
			목표 구성비(단위:문장)
			구분	비율	수량
			사실형	40%	66,000
			추론형	15-25%	24,750
					-41,250
			예측형	5-15%	8,250
					-24,750
			대화형	10-30%	16,500
					-49,500
			계	100%	165,000
			* 5~50개의 문장을 포함한 1만개 이상의 문서
	극성 구성별 분류 분포	구성비 중첩률	구성비 중첩률		TBD
			목표 구성비
			긍정		80%
			부정		10%
			미정		10%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
→ 활용 분야 및 향후 계획

① 활용 분야
ㅇ 언어를 활용한 새로운 사업창출
ㅇ 산업지능화 경진대회 및 인공지능 테스트베드 진행
- 전국의 (전통)산업에 인공지능 도입을 위한 수요를 발굴하고, 인공지능 기술회사에는 첨단 기술을 접목시킬 수 있는 시장수요를 제공하는 사업을 추진하여 산업지능화 창출 플랫폼 안착 (기업 수요발굴 → 경진대회 진행 → 워크숍 → 인공지능 테스트베드 진행 → 사업화)
- 산업지능화 경진대회와 인공지능 테스트베드를 활용하여 빅데이터 및 인공지능 분야 창업플랫폼 실현가능성, 수요공급 균형성, 홍보성, 효과성, 협업 프로세스 정립, 민간 수요에 대한 검증을 위한 대회 시행
- 인공지능 기술회사(공급기업)간 협업을 통해 수요기업이 필요로 하는 문제들에 대해서 솔루션을 제공하고 나아가 새로운 비즈니스 모델을 창출
- 비즈니스 모델의 고도화를 위한 지속적 멘토링 및 사업화 자금 지원

② 향후 계획
ㅇ 본 사업의 홍보 및 확산
ㅇ 데이터 활용 (말 바꾸기)
- 데이터 분석 및 서비스 제공에 필요한 기능을 Fast-track으로 제공할 수 있는 효율적인 데이터 진단 및 분석의 선순환 구조 체계 구축
- 효과적인 데이터 활용을 위해서 기업과 대학, 기관으로부터 얻을 수 있는 아이디어가 가장 중요하고 대부분은 빅데이터+인공지능으로 실현, 개선 가능
- 전국 대학생, 출연연 연구원, 기업 등을 참여시켜 해커톤을 진행하고 이를 통해 새로운 비즈니스 모델 창출 및 데이터를 활용한 사회공헌(ESG) 솔루션 제공
- 지속된 분야별 데이터분석 과제수행 및 협업 활동을 통해서 데이터 활용 문화 확산 및 현업 아이디어 발굴
- 성균관대학교와 매일경제과 주최하는 경진대회를 통해 데이터 분석 전문가 Pool을 확보하고 분야별 전문 인적 네트워크를 구성하여 전통산업 및 미래혁신 산업에 적용하여 경쟁력 강화, New Biz 창출

* 구축/공개될 데이터셋 활용 분야 및 서비스, 향후 유지보수 및 고도화 계획 기술

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	문장 유형 분류 정확도	Text Classification	BERT	F1-Score	0.85 점	0.85 점
2	극성 분류 정확도	Text Classification	BERT	F1-Score	0.85 점	0.92 점
3	확실성 분류 정확도	Text Classification	BERT	F1-Score	0.74 점	0.94 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 데이터 정보 요약

데이터 명	문장 유형(예측, 추론 등) 판단 데이터
	문장 유형 판단을 위한 텍스트 데이터
	문장 속성 텍스트 데이터
활용 분야	가짜 뉴스 탐지 / 콘텐츠 / 마케팅 및 작문 평가 등 관련 산업 및 학계 서비스
데이터 요약	◦ 뉴스, 매거진, 도서, 블로그 방송 대본 등 대표적인 5개 매체에서 역사, 사회, 금융, 문화, IT·과학, 생활·건강 카테고리별로 원시데이터를 수집·정제, 라벨링하여 인공지능 기술 개발에 필요한 학습용 문장 유형 데이터셋 구축
	◦ 다양한 한국어 원문데이터로부터 정제된 추출 및 문장 유형(대화형, 예측형, 추론형, 대화형) 및 문장의 속성(확실성/ 극성/ 시제) 판단 정보가 태깅된 문장 유형 판단 데이터셋
	문장 유형 판단을 목적으로 문장 유형이 사실형, 추론형, 예측형. 대화형인지에 대한 정보가 문장 단위로 라벨링 된 텍스트 데이터
	문장 속성 판단을 목적으로 속성 범주가 확실성/ 시제/ 극성에 관한 태깅 정보가 라벨링 된 텍스트 데이터
데이터 출처	◦ 뉴스(5만4천 건), 매거진(5만4천 건), 도서(3만6천 건), 블로그(1만8천 건), 방송 대본(1만8천 건) 등 대표적인 5개 매체에서 역사, 사회, 금융, 문화, IT·과학, 생활·건강 등 다양한 카테고리별로 기승전결 흐름으로 문서의 완결성을 갖춘 18만개 문장이 포함된 1만건 이상 문건을 원시데이터로 수집
데이터 통계	데이터 구축 규모	다양한 한국어 문장에서 기승전결 흐름으로 문서의 완결성을 갖춘 1만건 이상 문건이 포함된 165,000 문장 구축
	데이터 분포	매체별 분포: 뉴스(30%), 매거진(30%), 도서(20%), 블로그(10%), 방송 대본(10%)
		카테고리별 분포: 역사(16.7%), 사회(16.7%), 금융(16.7%), 문화(16.7%), IT·과학(16.7%), 생활·건강(16.7%)
데이터 이력	배포 버전	v1.0
	개정 이력	신규
	작성자/배포자	수행기관(차현주)

2. 데이터 포맷(txt)

구분	No	속성명	타입	속성 및 내용
필수	1	ID/FILENAME	string	파일명
필수	2	MEDIA_TYPE	string	수집 구분
				① 뉴스 ② 도서 ③ 매거진 ④ 블로그 ⑤ 방송대본
필수	3	MEDIA_NAME	string	수집 구분 출처
				① 매일경제신문 ② 매일방송 ③ 매경출판 ④ 컴북스 ⑤ 블로그
필수	4	CATEGORY	string	카테고리
				① 역사 ② 사회 ③ 금융 ④ 문화 ⑤ IT·과학 ⑥ 생활·건강
필수	5	PUBDATE	string	문서 발행일
필수	6	SENTENCE	string	문서 내 문장 갯수
필수	7	length	number	1~무한대
필수	8	label	string	문장 유형
				① 사실형 ② 추론형 ③ 예측형 ④ 대화형 ⑤ 핵심동사
필수	9	text	string	문장 내용 or 동사
필수	10	text_id	string
	11	word_num	number
	12	key_word	string
필수	13	확실성	string	Certainty 여부
				① 확실 ② 불확실
필수	14	시제	string	시제 판단
				① 과거 ② 현재 ③ 미래
필수	15	극성	string	Polarity 여부
				① 긍정 ② 부정 ③ 미정

3. 어노테이션 포맷(json)

구분				항목명	타입	필수	설명	범위	비고
구분				항목명	타입	여부	설명	범위	비고
1				metaData
	1.1			ID	string	Y
	1.2			FILENAME	string	Y			(예) {ID}.json
	1.3			MEDIA_TYPE	string	Y	수집 구분		① 뉴스, ② 도서, ③ 매거진, ④ 블로그 ⑤ 방송대본
	1.4			MEDIA_NAME	string	Y	수집 구분 출처		① 매일경제신문 ② 매일방송 ③ 매경출판 ④ 컴북스 ⑤ 블로그
	1.5			CATEGORY	string	Y	카테고리		① 역사 ② 사회 ③ 금융 ④ 문화 ⑤ IT·과학 ⑥ 생활·건강
	1.6			PUBDATE	string	Y	문서 발행일		(예) 20221109
	1.7			SENTENCE	string	Y	문서 내, 문장 개수
2				annotations
	2.1				object
		2.1.1		CharNum	string	Y	태깅 시작 위치	1~무한대
		2.1.2		length	number	Y	문장길이	1~무한대
		2.1.3		label	string	Y	문장 유형		① 사실형 ② 추론형
									③ 예측형 ④ 대화형
									⑤ 핵심동사
		2.1.4		text	string	Y	문장 내용 or 동사		- label값이 사실형~대화형이면 문장내용, label값이 핵심동사이면 동사
		2.1.5		value			문장/핵심동사 세부 속성
			2.1.5.1	text_id	string	Y	문장 번호	1~무한대	문장 – 핵심동사 매핑 정보
			2.1.5.2	word_num	number	N	문장 구성 어절수	2~무한대	(문장 유형일 경우 태깅)
			2.1.5.3	key_word	srting	N	핵심어절		(핵심동사일 경우 태깅)
			2.1.5.4	확실성	string	Y	Certainty 여부		(핵심동사일 경우 태깅)
			2.1.5.4	확실성	string	Y	Certainty 여부		① 확실 ② 불확실
			2.1.5.5	시제	string	Y	시점 판단		(핵심동사일 경우 태깅)
			2.1.5.5	시제	string	Y	시점 판단		① 과거 ② 현재 ③ 미래
			2.1.5.6	극성	string	Y	Polarity 여부		(핵심동사일 경우 태깅)
			2.1.5.6	극성	string	Y	Polarity 여부		① 긍정 ② 부정 ③ 미정

4. 데이터 구성

폴더 구조 명칭			원천 데이터 (메타 + Text)	라벨링 데이터 (JSON)

데이터셋 구축 담당자

수행기관(주관) : 성균관대 산학협력단

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
권상희, 차현주	02-760-0392	skweon@skku.edu, top1@skku.edu	총괄책임, 과제관리

수행기관(참여)

수행기관(참여)
기관명	담당업무
KDX	데이터 수집 및 정제
메트릭스	데이터 1차 가공
TNMS	데이터 2차 가공
미소정보기술	데이터 검수(구문 정확성, 통계 다양성), 저작도구
아티피셜소사이어티	모델 검증

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
권상희, 차현주	02-760-0392	skweon@skku.edu, top1@skku.edu

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의