AI-Hub

#자연어

BETA 한국어 성능이 개선된 초거대AI 언어모델 개발 및 데이터

분야한국어
유형 텍스트

구축년도 : 2023 갱신년월 : 2024-06 조회수 : 165 다운로드 : 0

※ 본 데이터는 추후 개방될 예정입니다. 베타개방을 통해 제공되는 데이터 목록은 공지사항을 참고하시기 바랍니다.

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2024-06-28	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-06-28	산출물 공개	Beta Version

소개

- 한국어 말뭉치 데이터 20억 어절/310만 건과 Reinforcement Learning Human Feedback(RLHF) 데이터 7만 7천 건으로 구성

구축목적

- AI Hub에 다양한 분야의 대규모 한국어 말뭉치 데이터를 공개함으로써 한국어 말뭉치 데이터의 다양성과 품질을 향상시키는 데에 기여함

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	json	데이터 출처	- 공유저작물 포털사이트에 기증된 공유·공공 데이터 - 저작권 만료된 고전 문학, 어문, 음원 데이터 - 크리에이티브 커먼즈 라이선스 표기된 유튜브 영상 데이터
라벨링 유형	SFT데이터 – 질의응답(자연어) / RM데이터 – 순위(텍스트) *한국어말뭉치데이터 및 PPO 데이터는 라벨링 데이터 없음	라벨링 형식	json
데이터 활용 서비스	AI 챗봇 서비스 개발, AI 보이스 어시스턴트 서비스 개발	데이터 구축년도/ 데이터 구축량	2023년/1. 한국어말뭉치데이터 20억 어절, 310만 건 2. RLHF데이터 7만7천건 / SFT질문 데이터 – 13,000건, 답변 (라벨링) 데이터 – 13,000건 / RM질의응답 데이터 – 33,000건, 순위 (라벨링) 데이터 – 33,000건 / PPO질문 데이터 – 31,000건

- 데이터 구축 규모

데이터 종류		데이터 형태	원문 규모	어노테이션 규모
한국어말뭉치데이터		자연어	310만 건 (20억 어절)	-
RLHF데이터	SFT데이터	질의응답	1.3만 건	1.3만 건
	RM데이터	응답순위	3.3만 건	3.3만 건
	PPO데이터	질문	3.1만 건	-

- 데이터 분포
문체별 분포: 구어체, 문어체 건 수, 어절 수

문체	원문 규모	어절 수
구어체	683,277건	1,025,519,624어절
문어체	2,678,129건	1,260,946,221어절
합계	3,361,406건	2,286,465,845어절

주제별 분포: 공학, 명칭, 보건, 사회, 산업, 예체능, 인문, 자연, 종교, 기타 원문 건 수

한국어말뭉치데이터

중분류	원문 규모	비율
공학	61,963건	1.84%
기타	374,513건	11.14%
명칭	3,217건	0.10%
보건	186,247건	5.54%
사회	1,218,049건	36.24%
산업	600,154건	17.85%
예체능	178,491건	5.31%
인문	489,046건	14.55%
자연	149,095건	4.44%
종교	100,629건	2.99%
합계	3,361,404건	100.00%

RLHF데이터
- SFT 데이터

중분류	원문 규모	비율
공학	1,307	9.88%
기타	1,429	10.81%
명칭	577	4.36%
보건	1,112	8.41%
사회	1,675	12.67%
산업	1,107	8.37%
예체능	1,787	13.51%
인문	1,337	10.11%
자연	2,320	17.54%
종교	574	4.34%
합계	13,225	100.00%

- RM데이터

중분류	원문 규모	비율
공학	3,069	9.30%
기타	786	2.38%
명칭	2,103	6.37%
보건	2,101	6.36%
사회	7,684	23.28%
산업	896	2.71%
예체능	6,582	19.94%
인문	3,155	9.56%
자연	5,986	18.13%
종교	648	1.96%
합계	33,010	100.00%

- PPO데이터

중분류	원문 규모	비율
공학	3,203	10.07%
기타	912	2.87%
명칭	2,196	6.90%
보건	1,359	4.27%
사회	7,440	23.39%
산업	748	2.35%
예체능	7,513	23.62%
인문	3,197	10.05%
자연	4,753	14.94%
종교	483	1.52%
합계	31,804	100.00%

- LLaMA2 Large Language Model Meta AI
- Meta AI에서 개발한 상용 오픈소스 언어 모델
- Pre-normalization, SwiGLU 활성화 함수, Rotray Embddings를 적용
- 모델의 크기는 줄이면서 높은 성능 유지가 가능

Pretraining Data	- 2 Trillion tokens 학습(본 과제에서는 from scratch로 20B token을 학습 함)
Model architecture	standard transformer를 부분수정하여 사용
	- Pre-mormalization using RMSNorm
	- SwiGLU activation function
	- Rotray positional embeddings
hyperparameters	AdamW optimaizer
Tokenizer	- byterpair encoding (BPE) algorithem
Tokenizer	- total vocabulary : 32k tokens

- 데이터 구성
1-1) 한국어 말뭉치 데이터

No			Key	Type	Description
1			dataset_info	Object	데이터셋 정보
	1-1		augmentation_type	String	데이터셋 증강기법 유형
	1-2		augmentation_id	Number	데이터셋 증강기법 id
	1-3		last_updated	String	마지막 갱신 날짜
2			data_info	Array	원시 데이터 정보
	2-1		data_id	String	원시 데이터 식별자
	2-2		data_file	String	원시 데이터 파일명
	2-3		data_title	String	원시 데이터 명
	2-4		data_type	String	원시 데이터 유형
	2-5		data_year	String	작성연도
	2-6		collected_date	String	획득 일자
	2-7		data_institution	String	소장기관명
	2-8		data_author	String	저자/제작자/채널명
	2-9		data_source	String	출처
	2-10		data_ccl	String	CCL 조건
	2-11		data_count	Number	데이터 어절 수
	2-12		data_lexemes	String	어휘 유형
	2-13		data_category	Object	데이터셋 분류
		2-13-1	main	String	대분류
		2-13-2	middle	String	중분류
		2-13-3	sub	String	원시 데이터 분류체계-소분류
	2-14		contents	String	한국어 말뭉치 데이터

1-2) SFT 데이터

No			Key	Type	Description
1			dataset_info		데이터셋 정보
	1-1		dataset_type	string	데이터셋 유형
	1-2		last_updated	string	마지막 갱신 날짜
2			data_info		데이터 정보
	2-1		data_id	string	데이터 식별자
	2-2		data_category		원시 데이터 분류체계
		2-2-1	main	string	대분류
		2-2-2	middle	string	중분류
		2-2-3	sub	string	소분류
	2-3		question_type	string	질문 데이터 획득 방식
	2-4		question_count	number	질문 데이터 어절 수
	2-5		data_lexemes	String	어휘 유형
	2-6		question	string	질문 데이터
	2-7		answer01		답변1
		2-7-1	answer_count	number	답변 데이터 어절 수
		2-7-2	contents	string	답변1 데이터
	2-8		answer02		답변2
		2-8-1	answer_count	number	답변 데이터 어절 수
		2-8-2	contents	string	답변2 데이터
	2-9		answer03		답변3
		2-9-1	answer_count	number	답변 데이터 어절 수
		2-9-2	contents	string	답변3 데이터
	2-10		answer04		답변4
		2-10-1	answer_count	number	답변 데이터 어절 수
		2-10-2	contents	string	답변4 데이터
	2-11		answer05		답변5
		2-11-1	answer_count	number	답변 데이터 어절 수
		2-11-2	contents	string	답변5 데이터

1-3) RM 데이터

No			Key	Type	Description
1			dataset_info		데이터셋 정보
	1-1		dataset_type	string	데이터셋 유형
	1-2		last_updated	string	마지막 갱신 날짜
2			data_info		데이터 정보
	2-1		data_id	string	데이터 식별자
	2-2		data_category		데이터 분류체계
		2-2-1	main	string	대분류
		2-2-2	middle	string	중분류
		2-2-3	sub	string	소분류
	2-3		question_type	string	질문 데이터 획득 방식
	2-4		question_count	number	질문 데이터 어절 수
	2-5		data_lexemes	String	어휘 유형
	2-6		question	string	질문 데이터

1-4) PPO 데이터

No			Key	Type	Description
1			dataset_info		데이터셋 정보
	1-1		dataset_type	string	데이터셋 유형
	1-2		last_updated	string	마지막 갱신 날짜
2			data_info		데이터 정보
	2-1		data_id	string	데이터 식별자
	2-2		data_category		데이터 분류체계
		2-2-1	main	string	대분류
		2-2-2	middle	string	중분류
		2-2-3	sub	string	소분류
	2-3		question_type	string	질문 데이터 획득 방식
	2-4		question_count	number	질문 데이터 어절 수
	2-5		data_lexemes	String	어휘 유형
	2-6		question	string	질문 데이터

- 어노테이션 포맷
2-1) SFT 데이터

No			Key	Type	필수여부	Description	범위
1			dataset_info			데이터셋 정보
	1-1		dataset_type	string	Y	데이터셋 유형	SFT
	1-2		last_updated	string	N	마지막 갱신 날짜
2			data_info			데이터 정보
	2-1		data_id	string	Y	데이터 식별자
	2-2		data_category			원시 데이터 분류체계
		2-2-1	main	string	Y	대분류	2종류
		2-2-2	middle	string	Y	중분류	10종류
		2-2-3	sub	string	N	소분류	68종류
	2-3		question_type	string	Y	질문 데이터 획득 방식	구매, 생성
	2-4		question_count	number	N	질문 데이터 어절 수	1-500
	2-5		data_lexemes	String	N	어휘 유형	일반어, 방언, 신조어, 준말
	2-6		question	string	Y	질문 데이터
	2-7		answer			답변
		2-7-1	answer_count	number	N	답변 데이터 어절 수	3-2000
		2-7-2	contents	string	Y	답변 데이터

2-2) RM 데이터

No			Key	Type	필수여부	Description	범위
1			dataset_info			데이터셋 정보
	1-1		dataset_type	string	Y	데이터셋 유형	RM
	1-2		last_updated	string	N	마지막 갱신 날짜
2			data_info			데이터 정보
	2-1		data_id	string	Y	데이터 식별자
	2-2		data_category			원시 데이터 분류체계
		2-2-1	main	string	Y	대분류	2종류
		2-2-2	middle	string	Y	중분류	10종류
		2-2-3	sub	string	N	소분류	68종류
	2-3		question_type	string	Y	질문 데이터 획득 방식	구매, 생성
	2-4		question_count	number	N	질문 데이터 어절 수	1-500
	2-5		data_lexemes	String	N	어휘 유형	일반어, 방언, 신조어, 준말
	2-6		question	string	Y	질문 데이터
	2-7		answer01			답변1
		2-7-1	answer_count	number	N	답변 데이터 어절 수	3-2000
		2-7-2	ranking	number	Y	답변1 순위 데이터	1, 2, 3, 4, 5
		2-7-3	contents	string	Y	답변1 데이터
	2-8		answer02			답변2
		2-8-1	answer_count	number	N	답변 데이터 어절 수	3-2000
		2-8-2	ranking	number	Y	답변2 순위 데이터	1, 2, 3, 4, 5
		2-8-3	contents	string	Y	답변2 데이터
	2-9		answer03			답변3
		2-9-1	answer_count	number	N	답변 데이터 어절 수	3-2000
		2-9-2	ranking	number	Y	답변3 순위 데이터	1, 2, 3, 4, 5
		2-9-3	contents	string	Y	답변3 데이터
	2-10		answer04			답변4
		2-10-1	answer_count	number	N	답변 데이터 어절 수	3-2000
		2-10-2	ranking	number	Y	답변4 순위 데이터	1, 2, 3, 4, 5
		2-10-3	contents	string	Y	답변4 데이터
	2-11		answer05			답변5
		2-11-1	answer_count	number	N	답변 데이터 어절 수	3-2000
		2-11-2	ranking	number	Y	답변5 순위 데이터	1, 2, 3, 4, 5
		2-11-3	contents	string	Y	답변5 데이터

- 데이터 포맷
1-1) 한국어 말뭉치 데이터

제목
성씨
대분류	문어체
중분류	인문
작성연도	2022
소장기관명	한국민족문화대백과사전
원문
성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단(單系血緣集團)의 한 명칭이며, 곧 족적 관념(族的觀念)의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다. 후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계(族系)를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율(出自律)의 의미를 내포하고 있다. 성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다. 성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나［冒姓］ 변성(變姓) · 사성(賜姓) · 자칭성(自稱姓)하기도 하였다. 중국의 경우 삼대(三代：夏 · 殷 · 周) 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다. 중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다. 그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다. 성은 그 사람이 태어난 부계혈통의 표지(標識)이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다. 현행 「민법」상으로 자(子)는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다. 중국의 문자구조에 관한 최초의 자전인 『설문해자(說文解字)』에 “성인지소생야(姓人之所生也)”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다. 또, 『좌전(左傳)』에 “천자건덕 인생이사성(天子建德因生以賜姓)”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후(諸侯)를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다. 그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨(胙之土而命之氏)”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다. 씨는 분화된 혈통(성)의 각각의 지연(地緣)을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다. 경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처(妻)에 대한 이름 대용의 경칭적 칭호로도 사용되었다.
전처리 후
성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단의 한 명칭이며, 곧 족적 관념의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다. 후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율의 의미를 내포하고 있다. 성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다. 성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나 변성 · 사성 · 자칭성하기도 하였다. 중국의 경우 삼대 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다. 중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다. 그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다. 성은 그 사람이 태어난 부계혈통의 표지이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다. 현행 민법상으로 자는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다. 중국의 문자구조에 관한 최초의 자전인 『설문해자』에 “성인지소생야”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다. 또, 『좌전』에 “천자건덕 인생이사성”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다. 그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다. 씨는 분화된 혈통(성)의 각각의 지연을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다. 경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처에 대한 이름 대용의 경칭적 칭호로도 사용되었다.

1-2) SFT 데이터

대분류	문어체
중분류	자연
질문 데이터 획득 방식	생성
원문
질문: 지구의 구성 요소는 무엇인가요?
라벨링 후
질문: 지구의 구성 요소는 무엇인가요?
답변: 지구는 대부분의 우주 물질로 이루어진 행성으로, 기본적으로 다음과 같은 구성 요소로 구성되어 있습니다.\n1. 지각: 지구의 겉면을 이루는 땅과 바위로 된 표면 부분입니다.\n2. 수질: 지구의 표면에 존재한느 물의 총질량을 의미합니다. 바다, 강, 호수 등을 포함합니다.\n3. 대기: 지구를 둘러싸고 있는 공기의 두꺼운 층으로, 대기는 생명체에게 산소를 제공하고 기후와 날씨를 조절하는 역할을 합니다.\n4. 생물: 지구상에 살아 숨 쉬는 생명체들을 의미합니다. 식물, 동물, 미생물 등이 여기에 포함됩니다.\n이러한 구성 요소들이 지구를 형성하며, 서로 복잡하게 상호작용하면서 지구 생태계를 이루고 있습니다.

1-3) RM 데이터

대분류	문어체
중분류	인문
질문 데이터 획득 방식	생성
원문
질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?
답변 생성 후
질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요? 답변1: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다. 답변2: 소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다. 답변3: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다. 답변4: 소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다. 답변5: 소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다.
라벨링 후
질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요? 답변1: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다. (1위) 답변2: 소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다. (2위) 답변3: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다. (3위) 답변4: 소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다. (4위) 답변5: 소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다. (5위)

1-4) PPO 데이터

대분류	구어체
중분류	보건
질문 데이터 획득 방식	구매
원문
질문: 한의학에서 비염을 어켕 치료하나요?
전처리 후
질문: 한의학에서 비염을 어떻게 치료하나요?

- 실제 예시
● 한국어 말뭉치 데이터
{
"dataset_info": {
"data_category": {
"main": "문어체",
"middle": "인문"
},
"augmentation_type": "None",
"augmentation_id": 0,
"last_updated": "230829"
},
"data_info": [
{
"data_id":"88005",
"data_file":"ANM8805.txt",
"data_title":"성씨",
"data_subcategory":"인문 일반",
"data_type":"텍스트",
"data_year":"2022",
"collected_data":"230717",
"data_institution":"한국민족문화대백과사전",
"data_author":["홍길동"],
"data_source":"https://encykorea.aks.ac.kr/Article/E0029415",
"data_ccl":"CC BY",
"data_count":"394",
"contents":"성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단의 한 명칭이며, 곧 족적 관념의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다. 후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율의 의미를 내포하고 있다. 성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다. 성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나 변성 · 사성 · 자칭성하기도 하였다. 중국의 경우 삼대 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다. 중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다. 그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다. 성은 그 사람이 태어난 부계혈통의 표지이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다. 현행 민법상으로 자는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다. 중국의 문자구조에 관한 최초의 자전인 『설문해자』에 “성인지소생야”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다. 또, 『좌전』에 “천자건덕 인생이사성”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다. 그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다. 씨는 분화된 혈통(성)의 각각의 지연을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다. 경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처에 대한 이름 대용의 경칭적 칭호로도 사용되었다."
}
]
}

● SFT 데이터
- 원천 데이터
{
"dataset_info": {
"dastaset_type":"SFT",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "7b3d7d63-721e-4c5b-b3a1-9b9b2c3a4e5f",
"data_category": {
"main": "문어체",
"middle": "자연",
"sub":"지구"
},
"question_type": "생성",
"question_count": 4,
"data_lexemes":"일반어",
"question":"지구의 구성 요소는 무엇인가요?",
}
]
}
- 라벨 데이터
{
"dataset_info": {
"dastaset_type":"SFT",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "7b3d7d63-721e-4c5b-b3a1-9b9b2c3a4e5f",
"data_category": {
"main": "문어체",
"middle": "자연",
"sub":"지구"
},
"question_type": "생성",
"question_count": 4,
"data_lexemes":"일반어",
"question":"지구의 구성 요소는 무엇인가요?",
"answer":{
"answer_count":73,
"contents":"지구는 대부분의 우주 물질로 이루어진 행성으로, 기본적으로 다음과 같은 구성 요소로 구성되어 있습니다.\n1. 지각: 지구의 겉면을 이루는 땅과 바위로 된 표면 부분입니다.\n2. 수질: 지구의 표면에 존재한느 물의 총질량을 의미합니다. 바다, 강, 호수 등을 포함합니다.\n3. 대기: 지구를 둘러싸고 있는 공기의 두꺼운 층으로, 대기는 생명체에게 산소를 제공하고 기후와 날씨를 조절하는 역할을 합니다.\n4. 생물: 지구상에 살아 숨 쉬는 생명체들을 의미합니다. 식물, 동물, 미생물 등이 여기에 포함됩니다.\n이러한 구성 요소들이 지구를 형성하며, 서로 복잡하게 상호작용하면서 지구 생태계를 이루고 있습니다."
}
}
]
}

● RM 데이터
- 원천 데이터
{
"dataset_info": {
"dastaset_type":"RM",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "a8e0f9c2-90e7-4a6d-8e8b-6c974f3f3a12",
"data_category": {
"main": "문어체",
"middle": "인문",
"sub":"철학"
},
"question_type": "생성",
"question_count": 13,
"data_lexemes":"일반어",
"question":"소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?",
"answer01":{
"answer_count":25,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다."
},
"answer02":{
"answer_count":18,
"contents":"소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다."
},
"answer03":{
"answer_count":19,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다."
},
"answer04":{
"answer_count":27,
"contents":"소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다."
},
"answer05":{
"answer_count":30,
"contents":"소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다."
}
}
]
}
- 라벨 데이터
{
"dataset_info": {
"dastaset_type":"RM",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "a8e0f9c2-90e7-4a6d-8e8b-6c974f3f3a12",
"data_category": {
"main": "문어체",
"middle": "인문",
"sub":"철학"
},
"question_type": "생성",
"question_count": 13,
"data_lexemes":"일반어",
"question":"소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?",
"answer01":{
"answer_count":25,
"ranking":3,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다."
},
"answer02":{
"answer_count":18,
"ranking":5,
"contents":"소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다."
},
"answer03":{
"answer_count":19,
"ranking":1,
"contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다."
},
"answer04":{
"answer_count":27,
"ranking":2,
"contents":"소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다."
},
"answer05":{
"answer_count":30,
"ranking":4,
"contents":"소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다."
}
}
]
}

• PPO 데이터
- 원천 데이터
{
"dataset_info": {
"dastaset_type":"PPO",
"last_updated": "230829"
},
"data_info": [
{
"data_id": "f55f68f1-48c4-4788-9fb4-ef4a4eef7d8d",
"data_category": {
"main": "구어체",
"middle": "보건",
"sub":"한의"
},
"question_type": "구매",
"question_count": 4,
"data_lexemes":"일반어",
"question":"한의학에서 비염을 어떻게 치료하나요?"
},
{
"data_id": "8dc2453d-532b-4d51-92b4-c24ab4b62fd6",
"data_category": {
"main": "구어체",
"middle": "인문",
"sub":"문학"
},
"question_type": "생성",
"question_count": 7,
"data_lexemes":"일반어",
"question":"어두운 분위기의 한국 근대 문학을 추천해 주세요."
}
]
}

데이터셋 구축 담당자

수행기관(주관) : 대구경북과학기술원

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김슬기	010-8943-3496	skkim@dgist.ac.kr	데이터 구축 관리

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜빅웨이브에이아이	데이터 증강, 유해데이터 및 개인정보 필터링
㈜유니바	AI 모델 학습, 데이터 검수
인하대학교 산학협력단	데이터 획득, 정제, 증강

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
최유진	053-615-1263	dbwls99673@univa.co.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
최유진	053-615-1263	dbwls99673@univa.co.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
최유진	053-615-1263	dbwls99673@univa.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의