-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-12-27 데이터 재연결 1.1 2023-11-24 데이터 최종 개방 1.0 2023-07-31 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-22 산출물 전체 공개 2023-09-14 담당자 정보 변경 소개
- 인간과 같이 공감할 수 있는 능력을 갖고 자연스러운 공감 대화 인터페이스를 위한 인공지능 학습용 대화 데이터 - 한 화자(감정화자)에게는 주어진 ‘감정과 상황에 처해진 것처럼 대화’하라는 임무를, 다른 화자(공감화자)에게는 ‘상대방에게 적절하게 공감’하라는 임무를 부여한 후 생성한 대화 데이터
구축목적
- 챗봇이 사용자의 감정에 적절하게 공감하는 대화를 하기 위한 데이터셋 구축 - 다양한 산업에서 민원·응대 등에 활용되는 챗봇, AI 비서와 같은 지능형 시스템의 성능 향상 - 자연어이해, 질의응답, 대화, 응답생성, 전이학습 등 자연어 처리 전분야에 걸친 기술 연구·고도화
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 tsv, json 데이터 출처 직접 생성 라벨링 유형 대화 특성 분류 라벨링 형식 json 데이터 활용 서비스 AI 스피커/챗봇(심리), 자살예방 서비스, 군생활도우미 서비스 데이터 구축년도/
데이터 구축량2022년/- 대화세션 31,821 - 발화 472,055 -
가. 대화세션당 발화
- 평균: 14.83 / 최솟값: 14 / 최댓값: 20대화세션당 세션 내 발화 수 수량 (세션) 비율 14 11,337 35.63% 15 17,180 53.99% 16 1,691 5.31% 17 994 3.12% 18 283 0.89% 19 131 0.41% 20 205 0.64% 합계 31,821 100% 나. 대화 상황
- 설정된 대화 상황은 최소 1회, 최대 5회까지 대화에 사용됨대화 상황 대화 상황 사용 횟수 수량 (세션) 비율 1 6,295 19.78% 2 22,110 69.48% 3 3,108 9.77% 4 248 0.78% 5 60 0.19% 합계 31,821 100% 다. 화자 관계 분포
화자 관계 분포 화자 관계 감정화자 역할 수량 (세션) 비율 부모자녀/조손 아버지,어머니 417 1.31% 자녀 3,807 11.96% 할아버지,할머니 58 0.18% 손자,손녀 203 0.64% 소계 4,458 14.09% 부부 남편 2,016 6.34% 아내 2,456 7.72% 소계 4,472 14.05% 형제/자매 형,언니 816 2.56% 동생 3,719 11.69% 소계 4,535 14.25% 연인 - 4,559 14.33% 직장 동료 - 4,513 14.18% 친구 - 4,799 15.08% 지인 - 4,458 14.01% 합계 31,821 100% 라. 시작 감정
시작 감정 시작 감정 수량 (세션) 비율 기쁨 6,260 19.67% 당황 4,787 15.04% 분노 6,419 20.17% 불안 4,798 15.08% 상처 4,744 14.91% 슬픔 4,813 15.13% 합계 31,821 100% 마. 후속 감정
- 감정화자의 부정적 감정은 대화를 통해 해소되는데, 그 지점을 후속감정 ‘중립’ 또는 ‘기쁨’으로 레이블링함
- 시작 감정이 ‘기쁨’인 경우, 기쁨이 유지되거나 강화되는 경우 후속감정을 레이블링하지 않아, 후속감정이 없음후속 감정 후속 감정 수량 (세션) 비율 중립 25,564 80.33% (없음) 6,260 19.67% 합계 31,821 100% 바. 화자당 발화
ㅇ 감정화자
- 평균 7.70 / 최솟값 7 / 최댓값 10 / 표준편차 0.59화자당 발화 화자당 발화 수 수량 (세션) 비율 7 11,337 35.63% 8 18,871 59.30% 9 1,277 4.01% 10 336 1.06% 합계 245,180 100 ㅇ 공감화자
- 평균 7.13 / 최솟값 7 / 최댓값 10 / 표준편차 0.42공감화자 공감화자 발화 수 수량 (세션) 비율 7 28,517 89.62% 8 2,685 8.44% 9 414 1.30% 10 205 0.64% 합계 226,875 100% 사. 공감 발화
- 대화 세션 내 공감 발화가 발화되는 횟수
- 평균 5.77 / 최솟값 2 / 최댓값 11공감 발화 세션 내 공감 발화 수 수량 (세션) 비율 2 723 2.27% 3 1,392 4.37% 4 2,859 8.98% 5 5,407 16.99% 6 8,267 25.98% 7 8,592 27.00% 8 4,183 13.15% 9 325 1.02% 10 61 0.19% 11 12 0.04% 합계 31,821 100% 사. 공감 라벨
- 발화에 태깅된 모든 공감 라벨을 중복 허용하여 카운트한 결과공감 라벨 공감 공감태깅된 발화 문장 수 비율 격려 67,676 23.44% 동조 95,129 32.95% 위로 65,200 22.58% 조언 60,684 21.02% 합계 288,689 100% 아. 발화 내 문장
발화 내 문장 1회 발화 내 문장 수 수량 비율 1 34,512 7.31% 2 164,269 34.80% 3 244,905 51.88% 4 25,943 5.50% 5 2,244 0.48% 6 162 0.03% 7 18 0.00% 8 1 0.00% 9 1 0.00% 합계 472,055 100% 자. 발화 내 어절
- 최소 2어절 / 최대 57어절발화 내 어절 어절 수 구간 문장 수 비율 3 어절 이상 ~ 10 어절 미만 49,532 10.49% 10 어절 이상 ~ 20 어절 미만 186,963 39.61% 20 어절 이상 ~ 30 어절 미만 176,264 37.34% 30 어절 이상 ~ 40 어절 미만 57,310 12.14% 40 어절 이상 ~ 50 어절 미만 1,982 0.42% 50 어절 이상 4 0.00% 합계 472,055 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드가. 모델 설명
- 공감형 대화 모델은 주어진 화자의 감정과 상황에 맞는 답변을 생성하는 모델로써, 공감에 특화된 모델이다.모델 설명 감정 당황 상황 버스를 기다리다 음료 금지 규정을 깜빡하고 아이스커피를 샀다. 문맥 A:날도 더운데 오늘은 아침부터 운세가 별로 안 좋은 날인가봐. B: 무슨 일이 있었는데 그렇게 의기소침한 말을 해? A: 내가 좌석버스를 타고 출근을 하잖아. 그런데 오늘 버스를 놓쳐서 지각했어 B: 요즘 일이 많다더니 늦잠을 잤구나. 어제 야근까지 하고 아침에 출근하려면 힘들지. A: 안 그래도 좀 피곤하길래 정류장 앞 카페에서 커피를 한 잔 샀거든. B: 아이구, 음료를 들고 버스를 탈 수 없는데 그걸 깜빡했구나. 생성 답변 맞아, 한두 번도 아니고 왜 자꾸 그걸 잊어버리는지 정말 난 왜 이럴까 나. 모델 학습
- 페르소나 대화 모델은 Training / Validation / Test 데이터를 80% / 10% / 10% 비율로 학습했다. 대화 모델에서 많이 사용되는 방식인 랭킹 방식과 생성 방식 두 가지 모델로 구성되어 있으며 위 표와 같은 성능을 보임모델 학습 모델명 지표 목표치 결과값 KoGPT2 Avg. BLEU 4.0 이상 5.69 KLUE/RoBERTa Avg. BLEU 4.0 이상 8.01 다. 서비스 활용 시나리오
- 감정에 특화된 챗봇 개발
- 독거노인, 어린이 등 공감이 필요한 계층 특화된 챗봇을 개발하여 활용 가능 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 차기 발화 생성 성능 Text Generation KoGPT2 BLEU 0.04 점 0.0801 점 2 공감형 대화 분류 성능 Text Classification Klue RoBERTa (base) BLEU 0.04 점 0.057 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드가. 원천 데이터 포맷
원천 데이터 항목 타입 설명 비고 id string 데이터셋 ID utterance_id integer 발화 순서 utterance_type 발화자 구분 0: 감정화자 1: 공감화자 utterance_text string 발화 terminate integer 마지막 종료 발화인지 여부 발화 종료: 1 발화 지속: 0 regDate timestamp 생성 시간 updDate timestamp 마지막 수정 시간 나. 원천 데이터 예시
id utterance_id utterance_type utterance_text terminate regDate updDate
BE22000101 1 0 엄마, 남편 차 새로 바꿔야 할까? N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 2 1 갑자기 멀쩡한 차는 왜 바꿔? N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 3 0 어제 아이가 집에 와서는 아빠 차 낡아서 부끄럽다고 툴툴대더라고. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 4 1 생전 그런 투정 안 부리는 애가 무슨 일이래? N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 5 0 모르겠어. 갑자기 그러니까 나도 황당해서 멀쩡한 차를 왜 바꾸냐고 했더니 펑펑 울잖아. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 6 1 우리 손주가 이유 없이 그러는 애는 아닌데, 네가 많이 놀랐겠구나. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 7 0 응. 그러더니 문을 꽝 닫고 자기 방으로 들어가 버렸어. 이런 적이 없었는데. 당황스러워. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 8 1 아이가 갑자기 그러면 네가 많이 당황스러울 만하지. 우리 손주가 사춘기가 오려나 보네. 그 이후로 얘기는 나눠 봤어? N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 9 0 아침에 얘기 좀 하려고 했더니 벌써 학교 가고 없었어. 말 잘 듣는 순둥이가 갑자기 이러니까 정말 당혹스럽네. 불안하기도 하고. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 10 1 그래 네 마음 뭔지 한때 너의 엄마였던 나도 아주 잘 알지. 아이가 왜 그러는지 짐작 가는 일도 없어? N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 11 0 어저께 아이 학원 끝나고 남편 차로 데리러 갔는데 그때 친구들이 보고 놀린 거 아닌가 싶기는 해. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 12 1 짐작은 가더라도 아이에게 직접 들은 게 아니니까 넘겨짚기도 어렵고 네가 많이 불안하고 답답하겠구나. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 13 0 응, 그렇다고 정말 차를 바꿀 수도 없고 난감하네. N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 14 1 일단 오늘 집에 오면 아이 좋아하는 음식 해 놓고 살살 달래면서 왜 그러는지 물어보는 게 어때? N 2022-06-03 16:16:57 2022-11-08 12:24:53
BE22000101 15 0 오호! 우리 아들 좋아하는 갈비찜 해 놔야겠다. 엄마, 조언해줘서 고마워. Y 2022-06-03 16:16:57 2022-11-08 12:24:53
다. 라벨링 데이터 포맷라벨링 데이터 포맷 속성명 타입 설명 예시 [범위] info object 문서 메타정보 category string 데이터셋 카테고리 "공감형 대화" evaluation object 대화 품질 avg_rating float 대화 평가 평균 점수 [0.0~5.0] grade string 대화 평가 등급 [“우수”, “보통”, “미흡”] id string 데이터셋 ID "BE22000025" listener_behavior array 대화 내 등장한 공감 라벨링 $value$ string [“조언”, “격려”, “위로”, “동조”] name string 데이터셋 이름 "2022 한국어 블렌더봇 데이터 BE22000025" name string 데이터셋 이름 "2022 한국어 블렌더봇 데이터 BE22000025" relation string 화자 간 관계 [“직장 동료”, “친구”, “연인”, “부부”, “부모자녀/조손”, “형제/자매”, “지인”] speaker_relation string 화자 관계 중 [“아내”,“남편”, “아버지,어머니”, “자녀”, “할아버지,할머니”, “손자,손녀”, “형,언니”, “동생”] 감정화자 역할 null 허용 situation string 대화 상황 speaker_emotion string 감정화자의 대화 시작 시 감정상태 [“분노”, “슬픔”, “불안”, “상처”, “당황”, “기쁨”] votes array 대화 평가 정보 {} object rating integer 투표 평가 점수 [0.0~5.0] voter_id string 평가자 ID "be_voter1" utterances array 발화 정보 {} object listener_empathy array 공감화자 발화의 [“조언”, “격려”, “위로”, “동조”] 공감 분류 $value$ string role string 발화자 역할 [“speaker", "listener"] speaker_changeEmotion string 감정화자의 감정이 변화된 경우, 변화된 감정상태 [“중립”] null 허용 terminate boolean 대화 종료 식별자 [true, false] text string 발화 내용 "내가 필요한 게 있으면 언제든 이야기해. 언니가 한번 아프면 오래가는 거 알아서 그런지 나까지 걱정이 된다." utterance_id string 발화 ID "BE22000062.16" 라. 라벨링 데이터 예시
{
"info": {
"category": "공감형 대화",
"evaluation": {
"avg_rating": 4.8,
"grade": "우수"
},
"id": "BE22000101",
"listener_behavior": [
"조언",
"동조",
"위로"
],
"name": "2022 한국어 블렌더봇 데이터 BE22000101",
"relation": "부모자녀/조손",
"situation": "아이가 아빠의 낡은 자동차를 부끄러워한다.",
"speaker_emotion": "불안",
"speaker_relation": "자녀",
"votes": [
{
"rating": 5.0,
"voter_id": "be_voter2"
},
{
"rating": 5.0,
"voter_id": "be_voter5"
},
{
"rating": 5.0,
"voter_id": "be_voter4"
},
{
"rating": 5.0,
"voter_id": "be_voter1"
},
{
"rating": 4.0,
"voter_id": "be_voter3"
}
]
},
"utterances": [
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": null,
"terminate": false,
"text": "엄마, 남편 차 새로 바꿔야 할까?",
"utterance_id": "BE22000101.1"
},
{
"listener_empathy": null,
"role": "listener",
"speaker_changeEmotion": null,
"terminate": false,
"text": "갑자기 멀쩡한 차는 왜 바꿔?",
"utterance_id": "BE22000101.2"
},
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": null,
"terminate": false,
"text": "어제 아이가 집에 와서는 아빠 차 낡아서 부끄럽다고 툴툴대더라고.",
"utterance_id": "BE22000101.3"
},
{
"listener_empathy": null,
"role": "listener",
"speaker_changeEmotion": null,
"terminate": false,
"text": "생전 그런 투정 안 부리는 애가 무슨 일이래?",
"utterance_id": "BE22000101.4"
},
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": null,
"terminate": false,
"text": "모르겠어. 갑자기 그러니까 나도 황당해서 멀쩡한 차를 왜 바꾸냐고 했더니 펑펑 울잖아.",
"utterance_id": "BE22000101.5"
},
{
"listener_empathy": [
"위로"
],
"role": "listener",
"speaker_changeEmotion": null,
"terminate": false,
"text": "우리 손주가 이유 없이 그러는 애는 아닌데, 네가 많이 놀랐겠구나.",
"utterance_id": "BE22000101.6"
},
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": null,
"terminate": false,
"text": "응. 그러더니 문을 꽝 닫고 자기 방으로 들어가 버렸어. 이런 적이 없었는데. 당황스러워.",
"utterance_id": "BE22000101.7"
},
{
"listener_empathy": [
"위로"
],
"role": "listener",
"speaker_changeEmotion": null,
"terminate": false,
"text": "아이가 갑자기 그러면 네가 많이 당황스러울 만하지. 우리 손주가 사춘기가 오려나 보네. 그 이후로 얘기는 나눠 봤어?",
"utterance_id": "BE22000101.8"
},
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": null,
"terminate": false,
"text": "아침에 얘기 좀 하려고 했더니 벌써 학교 가고 없었어. 말 잘 듣는 순둥이가 갑자기 이러니까 정말 당혹스럽네. 불안하기도 하고.",
"utterance_id": "BE22000101.9"
},
{
"listener_empathy": [
"동조"
],
"role": "listener",
"speaker_changeEmotion": null,
"terminate": false,
"text": "그래 네 마음 뭔지 한때 너의 엄마였던 나도 아주 잘 알지. 아이가 왜 그러는지 짐작 가는 일도 없어?",
"utterance_id": "BE22000101.10"
},
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": null,
"terminate": false,
"text": "어저께 아이 학원 끝나고 남편 차로 데리러 갔는데 그때 친구들이 보고 놀린 거 아닌가 싶기는 해.",
"utterance_id": "BE22000101.11"
},
{
"listener_empathy": [
"위로"
],
"role": "listener",
"speaker_changeEmotion": null,
"terminate": false,
"text": "짐작은 가더라도 아이에게 직접 들은 게 아니니까 넘겨짚기도 어렵고 네가 많이 불안하고 답답하겠구나.",
"utterance_id": "BE22000101.12"
},
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": null,
"terminate": false,
"text": "응, 그렇다고 정말 차를 바꿀 수도 없고 난감하네.",
"utterance_id": "BE22000101.13"
},
{
"listener_empathy": [
"조언"
],
"role": "listener",
"speaker_changeEmotion": null,
"terminate": false,
"text": "일단 오늘 집에 오면 아이 좋아하는 음식 해 놓고 살살 달래면서 왜 그러는지 물어보는 게 어때?",
"utterance_id": "BE22000101.14"
},
{
"listener_empathy": null,
"role": "speaker",
"speaker_changeEmotion": "중립",
"terminate": true,
"text": "오호! 우리 아들 좋아하는 갈비찜 해 놔야겠다. 엄마, 조언해줘서 고마워.",
"utterance_id": "BE22000101.15"
}
]
}
-
데이터셋 구축 담당자
수행기관(주관) : 심심이㈜
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 최정회 02-562-5332 sijay@simsimi.com - 사업 관리 - 저작/검수 워크벤치 개발 및 운영 - 데이터 샘플링 검수 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜나라지식정보 - 데이터 설계
- 작업 공정 설계 및 작업 가이드라인 작성
- 데이터 생성 및 라벨링
- 데이터 정제
- 데이터 검수㈜튜닙 - 데이터 설계
- AI 모델링
- 검수 워크벤치 개발 및 운영
- 데이터 정제데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 최정회 02-562-5332 sijay@simsimi.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.