AI-Hub

#자연어 #문화 #헬스케어 건강서비스

BETA 고령자 근현대 경험 기반 스토리 구술 데이터

분야한국어
유형 오디오 , 텍스트

구축년도 : 2023 갱신년월 : 2024-07 조회수 : 180 다운로드 : 3 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2024-07-05	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-07-05	산출물 공개	Beta Version

소개

- 60세 이상 고령자가 5개의 카테고리(감정-긍정/중립, 감정-부정, 사물, 장소, 관계/사건)에 속한 50개 단어에 대해 구술한 기억 데이터 수집. 구술자의 메타정보, 기억의 구체성 및 감정, 감각 요소 등이 태깅된 학습데이터 구축

구축목적

- 노인(60세 이상)의 고령자가 구술한 근현대 경험 기반 자서전적 스토리를 바탕으로 기억 회상의 구체화 정도를 통한 인지능력, 치매 위험성, 정신건강 수준 평가, 고령자 문화 간접체험 등에 활용

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오 , 텍스트
데이터 형식	txt, wav	데이터 출처	자체 수집
라벨링 유형	텍스트 내용 기반 라벨링	라벨링 형식	JSON
데이터 활용 서비스	고령자 인지기능 및 기억의 구체성, 치매위험성, 정신건강 평가, 근현대 문화 간접체험 서비스 활용	데이터 구축년도/ 데이터 구축량	2023년/원천데이터(txt 143,630건, wav 143,630건), 라벨링데이터(143,630건)

- 데이터 구축 규모

원천데이터: 음성(wav) 143,630건(10,529시간), 텍스트(txt) 143,630건. (전체 3.81TB)
라벨링 데이터: json 143,630건. (전체 653.30MB)

키워드 대분류	데이터 형태	파일 형태	규모(건)	비율(%)
01. 감정-긍정/중립	원천 데이터	.wav	33,626	23.41
	원천 데이터	.txt	33,626
	라벨링 데이터	.json	33,626
02. 감정-부정	원천 데이터	.wav	28,702	19.98
	원천 데이터	.txt	28,702
	라벨링 데이터	.json	28,702
03. 사물	원천 데이터	.wav	25,369	17.66
	원천 데이터	.txt	25,369
	라벨링 데이터	.json	25,369
04. 장소	원천 데이터	.wav	27,965	19.47
	원천 데이터	.txt	27,965
	라벨링 데이터	.json	27,965
05. 관계/사건	원천 데이터	.wav	27,968	19.47
	원천 데이터	.txt	27,968
	라벨링 데이터	.json	27,968
전체	원천 데이터	.wav	143,630	100
	원천 데이터	.txt	143,630
	라벨링 데이터	.json	143,630

- 데이터 분포
1. 키워드 분포

키워드 대분류	키워드	규모(건)	비율(%)
01. 감정-긍정/중립	001. 기쁘다	3322	2.31
	002. 즐겁다	2826	1.97
	003. 행복하다	3255	2.27
	004. 편안하다	2703	1.88
	005. 고맙다	3560	2.48
	006. 안심하다	2581	1.8
	007. 재미있다	2672	1.86
	008. 자랑스럽다	3164	2.2
	009. 반갑다	2660	1.85
	010. 그립다	2477	1.72
	011. 망설이다	2502	1.74
	012. 충격받다	1904	1.33
소계	12	33,626	23.41
02. 감정-부정	013. 미안하다	3299	2.3
	014. 슬프다	3087	2.15
	015. 불안하다	2751	1.92
	016. 긴장되다	2435	1.7
	017. 외롭다	2739	1.91
	018. 후회하다	2992	2.08
	019. 화나다	2755	1.92
	020. 답답하다	2390	1.66
	021. 지루하다	2132	1.48
	022. 힘들다	2364	1.65
	023. 부끄럽다	1758	1.22
소계	11	28,702	19.98
03. 사물	024. 선물	3646	2.54
	025. 자동차	3603	2.51
	026. 핸드폰	3121	2.17
	027. 옷	2740	1.91
	028. 책	2399	1.67
	029. 음식	3273	2.28
	030. 신문	1971	1.37
	031. 꽃	2656	1.85
	032. 컴퓨터	1960	1.36
소계	9	25,369	17.66
04. 장소	033. 산	3677	2.56
	034. 집	3399	2.37
	035. 식당	3201	2.23
	036. 학교	3485	2.43
	037. 공원	3042	2.12
	038. 지하철	3202	2.23
	039. 바다	2793	1.94
	040. 동물원	2294	1.6
	041. 병원	2872	2
소계	9	27,965	19.47
05. 관계/사건	042. 강아지	3527	2.46
	043. 친구	3601	2.51
	044. 부모	3356	2.34
	045. 아기	2846	1.98
	046. 고양이	2341	1.63
	047. 휴가	3202	2.23
	048. 성공	2672	1.86
	049. 칭찬	2797	1.95
	050. 여행	3626	2.52
소계	9	27,968	19.47
총계		143,360	100

2. 연령대 분포

구술자 연령대 분포 그래프 이미지

3. 성별 분포

구술자 성별 분포 이미지

4. 성별 별 연령분포

성별 별 연령 분포 이미지

5. 거주지역 분포

구술자 거주지역 분포 그래프 이미지

6. 항목별 태깅 분포

항목별 태깅 분포 그래프 이미지

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- 활용 모델

모델 학습
- 14만 건(1만 시간) 이상의 음성 전사데이터로 이루어진 말뭉치로서, 검증 및 평가를 데이터를 1만 문장 이상씩 분할하여 활용 가능함.

	학습(Training)	검증(Validation)	평가(Test)
개요	학습 데이터에 충분히 학습	- 학습 도중 모델 성과 평가 및 비교	모델 학습 완료 후 모델 성능 시험
		정확도 (Accuracy), F1 점수 등
필요	많을수록 좋음 (십만 단위)	10% (최소 1만 건 이상)	10% (최소 1만 건 이상)
예제

활용AI모델 설명_분류 모델 구조 개괄 이미지

그림. 개발되는 예시 분류 모델 구조 개괄

- 서비스 활용 시나리오
● 구축한 모델은 발화 구체성 평가 및 코퍼스 연구에 활용 가능
‑ 기억의 구체성 및 발화의 구체성 평가 업무: 데이터 수요자가 고령자 발화 기반의 서비스 제공을 고려하는 업체일 경우, 학습한 인공 지능 분류 엔진을 통해 서비스 제공 가능
‑ 고령자의 발화에 대한 구체성의 정도 등을 평가하여 기억력 진단 및 기억 훈련 등의 목적에 활용
‑ 연구 활용 시, 자연어 처리 중 자연어 이해 하류 태스크 수행 및 언어 지능 연구, 고령자 발화 연구 등 다양한 용도로 활용 가능함
● 구축한 데이터셋은 기억에 대한 구체성 평가 및 코퍼스 연구에 활용 가능
‑ 5개 카테고리에 속한 50개의 키워드 자체가 기억 발화에 대한 태깅으로 기능함: 예를 들어 ‘불안하다’에 응답한 내용과 ‘행복하다’에 응답한 내용을 분석하여 기억 훈련, 발화를 통한 정신건강 평가 등의 AI모델 구성에 활용 가능
‑ 구축한 자료는 고령자의 인지기능, 치매위험성, 우울증 평가 등 고령자 대상 정신건강분야 연구를 위한 말뭉치 자료로 활용될 수 있음.
‑ 인지기능 및 정신건강 향상을 위한 기억 훈련의 말뭉치 자료로 활용 가능
‑ 문서에 감정, 감각 포함 여부 태깅 및 조사원 발화의 공감 반응, 추가 질문 유무 태깅
‑ 근현대 문화 간접 체험 등의 서비스에도 활용 가능함

- 기타 정보
● 대표성
- 사용자의 데이터 활용도를 고려하여, 실제 음성 상황 기반의 전사 텍스트 데이터를 원문으로 함께 제공하며, 사건, 시간, 공간적 구체성 및 감정, 생각, 인물 등의 자질들에 대한 라벨링을 통해, 다양한 용도의 학습 모델이 전반적으로 구축 가능함.

● 독립성
- 기존 NIA 및 AI-hub 내의 대화 상황에서의 음성 전사 데이터와는 중복되지 않는 직접 고령자 인터뷰를 통해 녹음, 음성 전사 및 데이터 정제를 통해 수집된 새로운 한국어 말뭉치임.

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 구성

Key	Description	Type	Child Type
qa	질문답변 쌍 배열	array
{}	질문답변 쌍	object
question	질문	string
answer	답변	string
audioFile	질문답변 음성파일	string
audioTime	음성시간(분, 초)	string
teller	구슬자	array
{}	구술자 정보	object
불안점수(불안하고 초조해서 직장 생활과 사회생활에 어려움이 있었다.)	구슬자 상태 파악을 위한 점수	number
나이	나이	number
성별	성별	string
배우자	배우자 유무/상태	string
동거인수(본인포함)	본인포함 함께 살고 있는 사람수	number
자녀수	자녀수	number
교육년	교육받은 총 년수(정규교육)	number
고향	고향(광역시도)	string
불안점수(걱정하는 것을 조절하거나 멈출 수가 없었다.)	구슬자 상태 파악을 위한 점수	number
거주지	현거주지(광역시도)	string
우울점수(즐겁게 생활하지 못헀다.)	구슬자 상태 파악을 위한 점수	number
우울점수(하루 중 대부분의 시간 동안 울적했다.)	구슬자 상태 파악을 위한 점수	number
label_2	질문답변 내용에 대한 라벨	array
{}	질문답변 내용 라벨 구분	object
감정	감정 포함 여부	number
배경정보	배경정보 포함 여부	number
주제이탈	주체이탈 여부	number
감각	감각 포함 여부	number
같은말반복	같은말 반복 여부	number
대화자역할(질문)	재질문 여부	number
생각	생각 포함여부	number
인물	인물 포함여부	number
상태정보	상태정보 포함여부	number
과도한흥분	과도한 흥분 여부	number
대화자역할(공감)	공감 여부	number
keyword	키워드(해당 키워드를 주제로 질문과 답변이 이루어짐)	string
label_1	자서전적 기억에 대한 라벨	array
{}	자서전적 기억 라벨 구분	object
사건구체성	사건 구체성 여부	number
시간적구체성	시간적 구체성 여부	number
공간적구체성	공간적 구체성 여부	number
주관적경험	주관적 경험 여부	number
자서전적기억	자서전적 기억 여부	number
textFile	질문답변 전사파일	string
itemCount	질문답변 개수	number
qualityPoint	품질수준을 나타내는 점수	number
jsonId	데이터를 구분하는 아이디	string

- 어노테이션 포맷

구분		속성명	타입	필수여부	설명	범위
1		qa	array	Y	질문답변 쌍 배열
	1-1	qa[].question	string	Y	질문
	1-2	qa[].answer	string	Y	답변
2		audioFile	string	Y	질문답변 음성파일
3		audioTime	string	Y	음성시간(분,초)
4		teller	array	Y	구술자
	4-1	teller[].불안점수(불안하고 초조해서 직장 생활과 사회생활에 어려움이 있었다.)	number	Y	구슬자 상태 파악을 위한 점수	0~4
	4-2	teller[].나이	number	Y	나이
	4-3	teller[].성별	string	Y	성별
	4-4	teller[].배우자	string	Y	배우자 유무/상태	"동거", "별거", "이혼", "사별", "미혼"
	4-5	teller[].동거인수(본인포함)	number	Y	본인포함 함께 살고 있는 사람수
	4-6	teller[].자녀수	number	Y	자녀수
	4-7	teller[].교육년	number	Y	교육받은 총 년수(정규교육)
	4-8	teller[].고향	string	Y	고향	"서울시",
					(광역시도)	"부산시",
						"인천시",
						"대구시",
						"광주시",
						"대전시",
						"울산시",
						"세종시",
						"경기도",
						"충청북도",
						"충청남도",
						"전라북도",
						"전라남도",
						"경상북도",
						"경상남도",
						"강원도",
						"제주도"
	4-9	teller[].불안점수(걱정하는 것을 조절하거나 멈출 수가 없었다.)	number	Y	구슬자 상태 파악을 위한 점수	0~4
	4-10	teller[].거주지	string	Y	현거주지	"서울시",
					(광역시도)	"부산시",
						"인천시",
						"대구시",
						"광주시",
						"대전시",
						"울산시",
						"세종시",
						"경기도",
						"충청북도",
						"충청남도",
						"전라북도",
						"전라남도",
						"경상북도",
						"경상남도",
						"강원도",
						"제주도"
	4-11	teller[].우울점수(즐겁게 생활하지 못헀다.)	number	Y	구슬자 상태 파악을 위한 점수	0~4
	4-12	teller[].우울점수(하루 중 대부분의 시간 동안 울적했다.)	number	Y	구슬자 상태 파악을 위한 점수	0~4
5		label_2	array	Y	질문답변 내용에 대한 라벨
	5-1	label_2[].감정	number	Y	감정 포함 여부	1,0
	5-2	label_2[].배경정보	number	Y	배경정보 포함 여부	1,0
	5-3	label_2[].주제이탈	number	Y	주체이탈 여부	1,0
	5-4	label_2[].감각	number	Y	감각 포함 여부	1,0
	5-5	label_2[].같은말반복	number	Y	같은말 반복 여부	1,0
	5-6	label_2[].대화자역할(질문)	number	Y	재질문 여부	1,0
	5-7	label_2[].생각	number	Y	생각 포함여부	1,0
	5-8	label_2[].인물	number	Y	인물 포함여부	1,0
	5-9	label_2[].상태정보	number	Y	상태정보 포함여부	1,0
	5-10	label_2[].과도한흥분	number	Y	과도한 흥분 여부	1,0
	5-11	label_2[].대화자역할(공감)	number	Y	공감 여부	1,0
6		keyword	string	Y	키워드(해당 키워드를 주제로 질문과 답변이 이루어짐)
7		label_1	array	Y	자서전적 기억에 대한 라벨
	7-1	label_1[].사건구체성	number	Y	사건 구체성 여부	1,0
	7-2	label_1[].시간적구체성	number	Y	시간적 구체성 여부	1,0
	7-3	label_1[].공간적구체성	number	Y	공간적 구체성 여부	1,0
	7-4	label_1[].주관적경험	number	Y	주관적 경험 여부	1,0
	7-5	label_1[].자서전적기억	number	Y	자서전적 기억 여부	1,0
8		textFile	string	Y	질문답변 전사파일
9		itemCount	number	Y	질문답변 개수
10		qualityPoint	number	Y	품질수준을 나타내는 점수	0,1,2,3,4,5
11		jsonId	string	Y	데이터를 구분하는 아이디

- 데이터 포맷 (실제 예시 포함)

원천/라벨링데이터 포맷 예시
원천데이터(wav, txt 파일)
1) wav 파일

wav 파일 예시 이미지
2) txt 파일

txt 파일 예시 이미지
라벨링데이터(json 파일)

JSON 파일 예시 이미지

데이터셋 구축 담당자

수행기관(주관) : 마음건강케이유(주)

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
박용천	02-6956-1676	kumh@korea.ac.kr	전체 프로젝트 총괄, 데이터 품질 관리 총괄, AI 모델링

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜리서치림	데이터 수집/관리, 데이터 정제/가공, 데이터 품질 검수
㈜온더아이티	저작도구 개발, 데이터 가공 지원, 라벨링 데이터 추출

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김지숙	02-3015-2100/2126	ljk@relim.co.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
최기홍	02-6956-1676	kchoi1@korea.ac.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
이병구	031-8018-7102	chsw@ontheit.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

외부 지식 기반 멀티모달 질의응답 데이터

인터페이스(자판/음성)별 고빈도 오류 교정 데이터

립리딩(입모양) 음성인식 데이터

동화 이해도 테스트를 위한 질의응답쌍 생성 데이터

행정 문서 대상 기계독해 데이터

저음질 전화망 음성인식 데이터

뉴스 기사 기계독해 데이터

일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터

BETA 고령자 근현대 경험 기반 스토리 구술 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 마음건강케이유(주)

수행기관(참여)

데이터 관련 문의처

AI모델 관련 문의처

저작도구 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터