AI-Hub

본 데이터는

온라인 안심존 데이터

※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.

#헬스케어 # 우울증 #음성

정신건강진단 및 예측을 위한 멀티모달 데이터

분야헬스케어
구분 안심존(온라인)
유형 오디오

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 11,486 다운로드 : 103

소개 이용신청

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-28	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-07-28	콘텐츠 최초 등록

소개

환자군과 건강대조군을 대상으로 임상 의료데이터, 수면데이터, 음성, 라이프로그 데이터 획득을 통해 최신 인공지능 학습기술 적용이 가능한 데이터 구축

구축목적

정신건강 질환 코호트를 구축하여 수집되는 데이터를 확보하고 이를 활용한 인공지능 서비스 모델 개발

메타데이터 구조표
데이터 영역	헬스케어	데이터 유형	오디오
데이터 형식	wav, json	데이터 출처	AI 학습을 위한 전향적 코호트 구축
라벨링 유형	PHQ-9 중증도 2단계 분류 (음성)	라벨링 형식	JSON
데이터 활용 서비스	음성인식 우울증 진단보조 시스템	데이터 구축년도/ 데이터 구축량	2021년/36,000건

데이터 통계

1. 데이터 구축 규모

총 36,000건 (원천 데이터 18,000건, 라벨링 데이터 18,000건)

데이터 통계
구분		세부내역	구축량
원천 데이터	음성	1. 즐겁고 행복했던 기억 음성	2,000건
		2. 힘들고 괴로웠던 기억 음성	2,000건
		3. 긍정 그림 보고 설명 음성	2,000건
		4. 부정 그림 보고 설명 음성	2,000건
		5. 중립 그림 보고 설명 음성	2,000건
		6. 숫자 1부터 20까지 세기 음성	2,000건
		7. 숫자 20부터 1까지 세기 음성	2,000건
		8. 가을 낭독 음성	2,000건
	임상	사회인구학적 특성, 라이프 로그 등	2,000건
라벨링 데이터	음성	1. 즐겁고 행복했던 기억 음성 라벨	2,000건
		2. 힘들고 괴로웠던 기억 음성 라벨	2,000건
		3. 긍정 그림 보고 설명 음성 라벨	2,000건
		4. 부정 그림 보고 설명 음성 라벨	2,000건
		5. 중립 그림 보고 설명 음성 라벨	2,000건
		6. 숫자 1부터 20까지 세기 음성 라벨	2,000건
		7. 숫자 20부터 1까지 세기 음성 라벨	2,000건
		8. 가을 낭독 음성 라벨	2,000건
	임상	사회인구학적 특성, 라이프 로그 등 라벨	2,000건

2. 데이터 분포

구 분		데이터 구성
구 분		수량	비율
그룹별 분포	환자군	10,170건	56.50%
	대조군	7,830건	43.50%
	합 계	18,000건	100.00%
성별 분포	남성	6,354건	35.30%
	여성	11,646건	64.70%
	합 계	18,000건	100.00%
클래스별 분포	정상	10,476건	58.20%
	우울한 기분	7,524건	41.80%
	합 계	18,000건	100.00%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 다운로드
활용 모델
1. 모델학습
- Support-Vector Machine (SVM)은 결정 경계(Decision boundary), 즉 분류를 위한 기준선을 정의하는 모델임. 서포트 벡터(support vector)는 결정 경계와 가까이 있는 데이터 포인트들을 의미하며, 마진(Margin)은 결정 경계와 서포트 벡터 사이의 거리를 의미함. 최적의 결정 경계는 마진을 최대화하므로, 이를 이용하여 학습을 수행함. 대부분의 머신러닝 지도학습 알고리즘은 학습 데이터 모두를 사용하여 모델을 학습한다. 그런데, SVM에서는 결정 경계를 정의하는 게 결국 서포트 벡터이기 때문에 데이터 포인트 중에서 서포트 벡터만 잘 골라내면 나머지 쓸 데 없는 수많은 데이터 포인트들을 무시할 수 있으므로 매우 빠름.
2. 서비스 활용 시나리오
- 구축한 모델은 우울 진단 업무에 활용하거나 인공지능 기반 우울 진단 연구에 활용할 수 있음
- 우울 진단 업무 활용
  - 서비스 수요자가 정신건강의학과 의사나 정신건강 상담사라면 우울 진단 업무에 우울 진단 보조 도구로 활용할 수 있음
- 인공지능 기반 우울 진단 연구 활용
  - 데이터 수요자가 정신건강의학과 연구자라면 인공지능 기반 우울 진단 연구에 활용할 수 있음

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	우울한 기분 진단 분류 모델	Audio Classification	SVM	F1-Score	0.75 점	0.76 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

데이터 포맷

1. 원시데이터 포맷 예시

정신건강진단 및 예측을 위한 멀티모달 데이터-데이터 포맷_1_원시데이터 포맷 예시

2. jason 형식

음성 데이터
임상 데이터

3. 데이터 구성

음성 데이터

데이터 포맷
Key	Description	Type	Child Type
info	데이터셋정보	Object
name	데이터셋명	String
description	데이터셋상세설명	String
url	데이터셋URL	String
date_created	데이터셋생성일자	String
subject	참여자정보	Object
id	참여자번호	String
group	참여자구분	Number
group_name	참여자 구분 이름	String
sex	참여자 성별	Number
sex_name	참여자 성별 이름	String
age	참여자 나이	Number
date_visited	방문일자	String
voice	음성정보	Object
category_id	음성분류식별자	Number
category_name	음성분류명	String
sampling_rate	음성 샘플링 레이트	Number
file_name	음성파일명	String
stt	Speech-to-text (STT)	String
license	음성라이선스	String
depression	라벨링정보	Object
PHQ-9	PHQ-9 점수	Number
category_id	클래스정보	Number
category_name	라벨링텍스트	String
licenses	라이선스	Array	Object
name	라이선스명	String
url	라이선스URL	String

임상 데이터

Key	Description	Type	Child Type
info	데이터셋정보	Object
name	데이터셋명	String
description	데이터셋상세설명	String
url	데이터셋URL	String
date_created	데이터셋생성일자	String
subject	참여자정보	Object
id	참여자번호	String
group	참여자구분	Number
group_name	참여자 구분 이름	String
sex	참여자 성별	Number
sex_name	참여자 성별 이름	String
age	참여자 나이	Number
date_visited	방문일자	String
file_name	임상정보파일명	String
license	임상정보라이선스	String
depression	라벨링정보	Object
PHQ-9	PHQ-9 점수	Number
category_id	클래스정보	Number
category_name	라벨링텍스트	String
licenses	라이선스	Array	Object
name	라이선스명	String
url	라이선스URL	String

4. 어노테이션 포맷

음성 데이터

구분	항목명	타입	필수여부	설명	범위	비고
1	info	Object	O	데이터셋정보
1-1	name	String	C	데이터셋명
1-2	description	String	O	데이터셋상세설명
1-3	url	String	O	데이터셋URL
1-4	date_created	String	C	데이터셋생성일자	YYYY-MM-DD
2	subject	Object	M	참여자정보
2-1	id	String	M	참여자번호	[000011~399992]
2-2	group	Number	M	참여자구분	[1,2]
2-3	group_name	String	O	참여자 구분 이름	[환자군, 대조군]
2-4	sex	Number	M	참여자 성별	[1,2]
2-5	sex_name	String	O	참여자 성별 이름	[남자,여자]
2-6	age	Number	M	참여자 나이	[17~99]
2-7	date_visited	String	M	방문일자	YYYY-MM-DD
3	voice	Object	M	음성정보
3-1	category_id	Number	M	음성분류식별자	[1,2,3,4, 5,6,7,8]
3-2	category_name	String	O	음성분류명	[행복기억, 불행기억, 사진1설명, 사진2설명, 사진3설명, 숫자세기내림, 숫자세기오름, 가을문단]
3-3	sampling_rate	Number	O	음성 샘플링 레이트
3-4	file_name	String	M	음성파일명
3-5	stt	String	O	Speech-to-text (STT)
3-6	license	String	O	음성라이선스
4	depression	Object	M	라벨링정보
4-1	PHQ-9	Number	M	PHQ-9 점수	[0~27]
4-2	category_id	Number	M	클래스정보	[0,1]
4-3	category_name	String	M	라벨링텍스트	[정상, 우울한 기분]
5	licenses	Array	O	라이선스
5-1	name	String	C	라이선스명
5-2	url	String	C	라이선스URL

임상 데이터

구분	항목명	타입	필수여부	설명	범위	비고
1	info	Object	O	데이터셋정보
1-1	name	String	C	데이터셋명
1-2	description	String	O	데이터셋상세설명
1-3	url	String	O	데이터셋URL
1-4	date_created	String	C	데이터셋생성일자	YYYY-MM-DD
2	subject	Object	M	참여자정보
2-1	id	String	M	참여자번호	[000011~399992]
2-2	group	Number	M	참여자구분	[1,2]
2-3	group_name	String	O	참여자 구분 이름	[환자군, 대조군]
2-4	sex	Number	M	참여자 성별	[1,2]
2-5	sex_name	String	O	참여자 성별 이름	[남자,여자]
2-6	age	Number	M	참여자 나이	[17~99]
2-7	date_visited	String	M	방문일자	YYYY-MM-DD
3	clinical_data	Object	M	임상정보
3-1	file_name	String	M	임상정보파일명
3-2	license	String	O	임상정보라이선스
4	depression	Object	M	라벨링정보
4-1	PHQ-9	Number	M	PHQ-9 점수	[0~27]
4-2	category_id	Number	M	클래스정보	[0,1]
4-3	category_name	String	M	라벨링텍스트	[정상, 우울한 기분]
5	licenses	Array	O	라이선스
5-1	name	String	C	라이선스명
5-2	url	String	C	라이선스URL

5. 실제예시

음성 데이터
임상 데이터

데이터셋 구축 담당자

수행기관(주관) : 전남대학교병원

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김주완	062 – 220 - 6146	tarot383@naver.com	· 사업관리 · 데이터 수집 · 정제 및 최종 검수

수행기관(참여)

수행기관(참여)
기관명	담당업무
화순전남대학교병원	· 데이터 수집 및 라벨링 · 최종 검수
㈜대신정보통신	· 데이터 검수 · 품질관리 · 모델링
㈜라라랩스	· 데이터 가공 · 품질관리
특허법인 지원	· 데이터 가공 · 품질관리 · 홍보
㈜메가웍스	· 데이터 수집 · 시범 AI 모델 개발 · 품질검증
㈜이코르	· 데이터 수집

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의