AI-Hub

본 데이터는

온라인 안심존 데이터

※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.

#헬스케어 건강서비스

고령인구 우울증 데이터

분야헬스케어
구분 안심존(온라인)
유형 오디오 , 텍스트

구축년도 : 2022 갱신년월 : 2024-10 조회수 : 18,308 다운로드 : 81

소개 이용신청

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.2	2024-10-07	데이터 수정
1.1	2023-12-06	데이터 최종 개방
1.0	2023-05-04	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-01-06	메타데이터 정보 수정	데이터 구축량
2023-12-08	산출물 전체 공개

소개

고령인구 대상으로 인지기능, 음성, 활동량, 수면, 디지털 데이터 및 의료데이터 획득을 통해 최신 인공지능 학습기술 적용이 가능한 데이터 구축

구축목적

노인(60세 이상)의 인지기능/음성/활동량/수면/디지털데이터 및 의료데이터를 수집하고 수집한 데이터에 가공을 거쳐 구축된 데이터 셋을 활용, 인공지능 학습데이터 구축을 하고 활용 가능한 AI 모델 제시

메타데이터 구조표
데이터 영역	헬스케어	데이터 유형	오디오 , 텍스트
데이터 형식	wav, json, csv	데이터 출처	자체 수집
라벨링 유형	오디오	라벨링 형식	json
데이터 활용 서비스	맞춤형 우울, 불면, 인지기능에 대한 건강 상태 정보 서비스	데이터 구축년도/ 데이터 구축량	2022년/9,000

환자군/대조군 분포
환자군/대조군 분포
group	COUNT	비율	비고
1	1,122	18.70%	대조군
2	4,878	81.30%	환자군

남녀 성비
남녀 성비
gender	COUNT	비율	비고
1	1,752	29.20%	남자
2	4,248	70.80%	여자

연령대별 분포
연령대별 분포
age	count	비율
60 이상 70 미만	2,442	40.70%
70 이상 80 미만	3,174	52.90%
80 이상 90 미만	384	6.40%

독거/동거 분포
독거/동거 분포
MS	COUNT	비율	비고
1	1,320	22.00%	독거
2	4680	78.00%	동거

우울 증상자/ 비증상자 분포
우울 증상자/ 비증상자 분포
depression	COUNT	비율	비고
0	4,212	70.20%	정상
1	1,788	29.80%	우울

불면 증상자/ 비증상자 분포
불면 증상자/ 비증상자 분포
category_id	COUNT	결과 구성비	비고
0	3,942	65.70%	정상
1	2,058	34.30%	불면

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드

CNN-LSTM-MLP Network 설계
o 학습모델: 딥러닝(Deep Learning)
- 딥러닝은 머신러닝의 한 방법으로, 입력을 통해서 추론된 값과 목표로 하는 타겟의 에러(Error) 차이를 최소화(minimize)하는 방법임
- 기존의 머신러닝 기법과는 다르게 많은 파라미터를 사용하여 학습하고 많은 수의 층(layer)을 쌓는 구조로 학습을 하기 때문에 딥러닝이라는 명칭이 생겨나게 됨
- 각 층(layer)은 다양한 구조로 설계되어 알맞은 어플리케이션에 맞게 사용됨.
(a) CNN(Convolution neural network): 컨볼루션 연산을 사용할 수 있는 층(layer)으로 입력으로부터 특징(feature)을 추출하고 정보를 압축하는 역할을 수행함
(b) LSTM(Long short term memory): 시간 연속 데이터(time-series data)를 처리하기 위한 층(layer)으로 각 노드(node)는 현재의 입력과 과거의 출력을 같이 받아들여서 현재의 출력을 표현함. 시간 연속 데이터를 처리하기에 좋고 내부에 메모리를 가지고 있기 때문에 현재의 상태(state)를 저장하여 미래의 입력에 반영할 수 있음
(c) FC(Fully connected layer): 기본적인 신경층(neural layer)을 연결하여 모든 경우의 수를 다 학습하는 구조로 네트워크의 마지막 단계에서 샘플을 분류하거나 추론할 때 사용됨. 모든 노드(node)가 다 연결되어서 계산되므로 연산량이 많다는 단점이 있지만 분류능력이 좋음
- 위에서 언급된 층(layer)의 종류외에 다양한 구조가 있고 그러한 구조를 조합하여 전체 모델을 구성하게 됨. 딥러닝은 연산량이 많아서 GPU를 사용해야 하는 단점이 있지만 GPU의 병렬연산으로 계산이 연산량 대비 빠르고 성능이 기존 머신러닝과 비교해서 월등이 좋다는 장점이 있음.

o 입력 데이터
- 음성데이터: 마이크로부터 사람의 음성을 녹음하여 raw데이터를 사용
- Downsampling: sampling rate를 16kHz로 맞추어서 학습에 사용
- 음성 특징 추출 네크워크 (SincNet)
(a) 기존 머신러닝 기법들은 사람이 직접 음성데이터를 시간 영역에서 주파수 영역으로 변환하여 Mel-Frequency Cepstral Coefficients (MFCCs) 특징을 추출하여 사용
(b) MFCC는 인간의 말소리 인식에 중요한 특징으로 이용되었고 적당한 성능 및 효율을 제공하였음
(c) 하지만, 최근 딥러닝의 발전으로 시간 영역에서 주파수 영역으로 변환하지 않고 주파수 대역을 학습하는 기법들이 발전되어 왔음

o 모델 구성

- SincNet layer: 싱크넷은 2018년 벤지오 연구팀에서 개발된 네트워크로서 시간 영역에서 주파수 영역의 특징을 학습하는 방법을 제안한 모델임
(a) 인간의 목소리를 분류하는 데 필요한 주파수 대역은 남기고 나머지 주파수 대역은 무시하기 위해서 주파수 영역에서 Bandpass filter를 사용하여 필요 없는 주파수 대역을 제거함
(b) 주파수 영역에서 Bandpass filter는 시간 영역에서 Sinc 함수로 변환되고 주파수 영역에서 곱하기 연산은 시간 영역에서 콘볼루션(Convolution) 연산과 같음
(c) 이러한 원리에 착안하여 시간 영역에서 Sinc함수를 구현하여 음성데이터와 콘볼루션(Convolution) 연산을 취하면 주파수 영역에서 Bandpass filter를 사용하여 원하지 않는 영역대를 제거하는 연산과 동일한 연산을 할 수 있음
(d) SincNet layer는 Sinc함수를 구현하여 음성데이터와 콘볼루션 연산을하면서 Bandpass filter의 주파수 대역을 학습함으로써 우리가 원하는 대역을 잘 학습할 수 있음

- CNN layer: CNN(Convolution neural network) 레이어는 SincNet 레이어에서 추출된 음성 대역에서 콘볼루션(Convolution) 연산을 사용하여 특징(feature)을 추출, 변환, 압축하는 역할을 수행함. 콘볼루션 레이어는 N x N filter를 이용하여 콘볼루션 연산을 수행하는데 필터의 크기 및 레이어의 깊이에 따라서 인지영역(Receptive Field)을 계산하여 설계할 수 있음. 레이어 최종 층에서 만들어지는 특징은 하나의 특징이 이전 레이어에서 얼마나 많은 영역의 특징을 참고하여 만들어지는지에 따라서 특징이 가지는 분류, 추론 능력이 달라짐

- 구성 및 학습된 모델
(a) 기본적인 CNN-MLP 구조의 네트워크는 음성신호로부터 특징을 제대로 추출해내지 못해서 학습 능력이 많이 떨어짐
(b) SincNet 기반의 CNN-MLP 구조의 네트워크는 음성신호로부터 주파수 대역을 잘 추출하여 학습하여 우수한 성능을 냄
(c) SincNet + LSTM 기반의 구조는 초기에 빠른 학습 성능을 보여주지만 최종 성능은 SincNet 기반의 CNN-MLP 구조보다 조금 떨어짐

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	우울증상 분류 성능	Text Classification	SincNet	F1-Score	75 점	88.68 점
2	불면증상 분류 성능	Text Classification	SincNet	F1-Score	75 점	88.63 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1.라벨링 데이터

1.라벨링 데이터
항목명	타입	필수여부	설명	범위	비고
voice	Object		음성정보
category_id	Number	Y	음성분류식별자	[1,2,3,4, 5,6,7,8]
file_name	String	Y	음성파일명
subject	Object		참여자정보
MS	Number	Y	참여자 주거형태	[1,2]	1:독거
MS	Number	Y	참여자 주거형태	[1,2]	2:동거
sex	Number	Y	참여자 성별	[1,2]	1:남자
					2:여자

id	String	Y	참여자번호	[40001~
id	String	Y	참여자번호	70000]
date_visited	String	Y	방문일자	YYYY-MM-DD
age	Number	Y	참여자 나이	[17~99]
group	Number	Y	참여자구분	[1,2]	1:환자군
group	Number	Y	참여자구분	[1,2]	2:대조군
lifelog	Object		라이프로그 정보
total_wear_time	Number	N	총 착용 시간(%)
total_steps	Number	N	총 걸음 수
total_sleep_time	Number	N	총 수면 시간
sleep_efficiency	Number	N	수면효율(%)
Lux	Number	N	평균 조도
Kcals	Number	N	평균 소모 에너지
MET rate	Number	N	평균 활동량
depression	Object		우울라벨링정보
PHQ-9	Number	Y	PHQ-9 점수	[0~27]
PHQ-9-1	Number	Y	PHQ-9 1문항 답	[0,1,2,3]
PHQ-9-2	Number	Y	PHQ-9 2문항 답	[0,1,2,3]
category_id	Number	Y	클래스정보	[0,1]	0: 5 미만, 1: 5 이상
category_name	String	Y	라벨링텍스트	[정상,
category_name	String	Y	라벨링텍스트	우울한 기분]
insomnia	Object		불면라벨링정보
ISI	Number	Y	ISI 점수	[0~28]
category_id	Number	Y	클래스정보	[0,1]	0: 8 미만, 1: 8 이상
category_name	String	Y	라벨링텍스트	[정상,
category_name	String	Y	라벨링텍스트	불면]

3.임상데이터

3.임상데이터
구분		항목명	타입	필수여부	설명	범위	비고
1		sd	Object	Y	사회인구학적 특성
	1-1	marital	String	Y	결혼상태정보
	1-2	code	String	Y	결혼상태코드	[1,2,3,4,5,6]	1:기혼, 2:동거, 3:미혼, 4:이혼, 5:사별, 6:별거
	1-3	name	String	Y	결혼상태
	1-4	date	datetime	Y	데이터 수집 일
	1-5	hospital_name	String	Y	데이터 수집 장소
	1-6	education	String	Y	교육
	1-7	smoking	String	Y	흡연여부
	1-8	insurance	String	Y	의료보장상태	[1,2,3,4,5]	1:건강보험, 2:보호 1종/2종/3종, 3:산재/자보, 4:일반, 5:기타
	1-9	drinking	String	Y	음주여부
	1-10	sex	String	Y	성별 정보
	1-11	code	String	Y	성별 코드	[1,2]	1:남자,
	1-11	code	String	Y	성별 코드	[1,2]	2:여자
	1-12	name	String	Y	성별 이름
	1-13	living	String	Y	주거환경
	1-14	code	String	Y	주거환경 코드	[1,2,3,4]	1:대도시,2:소도시, 3:농어촌, 4:기타
	1-15	name	String	Y	주거환경 이름
	1-16	cohabitation	String	Y	동거 형태 정보
	1-17	code	String	Y	동거 형태 코드	[1,2]	1:독거,2:동거
	1-18	name	String	Y	동거 형태 이름
	1-19	job	String	Y	직업 정보
	1-20	code	String	Y	직업 코드	[1,2,3,4,5]	1:정규직,2:자영업/자유직,3:비정규직-전일,4:비정규직-파트타임,5:무직
	1-21	name	String	Y	직업 이름
	1-22	group	String	Y	참여구분
	1-23	code	String	Y	참여구분 코드	[1,2]	1:환자군, 2:대조군
	1-24	name	String	Y	참여구분 이름
	1-25	initial_name	String	Y	참여자 이름
2		physical_info	Object	Y	신체정보
	2-1	bp1	String	Y	혈압(고)mmHg
	2-2	bp2	String	Y	혈압(저)mmHg
	2-3	pulse_rate	String	Y	맥박수(회/min)
	2-4	weight	String	Y	몸무게(kg)
	2-5	height	String	Y	키(cm)
3		digital_device	Object		디지털기기사용 정보
	3-1	os	String	N	디지털기기os정보	[1,2]
	3-2	app	String	N	정신건강 관련 앱 소유 여부
	3-3	smartphone	String	N	소유 디지털 기기 종류
	3-4	rank1	String	N	스마트폰 콘텐츠 이용 순위 1
	3-5	rank2	String	N	스마트폰 콘텐츠 이용 순위 2
	3-6	rank3	String	N	스마트폰 콘텐츠 이용 순위 3
	3-7	rank4	String	N	스마트폰 콘텐츠 이용 순위 4
	3-8	rank5	String	N	스마트폰 콘텐츠 이용 순위 5
4		medh	Object		내과적 병력 정보
	4-1	cd	String	Y	뇌혈관질환 정보
	4-2	name	String	Y	뇌혈관질환 진단 여부 이름
	4-3	value	String	Y	뇌혈관질환 진단 여부 값
	4-4	hbp	String	Y	고혈압 정보
	4-5	name	String	Y	고혈압 진단 여부 이름
	4-6	value	String	Y	고혈압 진단 여부 값
	4-7	cancer	String	Y	악성신생물(암) 정보
	4-8	name	String	Y	악성신생물(암) 진단 여부 이름
	4-9	value	String	Y	악성신생물(암) 진단 여부 값
	4-10	diabetes	String	Y	당뇨병 정보
	4-11	name	String	Y	당뇨병 진단 여부 이름
	4-12	value	String	Y	당뇨병 진단 여부 값
	4-13	ap	String	Y	협심증 또는 심근경색증 정보
	4-14	name	String	Y	협심증 또는 심근경색증 진단 여부 이름
	4-15	value	String	Y	협심증 또는 심근경색증 진단 여부 값
	4-16	misc	String	N	기타
	4-17	no	String	N	순번
	4-18	name	String	N	병명
	4-19	value	String	N	진단 여부
5		APOE	Object		유전자 정보
	5-1	genotype	String	N	치매 관련 데이터
6		cantab	Object		인지기능 정보
	6-1	SWMBE468_P	String	N	percentile
	6-2	SWMBE468_SS	String	N	standard score
	6-3	SWMBE468	String	N	value
	6-4	SWMS_P	String	N	percentile
	6-5	SWMS_SS	String	N	standard score
	6-6	SWMS	String	N	value
	6-7	RVPMDL	String	N
	6-8	RVPA	String	N
	6-9	RVPPFA	String	N
	6-10	PALTEA_P	String	N	percentile
	6-11	PALTEA_SS	String	N	standard score
	6-12	PALTEA	String	N	value
	6-13	PALFAMS_P	String	N	percentile
	6-14	PALFAMS_SS	String	N	standard score
	6-15	PALFAMS	String	N	value
7		CDW	Object		혈액검사 정보
	7-1	AST	String	N	AST(SGOT)
	7-2	TG	String	N	중성지방(mg/dL)
	7-3	FBS	String	N	공복혈당(mg/dL)
	7-4	eGRF	String	N	신사구체여과율
	7-5	high_cole	String	N	고밀도 콜레스테롤(mg/dL)
	7-6	ALT	String	N	ALT(SGPT)
	7-7	yGPT	String	N	감마지티피
	7-8	total_cole	String	N	총콜레스테롤(mg/dL)
	7-9	low_cole	String	N	저밀도 콜레스테롤(mg/dL)
	7-10	HbA1c	String	N	혈색소(g/dL)
	7-11	blood_creat	String	N	혈청 크레아티닌(mg/dL)
8		isi_info	Object		isi 검사 정보
	8-1	q1a	String	Y	문항1-a 답	0,1,2,3,4
	8-2	q1b	String	Y	문항1-b 답	0,1,2,3,4
	8-3	q1c	String	Y	문항1-c 답	0,1,2,3,4
	8-4	q2	String	Y	문항2 답	0,1,2,3,4
	8-5	q3	String	Y	문항3 답	0,1,2,3,4
	8-6	q4	String	Y	문항4 답	0,1,2,3,4
	8-7	q5	String	Y	문항5 답	0,1,2,3,4
9		phq_info	Object		phq-9 검사정보
	9-1	q1	String	Y	문항1 답	0,1,2,3
	9-2	q2	String	Y	문항2 답	0,1,2,3
	9-3	q3	String	Y	문항3 답	0,1,2,3
	9-4	q4	String	Y	문항4 답	0,1,2,3
	9-5	q5	String	Y	문항5 답	0,1,2,3
	9-6	q6	String	Y	문항6 답	0,1,2,3
	9-7	q7	String	Y	문항7 답	0,1,2,3
	9-8	q8	String	Y	문항8 답	0,1,2,3
	9-9	q9	String	Y	문항9 답	0,1,2,3

4. 라이프로그
- 수면량 데이터

4. 라이프로그- 수면량 데이터
항목	타입	필수여부	설명
Subject Name	Number	Y	대상자 번호
File Name	String	Y	액티라이프파일명
Serial Number	String	Y	시리얼번호
Epoch Length	Number	Y	epoch 길이
Weight	Number	Y	입력한 몸무게
Age	Number	Y	입력한 나이
Gender	String	Y	입력한 성별
Sleep/Wake Algorithm	String	Y	수면/기상 알고리즘
Sleep Period Detection Algorithm	String	Y	수면 주기 감지 알고리즘
In Bed Time	String	Y	잠자리에든시간
Out Bed Time	String	Y	깨어난시간
Efficiency	Number	Y	수면효율
Onset	String	Y	시작시간
Latency	Number	Y	대기시간
Total Sleep Time	Number	Y	총 수면 시간
WASO	Number	Y	수면 시작 후 깬 횟수
Number of Awakenings	Number	Y	각성 횟수
Length of Awakenings in Minutes	Number	Y	각성 시간(분)
Activity Counts	Number	Y	활동 수
Movement Index	Number	Y	이동 지수
Fragmentation Index	Number	Y	조각화 지수
Sleep Fragmentation Index	Number	Y	수면 조각화 지수

- 활동량 데이터

4. 라이프로그- 활동량 데이터
항목	타입	필수여부	설명
date	String	Y	날짜
epoch	String	Y	epoch(1분단위)
axis1	Number	Y	Axis 1 (Y-Axis)
axis2	Number	Y	Axis 2 (X-Axis)
axis3	Number	Y	Axis 3 (Z-Axis)
vm	Number	Y	Vector Magnitude
steps	Number	Y	걸음수
lux	Number	Y	빛 노출량
inclinometer off	Number	Y	inclinometer off
inclinometer standing	Number	Y	inclinometer standing
inclinometer sitting	Number	Y	inclinometer sitting
inclinometer lying	Number	Y	inclinometer lying
kcals	Number	Y	활동량
MET rate	Number	Y	기초대사량

데이터셋 구축 담당자

수행기관(주관) : 전남대학교병원

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김주완	062)220-6146	tarot383@naver.com	전체 사업관리

수행기관(참여)

수행기관(참여)
기관명	담당업무
화순전남대학교병원	데이터 수집 및 정제
㈜메가웍스	모델링 개발
모델링 개발	데이터 정제 및 가공
특허법인 지원	데이터 품질관리 및 검증
광주광역시청	일자리 창출 연계

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
김주완	062)220-6146	tarot383@naver.com

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의