AI-Hub

본 데이터는

온라인 안심존 데이터

※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석

입니다.

#헬스케어 의료

순음청력검사결과 데이터

분야헬스케어
구분 안심존(온라인)
유형 텍스트

구축년도 : 2021 갱신년월 : 2022-07 조회수 : 2,503 다운로드 : 32

소개 이용신청

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2022-07-13	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2022-07-13	콘텐츠 최초 등록

소개

상급병원에서 정제된 청력검사결과를 획득하고, 인공지능 학습에 적합하도록 라벨링한 데이터로써, 기존의 데이터셋과는 다르게 어음청력검사 데이터를 포함하여 활용도를 높였음

구축목적

순음청력검사 결과를 기반으로 난청을 판단하고, 난청의 원인을 예측하는 AI 기반 청력 진단 서비스 개발

메타데이터 구조표
데이터 영역	헬스케어	데이터 유형	텍스트
데이터 형식	jpg, xml, text	데이터 출처	병원 EMR
라벨링 유형	의사소견	라벨링 형식	csv
데이터 활용 서비스	의료 진단 보조 서비스	데이터 구축년도/ 데이터 구축량	2021년/108,167

1. 데이터 구축 규모

청각검사를 실시한 환자의 Audiogram의 청력역치 값과 진단소견이 결합된 데이터 108,167건
데이터셋 활용도를 높이기 위해 어음청력검사 결과가 포함되어 있음

2. 데이터 분포
가. 성별

1. 데이터 구축 규모
구분	수량	비율
남성	52,000	48.07%
여성	56,167	51.93%
합계	108,167	100.00%

나. 연령별

구분	수량	비율
50세 미만	38,920	35.98%
50대, 60대	47,916	44.30%
70세 이상	21,331	19.72%
합계	108,167	100.00%

다. 난청 형태별

구분	수량	비율
정상	35,894	33.18%
감각신경성	49,053	45.35%
전도성	10,767	9.95%
혼합성	12,453	11.51%
합계	108,167	100.00%

라. 난청 원인별 (중복 가능)

구분	수량	비율
정상	33,779	28.46%
유전성 및 선천성	1,488	1.25%
소음성	3,308	2.79%
두부외상	524	0.44%
노인성	24,657	20.77%
메니에르병	2,038	1.72%
돌발성(미로염 포함)	7,244	6.10%
후미로성	159	0.13%
외이도감염	697	0.59%
외이종물	346	0.29%
선천성(외이도폐쇄, 소이증)	231	0.19%
외상성 고막천공	448	0.38%
선천성 이소골 기형	436	0.37%
삼출성/급성 중이염	4,408	3.71%
만성 중이염	17,960	15.13%
진주종성 중이염	2,205	1.86%
이경화증	167	0.14%
종양(Glomus, 선천성 진주종)	160	0.13%
원인미상	18,444	15.54%
합계	118,699	100.00%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 다운로드
1. 모델 학습
- GridSearchCV 기반으로 Stacked Model을 사용하여 진행함
- 해당 Stacked basis Model에는 Deep Learning(DL) 모델인 MxNet, NetFastAI 그리고 Machine Learning(ML) 모델인 XGBoost, CatBoost, LightGBM 등이 포함되어 있음
- Level 1 : 모델 및 하이퍼 파라미터는 고정하고, K-Fold 방식으로 분리된 데이터셋을 학습하여, 데이터셋 별 모델을 생성
- bagging 방식으로 우수한 base 모델을 선택하여 WeightedEnsemble_L2로 메타모델을 만듬
- Level 2 : Base-bagging_L1 모델들의 예측치를 훈련하여 Stacked-bagging_L2 모델을 생성
- Level 3 : WeightedEnsemble_L3로 메타모델을 만들어 L2 메타모델과 비교 후 우수한 메타모델을 선택
- 정형화된 학습용 데이터의 전처리 과정 중 이상치 처리 부분은 평균 대체법, 중앙값 대체법, 선형 보간법, 곡선 보간법 등의 기법으로 처리하여 원본데이터, MEAN 데이터, Median, Linear, Spline 총 5개의 데이터셋으로 확장
- 해당 데이터셋은 Layer-Level 1(L1)에서 GridSearch 기반으로 K-Fold 20회를 거쳐서 bagging 방식으로 최고의 F1-score 성능을 가진 모델을 선별 후 예측치를 출력
- Layer-Level 2(L2)는 L1에서 출력된 예측치에 대해 학습되며, Stacked Model Layer가 L1에서 사용한 모델과 하이퍼 파라미터를 재사용하여 L1의 출력이 연속성을 가진 상태로 L2의 입력으로 연결되어 L2의 예측치를 학습
- Stacked Model이 새로운 ensemble에 도입되는 접근 방식 bagging, blending, voting 그리고 weighted average 중 Ensemble Layer검증 정확도가 최대화되는 weighted average 방식을 선택하여 메타 모델 산출
  
  [그림] 모델 전체 과정
2. 서비스 활용 시나리오
- 어음청력검사 시작 dB 제시 모델 개발
  - 순음청력검사 결과와 어음청력검사 결과를 토대로 최적의 어음청력검사 시작 dB을 제시하는 모델을 개발
- 고막 소견을 활용할 수 있는 모델 연구, 개발
  - 고막 이미지를 추가로 수집하여 고막 소견을 예측하는 모델을 개발하거나 순음, 어음청력검사 결과를 토대로 고막 소견을 예측한 후 이를 활용하여 고막 상태를 짐작하는 모델 개발
- 자가 청각 검사 기기 개발
  - 과제에서 제출한 모델을 고도화하고 제시한 추가 모델들을 통합하여 자동으로 청각 검사를 하고, 이를 통해 난청 여부 판단, 고막 상태 예측 등을 지원하는 기기 개발에 활용

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	난청 원인 분류성능	Classification	ML : XGBoost, LightGBM, CatBoost, DL : NeuralnetMXnet, NetFastAI	AUC-ROC	0.7 단위없음	0.86 단위없음
2	난청 원인 분류성능	Classification	ML : XGBoost, LightGBM, CatBoost, DL : NeuralnetMXnet, NetFastAI	F1-Score	0.7 점	0.76 점

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

1. 대표도면

원천데이터
라벨링데이터

2. 데이터 구성

어노테이션 포맷 (원천데이터)

1. 대표도면
구분	항목명	타입	필수여부	설명	범위	비고(예시)
1	uid	string	Y	라벨링 구분자	-	CHU-1_1
2	identifier	string	Y	난청 환자 ID	-	CHU-1
3	age	number	Y	난청환자 나이	1~100	55
4	sex	number	Y	난청환자 성별	0: 남자, 1: 여자	0
5	hospital	number	Y	병원 정보	0: 전남대, 1: 경북대 2: 전북대, 3: 충남대	0
6	date	string	Y	청력검사 날짜	yyyy-mm-dd	2021-01-01
7	ear_select	number	Y	청력 위치 O(우측, 좌측)	0: 우측, 1: 좌측	0
8	pta_ac_125	number	N	기도청력, 125Hz 청력역치	0~100	25
9	pta_ac_250	number	N	기도청력, 250Hz 청력역치	0~100	25
10	pta_ac_500	number	Y	기도청력, 500Hz 청력역치	0~100	25
11	pta_ac_1000	number	Y	기도청력, 1000Hz 청력역치	0~100	25
12	pta_ac_1500	number	N	기도청력, 1500Hz 청력역치	0~100	25
13	pta_ac_2000	number	Y	기도청력, 2000Hz 청력역치	0~100	25
14	pta_ac_3000	number	N	기도청력, 3000Hz 청력역치	0~100	25
15	pta_ac_4000	number	Y	기도청력, 4000Hz 청력역치	0~100	25
16	pta_ac_6000	number	N	기도청력, 6000Hz 청력역치	0~100	25
17	pta_ac_8000	number	N	기도청력, 8000Hz 청력역치	0~100	25
18	pta_bc_125	number	N	골도청력, 125Hz 청력역치	0~100	25
19	pta_bc_250	number	N	골도청력, 250Hz 청력역치	0~100	25
20	pta_bc_500	number	N	골도청력, 500Hz 청력역치	0~100	25
21	pta_bc_1000	number	N	골도청력, 1000Hz 청력역치	0~100	25
22	pta_bc_1500	number	N	골도청력, 1500Hz 청력역치	0~100	25
23	pta_bc_2000	number	N	골도청력, 2000Hz 청력역치	0~100	25
24	pta_bc_3000	number	N	골도청력, 3000Hz 청력역치	0~100	25
25	pta_bc_4000	number	N	골도청력, 4000Hz 청력역치	0~100	25
26	pta_bc_6000	number	N	골도청력, 6000Hz 청력역치	0~100	25
27	pta_bc_8000	number	N	골도청력, 8000Hz 청력역치	0~100	25
28	hearing_loss	number	Y	난청 형태적 분류	0: 정상, 1: 감각신경성 2: 전도성, 3: 혼합성	0
29	cause_loss_priority	string	Y	난청 원인 우선도		cause_loss_1
30	text_eardr_1	number	Y	고막 상태 소견 : 정상	1: true, 0: false	0
31	text_eardr_2	number	Y	고막 상태 소견 : 천공(모든 크기)	1: true, 0: false	0
32	text_eardr_3	number	Y	고막 상태 소견 : 염증(발적, 종창)	1: true, 0: false	0
33	text_eardr_4	number	Y	고막 상태 소견 : 함입 및 유착	1: true, 0: false	0
34	text_eardr_5	number	Y	고막 상태 소견 : 종물	1: true, 0: false	0
35	text_eardr_6	number	Y	고막 상태 소견 : 삼출액	1: true, 0: false	0
36	text_eardr_7	number	Y	고막 상태 소견 : 술후 상태	1: true, 0: flase	0
37	text_eardr_priority	string	Y	고막 상태 소견 우선도		text_eardr_1
38	srt_level	number	Y	어음청취역치	0~100	50
39	wrs_level	number	Y	어음인지 테스트 레벨	0~100	50
40	wrs_score	number	Y	어음인지 스코어	0~100	100

어노테이션 포맷 (라벨링 데이터)

구분	항목명	타입	필수여부	설명	범위	비고(예시)
1	uid	string	Y	라벨링 구분자		CHU-1_1
2	cause_loss_1	number	Y	원인 : 정상	1: true, 0: false	0
3	cause_loss_2	number	Y	원인 : 유전성 및 선천성	1: true, 0: false	0
4	cause_loss_3	number	Y	원인 : 소음성	1: true, 0: false	0
5	cause_loss_4	number	Y	원인 : 두부외상	1: true, 0: false	0
6	cause_loss_5	number	Y	원인 : 노인성	1: true, 0: false	0
7	cause_loss_6	number	Y	원인 : 메니에르병	1: true, 0: false	0
8	cause_loss_7	number	Y	원인 : 돌발성(미로염 포함)	1: true, 0: false	0
9	cause_loss_8	string	Y	원인 : 후미로성	1: true, 0: false	0
10	cause_loss_9	string	Y	원인 : 외이도감염	1: true, 0: false	0
11	cause_loss_10	string	Y	원인 : 외이종물	1: true, 0: false	0
12	cause_loss_11	string	Y	원인 : 선천성 (외이도폐쇄, 소이증)	1: true, 0: false	0
13	cause_loss_12	string	Y	원인 : 외상성 고막천공	1: true, 0: false	0
14	cause_loss_13	string	Y	원인 : 선천성 이소골 기형	1: true, 0: false	0
15	cause_loss_14	string	Y	원인 : 삼출성/급성 중이염	1: true, 0: false	0
16	cause_loss_15	string	Y	원인 : 만성 중이염	1: true, 0: false	0
17	cause_loss_16	string	Y	원인 : 진주종성 중이염	1: true, 0: false	0
18	cause_loss_17	string	Y	원인 : 이경화증	1: true, 0: false	0
19	cause_loss_18	string	Y	원인 : 종양 (Glomus, 선천성진주종)	1: true, 0: false	0
20	cause_loss_19	string	Y	원인 : 원인미상	1: true, 0: false	0

3. 데이터 실제 예시

원천데이터(.csv) 예시
라벨링 데이터(.csv) 예시

데이터셋 구축 담당자

수행기관(주관) : 나무기술 ㈜

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김경우	02) 3288-7900	kwkim@namutech.co.kr	· 총괄관리

수행기관(참여)

수행기관(참여)
기관명	담당업무
나무기술 ㈜	· 총괄관리 · 분석 알고리즘 개발 · AI 모델 검증
인피노브 ㈜	· AI모델 개발 및 검증 · 라벨링 도구 개발
㈜ 조인트리	· 품질관리 · 외부 검증 대응
㈜ 이루온 아이앤에스	· 정제 도구 개발 · 데이터 라벨링
전남대학교병원	· 데이터 구축 (획득, 정제, 라벨링) 및 검증
경북대학교병원	· 데이터 구축 (획득, 정제, 라벨링) 및 검증
전북대학교병원	· 데이터 구축 (획득, 정제, 라벨링) 및 검증
충남대학교병원	· 데이터 구축 (획득, 정제, 라벨링) 및 검증

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의