※온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
통증치료 및 경과관찰을 위한 멀티모달리티 데이터
- 분야헬스케어
- 구분 안심존(온라인)
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-13 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-07-13 콘텐츠 최초 등록 소개
6개의 의료기관에서 획득한 4가지 만성통증 질환 489,133건 이상의 다양한 영상을 Annotaion한 데이터셋으로, 개인정보를 비식별처리하여 개인정보 보호이슈를 해결한 통증치료 및 경과관찰을 위한 학습용 데이터 구축
구축목적
퇴행성 관절통증 질환에 대한 정상 및 질환 빅데이터를 확보하고 인공지능 기반 정상 및 질환에 대하여 신속하고 정확한 병기(stage) 분류, 예방 및 치료 방법에 대한 근거중심의학을 위한 학습용 데이터셋
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 의료기관 라벨링 유형 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 인공지능 기반 통증 치료 및 진단을 위한 이상 영역 탐지 모델 개발 데이터 구축년도/
데이터 구축량2021년/7,981명(489,133건) -
1. 데이터 구축 규모
- 4가지 만성통증 질환(회전근개파열, 퇴행성 슬관절, 골다공증, 만성신경병증) 환자 3,000명 이상에서 시행한 멀티모달리티 검사 데이터 6,000건 이상
- 만성통증 질환의 유병율을 고려하여 중요성이 높은 질환 4종 제시
- 임상적으로 널리 사용되는 주요 모달리티 중심으로 제시
(x-ray, MRI, CT, 골밀도, 체열검사, 투시촬영검사, Bone scan, EMG/NCS)
1. 데이터 구축 규모 임상질환 명수 X-ray
(영상)MRI
(영상)골밀도
(영상)체열
(영상)투시촬영 이미지
(영상)Bone
scan
(영상)퇴행성 관절통증환자
(회전근개 파열)
DJD_S (Degenerative
Joints Disease_Shoulder)환자 769 1,539 63,979 퇴행성관절통증환자
(퇴행성 슬관절)
DJD_K (Degenerative환자 790 2,293 63,288 Joints Disease_Knee) 정상 642 3,215 골다공증성 골절통증 OP 환자 3,720 7,379 291,522 7,359 (Osteoporotic Fracture) 정상 1,272 5,264 30,667 3,155 만성신경병증 통증 CNP
(Chronic Neuropathic Pain)환자 788 3,640 1,091 4,742 합계 7,981 19,690 449,456 10,514 3,640 1,091 4,742 2. 데이터 분포
-
연령, 성별 등 인구학적 특성을 고려하여 편중되지 않는 데이터를 수집할 수 있도록 설계
환자군이 퇴행성 질환 특성상 고연령층에 분포되어 있어, 실제 유병율을 고려하여 연령대 분포를 설정
구분 정상/질환군 분포 연령대 분포 성별분포 퇴행성 관절통증 환자
(회전근개 파열) DJD_S58세이하:33%(256)
59-67세:36%(280)
68세이상:30%(233)남:여 (1:2) 퇴행성 관절통증 환자
(퇴행성 슬관절) DJD_K642(44.83%) / 790(55.17%) 61세이하:46%(652)
62-70세:32%(457)
71세이상:23%(323)남:여 (1:3) 골다공증성 통증 OP 1,272(25.48%) / 3,720(74.52%) 73세이하:50%(2,477)
74세이상:50%(2,515)남:여 (1:2) 만성신경병증 통증 CNP 40세이하:31%(246)
41세이상:69%(542)남:여 (1:1) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드1. 중증 골다공증(OP)의 유사패턴 검색 모델
- 환자의 이미지를 사용해 유사한 패턴을 가지고 있는 골다공증 영상을 검색하는 인공지능 모델
- 데이터
- 중증 골다공증 환자의 x-ray 이미지
- 타겟 변수: 척추 collapse 정도
- AI모델 사용 환자 이미지: 100% (2,282장)
- Train: 골다공증 골절통증 : 80% (1,826명)
- Test: 골다공증 골절통증 : 20% (456명)
- Elasticsearch 기반 중증 골다공증(OP)의 유사패턴 검색 시스템 구축
- 전이 학습 기반 중증 골다공증(OP)의 유사패턴 검색 모델 개발
- Transfer learning(InceptionResNetV2) 기법을 이용해 이미지에서 feature를 추출하고 vector 공간에 표기
- 중증 골다공증(OP) 유사패턴 검색을 검색하며, 검색엔진은 Elasticsearch를 사용함
- 중증 골다공증(OP)의 유사패턴 검색 모델 성능 평가 방법 및 성능 테스트
- 중증 골다공증(OP) 이미지 입력하고, 검색 결과에서 상위(유사도가 높은) N개를 출력
- 출력 결과에서 검색 이미지와 유사한 이미지의 개수를 count하고 정확도 산출
- 테스트 결과 정확도 0.87
- 활용 시나리오
- 인공지능 유사패턴 검색 모델이 환자 정보를 기반으로 유사 중증 환자를 검색하고 그에 대한 정보를 도출해 전문의에게 제안함으로써 진단, 의사결정을 도울 수 있음
[유사패턴 검색 시스템 흐름도]
2. 만성신경병증성 통증(CNP)의 중증도 예측 모델
- 환자의 이미지, 임상 데이터를 사용해 통증의 중증도를 예측하는 멀티모달 인공지능 모델
- 데이터
- 만성신경병증성 통증 환자의 bone scan 이미지
- 임상 정보 (나이, 성별, 유병기간 등)와 약물 정보 (약물 종류, 처방 기간 등)
- 타겟 변수: 통증지표(visual analogue scale: VAS)
- VAS는 환자 본인이 자신이 느끼는 통증의 정도를 표기하는 환자의 주관적인 지표이기 때문에 데이터를 기반으로 객관적으로 평가하는 결과와 차이가 있으며 모델의 학습, 테스트 결과 및 성능을 기대하기 어려움
- 데이터 전처리 및 분할
- 환자의 임상 정보, 약물 정보의 범주형 데이터에 대해 encoding
- VAS를 타겟으로 binary classification 모델을 학습하기 위해 VAS 1~3, 7~10에 해당하는 환자 1,255명(84%)만 분석 대상으로 함
- 클래스 분포: 정상 176명, 통증 1,079명
- Train Set: 전체 데이터 셋의 80%
- Validation Set: train set의 20% 데이터를 추출해 사용
- Test Set (검증): 전체 데이터 셋의 20%
- 만성신경병증성 통증(CNP)의 중증도 예측 모델
- 이미지 특징 추출 모델로 MobileNetv2, 가중치는 ImageNet을 사용
- 만성신경병증성 통증(CNP)의 중증도 예측 성능 평가
- 성능 평가지표는 Precision, Recall, AUC, Accuracy를 사용함
- Precision: 0.86
- Recall: 0.86
- AUC 0.86
- 활용 시나리오
- 만성신경병증성 통증(CNP)의 중증도 예측 모델을 사용해 환자의 영상 정보, 임상 정보, 약물 정보를 기반으로 통증을 예측하고, 그 결과를 전문의에게 제안함으로써 보다 효율적인 진단, 의사결정을 도울 수 있음
[만성 신경병증성 통증 중증도 예측 흐름도]
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 중증 골다공증 유사 패턴 검색 (유사 패턴 검색) Estimation InceptionResNetV2, ResNet Precision 70 % 87 % 2 만성신경병증성 통증의 중증도 예측 (유사 패턴 검색) Estimation MobileNetV2 Precision 70 % 88 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드대표도면
- 데이터 종류 예시
대표도면 데이터 종류 X-ray MRI 판독문 예시 데이터 구성 관절간격, 연골하골 경화, 골극, 하지정렬 반월판연골 손상, 관절연골 손상, 삼출액유무, 골수부종 유무 진단 결과, 임상 데이터 데이터 포맷 json 포맷, csv 포맷 json 포맷, csv 포맷 json포멧 데이터 종류 Bone scan 체열영상 투시영상 예시 데이터 구성 병변의 비정상여부 상지,체부,하지 균등여부 root block, medial branch block, caudal block, sympathetic blok 평가 데이터 포맷 jpg 포맷 json 포맷 json포멧, jpg포맷 - 질환별 라벨링 예시
구분 X-ray MRI 퇴행성 관절통증 환자
(회전근개 파열) DJD_S데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 구분 X-ray MRI 퇴행성 관절통증 환자
(퇴행성 슬관절) DJD_K데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 구분 X-ray MRI 골밀도 골다공증성 통증 OP
(Osteoporotic Fracture)데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 구분 체열 투시촬영 Bone scan 만성신경병증 통증 CNP
(Chronic Neuropathic Pain)데이터 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 dicom 포맷, json 포맷 - CNP 라벨링데이터 실제 예시
- Json 형식
- 속성 정의
No 항목 길이 타입 필수여부 한글명 영문명 1 어노테이션 정보 annotation Object 1–1 데이터 분류 DATA_CATEGORY Array 1–1–1 골극 lipping Number 1–1–2 연골하골경화 carbonehard Number 1–1–3 반월상연골 돌출 meniscuslt Number 1–1–4 반월상연골 파열 meniscusrup Number 1–1–5 반월상연골 퇴화 meniscusana Number 1–1–6 골수부종 bonemedema Number 1–1–7 삼출액 pleuralefluid Number 1–2 어노테이션 질병분류 disease_category String Y 1–3 어노테이션 결과 데이터 ANNOTATION_DATA Array 1–3–1 저작도구 식별자 id Number 1–3–2 라벨링 label String 1–3–3 저작도구 타입 type String 1–3–4 거리 distMm Number 1–3–5 시작점 vs Object 1–3–5–1 시작점 x좌표 x Number 1–3–5–2 시작점 y좌표 y Number 1–3–6 끝점 ve Object 1–3–6–1 끝점 x좌표 x Number 1–3–6–2 끝점 y좌표 y Number 1–4 임상의료데이터 clinic Object Y 1–4–1 식별자 id String Y 1–4–2 진단명 name String Y 1–4–3 나이 age Number Y 1–4–4 성별 sex Number Y 1–4–5 통증점수 vas Number Y 2 데이터셋 정보 Dataset Object Y 2–1 데이터셋 식별자 identifier String Y 2–2 데이터셋 이름 name String Y 2–3 데이터셋 폴더 위치 src_path String Y 2–4 데이터셋 레이블 폴더 위치 label_path String Y 2–5 데이터셋 질병분류 diseases Number Y 2–6 데이터셋 카테고리 category Number Y 2–7 데이터셋 타입 type Number Y 3 이미지정보 Images Object 3–1 이미지 식별자 (파일명) identifier String 3–2 이미지 파일 확장자 type String 3–3 이미지 가로 크기 (픽셀) width Number 3–4 이미지 세로 크기 (픽셀) height Number 3–5 이미지 생성 일자 dataCaptured String
- Json 형식
- 데이터 종류 예시
-
데이터셋 구축 담당자
수행기관(주관) : 가톨릭대학교 산학협력단
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김진성 02-2258-6844 md1david@catholic.ac.kr · 데이터 구축 총괄 · 데이터 획득, 정제, 가공, 품질관리, 모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜미소정보기술 · 데이터 저작도구 ㈜이너웨이브 · 데이터 품질 ㈜평화이즈 · 데이터 수집, 비식별 차의과대학교 산학협력단 · 데이터 획득, 정제 세종대학교 산학협력단 · AI 모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김진성 02-2258-6844 md1david@catholic.ac.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.