-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2022-07-28 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-26 산출물 추가 등록 경구 약제 리스트 2023-01-09 데이터명 수정 및 승인절차 수정 (기존 안심존에서 자동승인 데이터로 변경) 2022-07-28 콘텐츠 최초 등록 소개
국내 유통되는 다빈도(처방 및 판매) 경구약제 5,000종(전문의약품 3,000종, 일반의약품 2,000종)을 선정하여 다양한 각도, 조명, 배경에서 촬영하여 이미지데이터 셋을 구축하였고 알약에 대한 약제 메타정보와 촬영에 대한 카메라 메타정보, 알약 바운딩박스 정보를 이용하여 라벨링데이터 셋을 구축하였음
구축목적
경구약제 약품식별 결과를 안내하고 피드백 할 수 있는 AI 서비스 모델이 요구되며 이를 위해 학습용 경구약제 이미지데이터 셋과 약품 정보에 대한 라벨링데이터 셋이 요구됨.
-
메타데이터 구조표 데이터 영역 헬스케어 데이터 유형 이미지 데이터 형식 png 데이터 출처 주관기관에서 약품 구입 후 직접 촬영 라벨링 유형 약제 메타정보, 촬영 메타정보, 바운딩박스 라벨링 형식 json 데이터 활용 서비스 약품 식별 서비스 데이터 구축년도/
데이터 구축량2021년/4.5TB -
1. 데이터 구축 규모
1. 데이터 구축 규모 구분 구축목표 구축달성 1종당 이미지 수 합계 1종당 이미지 수 합계 단일 경구약제 1,000종 1,250 1,250,000 1,296 1,296,000 단일 경구약제 4,000종 200 800,000 수량 다양화 1,482,975 (1,296/324/216) 경구약제 조합 5,000조합 3 15,000 3 15,003 총 합계 2,065,000 2,793,978 목표대비 성과율 100% 135% 2. 데이터 분포
2. 데이터 분포 클래스 구분 구축계획 경구 약제 품목(구축달성) 종 수량 비율 전문의약품 60%(±5%) 3,143 62.80% 일반의약품 40%(±5%) 1,857 37.20% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- AI 기반 경구 약제 식별 어플리케이션 개발에 활용
- 의료인의 경구 약제 정보 접근성 강화
- DUR(의약품 안전사용서비스 시스템) 연동 후 약제의 이미지 데이터를 함께 제시함으로써 약제 처방의 오·남용을 예방
- 경구 약제 식별을 통하여 의약품 코드, 의약품명, 제조회사 조회
- 의약품의 효능 및 효과, 부작용 등의 안전정보 조회
- 기존에 먹고 있던 다른 약과의 상호작용, 중복처방, 금기정보 등의 정보 확인 가능
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 경구약제 식별 모델 Object Detection Resnet152 AccuracyTop-5 90 % 10 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 보건복지부는 2000년 의약분업에 적용할 27,962품목의 의약품을 전문 의약품 17,187품목(61.5%), 일반의약품 10,775품목(38.5%)으로 분류. 전문의약품과 일반의약품의 품목 비율(6:4)을 고려하여 리스트 선정
- 보건복지부의 의약품 분류별 약품 개수 확인(2021년 7월 기준). 다빈도 등록 약품을 우선순위로 확보하여 약품 개수 선정
- 전문의약품 3,143(62.8%)종, 일반의약품 1,857(37.2%)종을 확보
- 확보된 경구 약제는 다양한 각도와 조명, 배경에서 촬영하여 원천데이터를 확보하고, 약제에 대한 메타정보와 촬영 메타정보, 바운딩 박스로 라벨링데이터를 구축함
- 경구약제 단일 이미지데이터와 3-4개 조합 이미지데이터 구축
구분 정제 경구약제 경질 캡슐 경구약제 연질 캡슐 경구약제 경구약제 조합 이미지데이터 - 이미지데이터 가공 및 라벨링데이터 추출
- JSON 구조
JSON 구조 구분 항목명 타입 필수여부 설명 범위 1 images Object M 약제 이미지정보 1-1 images[].id Number M 약제 이미지식별자 1-2 images[].width Number M 약제 이미지너비 1-3 images[].height Number M 약제 이미지높이 1-4 images[].file_name String M 약제 이미지파일명 1-5 images[].drug_N String M 알약코드 1-6 images[].drug_S String M 알약상태 1-7 images[].back_color String M 촬영배경 1-8 images[].drug_dir String M 알약방향 1-9 images[].light_color String M 촬영조명 1-10 images[].camera_la Number M 카메라위도 1-11 images[].camera_lo Number M 카메라경도 1-12 images[].size Number M 이미지 사이즈 1-13 images[].dl_idx String M 알약 식별자 1-14 images[].dl_mapping_code String M 제품코드 1-15 images[].dl_name String M 제품명 1-16 images[].dl_name_en String O 제품명(영어) 1-17 images[].img_key String M 이미지 링크 1-18 images[].dl_material String M 성분명 1-19 images[].dl_material_en String O 성분명(영어) 1-20 images[].dl_custom_shape String M 제조 모양 1-21 images[].dl_company String M 제조사명 1-22 images[].dl_company_en String O 제조사명(영어) 1-23 images[].di_company_mf String M 위탁제조사명 1-24 images[].di_company_mf_en String O 위탁제조사명(영어) 1-25 images[].item_seq Number M 품목기준코드 1-26 images[].di_item_permit_date Date O 허가일자 YYYY-MM-DD 1-27 images[].di_class_no String M 약품 분류 1-28 images[].di_etc_otc_code String M 전문의약품/
일반의약품1-29 images[].di_edi_code String M EDI 코드 1-30 images[].chart String M 알약 제형 1-31 images[].drug_shape String M 알약 모양 1-32 images[].thick Number M 알약 두께 1-33 images[].leng_long Number M 알약 장축 1-34 images[].leng_short Number M 알약 단축 1-35 images[].print_front String C 식별문자_앞 1-36 images[].print_back String C 식별문자_뒤 1-37 images[].color_class1 String M 색상 1 1-38 images[].color_class2 String O 색상 2 1-39 images[].line_front String M 알약 앞면
분할선 여부1-40 images[].line_back String M 알약 뒷면
분할선 여부1-41 images[].img_regist_ts Date O 약학정보원 이미지 생성일 YYYY-MM-DD 1-42 images[].form_code_name String M 정제 분류명 1-43 images[].mark_code_front_anal String M 알약 앞면
마크 형태1-44 images[].mark_code_back_anal String M 알약 뒷면
마크 형태1-45 images[].mark_code_front_img String M 알약 앞면
마크 이미지1-46 images[].mark_code_back_img String M 알약 뒷면
마크 이미지1-47 images[].mark_code_front String M 알약 앞면
마크 코드1-48 images[].mark_code_back String M 알약 뒷면
마크 코드1-49 images[].change_date Date O 변경일자 YYYY-MM-DD 2 type type O json 타입 3 annotations Object M 라벨링정보 3-1 annotations[].area Number M 바운딩박스 면적 3-2 annotations[].iscrowd Number O 평가 분류 3-3 annotations[].bbox List M bbox 좌표 3-4 annotations[].category_id Number M category 아이디 3-5 annotations[].ignore Number O 무시 여부 3-6 annotations[].segmentation List O 라벨링
바운딩 박스3-7 annotations[].image_id Number M 이미지 아이디 3-8 annotations[].id Number M 어노테이션 아이디 4 categories Object M 라이선스 4-1 categories[].supercategory String M 슈퍼 카테고리 4-2 categories[].id Number M 카테고리 아이디 4-3 categories[].name String C 카테고리 명 - 라벨링데이터 실제 데이터
-
데이터셋 구축 담당자
수행기관(주관) : 서울특별시 보라매병원
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 이시욱 02-870-2671 shiuk.lee@gmail.com · 경구약제 이미지데이터 구축 총괄 수행기관(참여)
수행기관(참여) 기관명 담당업무 경희대학교 산학협력단 · 경구약제 목록 및 약제 정보 DB 구축
· 이미지데이터 수집
· 데이터 검수㈜원스글로벌 · 경구약제 목록 및 약제 정보 DB 구축
· 데이터 검수부광아이티㈜ · 경구약제 이미지데이터 수집 및 정제 인피노브㈜ · 이미지데이터 가공 및 라벨링데이터 추출
· 데이터 검수㈜모비소프트 · 경구약제 이미지데이터 수집 ㈜더유니파이 · 인공지능 알고리즘 개발
· 알고리즘 유효성 검증
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.