-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-06-28 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 상수도관로의 이상을 손상 없이 탐지하기 위해, 소프트 스킨의 생체모방 주행 로봇을 내부 투입하고, 각종 센서 및 장비를 통한 영상/음향 정보를 수집 후, AI 기반 빅데이터 분석 통해 이상유무 판단 및 예측 수행할 데이터 구축함 <데이터의 한계> 외부 음향데이터가 기존에는 상수도관 내의 이상부분에서의 음향의 차이가 있을 것으로 예측하고 수집하였으나 이상징후의 종류에 따른 차이가 크지 않았음
구축목적
- 상수도관 내외부 조사를 통한 양질의 데이터 축적으로 AI의 감지 효율성과 정확성 향상을 도모하여 이상징후에 대한 선제적 대응이 가능케하며, 이상 징후로 인한 사회적 비용 손실을 최소화시키는 것을 목표로 함
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 오디오 , 이미지 데이터 형식 이미지(png), 음향(wav) 데이터 출처 상수도관 실측 (지자체) 라벨링 유형 폴리곤(이미지) 라벨링 형식 JSON 데이터 활용 서비스 1. 상수도관내 이상징후에 대한 분류 활용 2. AI 모델을 활용한 상수도관 상태 예측 활용 3. 상수도관 교체주기에 따른 사전 로봇 탐사 활용 데이터 구축년도/
데이터 구축량2023년/원천 데이터 : 내부 이미지(109,350), 내부 음향(109,350), 외부 음향(109,350) 라벨링 데이터 : 멀티모달(109,350) -
- 데이터 규모
- 총 4개 지자체의 도수관, 송수관, 배수관을 대상으로 원천 데이터 구성
- 내부 이미지, 내부 음향, 외부 음향 각각 109,350건의 수집데이터 정제하였으며, 각각의 데이터를 가공하여 멀티모달 json 파일 109,350건 데이터 생성함데이터 규모 지자체 사용
목적관종 관경 원천데이터 가공
데이터이미지 내부음향 외부음향 멀티모달 제주 송수관 주철관 600 16,612 16,612 16,612 16,612 시흥 배수관 강관 1100 5,029 5,029 5,029 5,029 강관 900 13,900 13,900 13,900 13,900 송수관 강관 700 8,253 8,253 8,253 8,253 전주 도수관 강관 800 485 485 485 485 진도 배수관 주철관 700 19,169 19,169 9,169 19,169 배수관 강관 500 21,904 21,904 21,904 21,904 배수관 강관 600 2,194 2,194 2,194 2,194 300 21,804 21,804 21,804 21,804 합계 109,350 109,350 109,350 109,350 - 데이터분포
데이터분포 항목 조건 구분 비율 지역 제주특별자치도 15.19% 전주시 0.44% 진도군 59.51% 시흥시 24.86% 관경 300mm이하 15.49% 500~600mm 41.68% 700~800mm 25.52% 900mm 12.71% 1100mm 4.60% 사용목적 도수관 0.44% 송수관 22.74% 배수관 76.82% 관 종류 강관 66.83% 주철관 33.17% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 의미적 분할(Semantic Segmentation) 모델
● 활용 모델: MaskDINO 모델을 배관 내부 이미지 내에 있는 결함 관련 객체들을 분할하고, 이에 대응되는 클래스 정보를 추출하도록 학습
- MaskDINO는 Transformer 기반 Semantic Segmentation 모델 중 최근 가장 좋은 성능을 보인 모델로, Transformer 기반의 Encoder-Decoder 구조를 이용하는 동시에 마스킹된 객체의 위치와 픽셀값을 예측하기 위한 Attention 메커니즘이 적용되었음.(https://github.com/IDEA-Research/MaskDINO)
● 서비스 활용 시나리오
- 구축한 모델은 상수도관 내부 영상 분석을 위한 사전 결함 인식에 활용될 수 있음.
- 배관내 결함의 모양, 크기, 위치를 픽셀 단위의 작업 영역들로 분할하여 인식 가능함.- 멀티모달 데이터 분류 모델
● 활용 모델: Vision Transformer (ViT) 모델을 관내 영상, 관내/관외 음향 스펙트로그램 이미지 각각의 상태를 분류하도록 학습하고, 각 모델 결과를 통합(weighted sum)하는 분류기를 이용하여 관내 상태 클래스 정보를 출력
- ViT는 최근 딥러닝 계열 모델들 중에서 가장 우수한 성능을 보이는 Transformer 구조를 기반으로 하며, 이미지를 고정된 크기의 패치로 분할하고 각 패치를 벡터로 인코딩하여 이미지의 시각적 패턴을 이해하고 효과적으로 전역 정보를 학습하는 방법(https://github.com/google-research/vision_transformer)
● 서비스 활용 시나리오
- 구축한 모델은 관내 영상, 관내 음향, 관외 음향의 총 3가지 데이터를 이용하여 관내의 상태 예측에 활용 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
어노테이션 포맷 데이터 구성 Key Description Type Child Type pipe_id 상수도관 ID String local_gov_name 지자체명(ex:시흥시) String 한글명 use_purpose 사용목적(ex:송수관) String 한글명 installation_year 매설년도(ex:2001) Number pipe_length 길이(km) Number pipe_type 관종(ex:강관) String 한글명 pipe_diameter 관경(mm) Number data_id 데이터 ID String detection_time 탐지 시간(“yyyymmdd hh:mm:ss.d”) String detection_position 탐지 지점(구간) Number detection_order 탐지 순번 Number multi_modal_label 멀티모달 데이터 라벨(ex:’A1) Array image_id 내부 이미지 ID String image_file_name 내부 이미지 파일명 String image_original_file_name 내부 이미지 원시 파일명 String image_height 내부 이미지 세로 크기 Number image_width 내부 이미지 가로 크기 Number annotations 어노테이션 정보 String polygon_info 폴리곤 정보 Array image_label 객체 라벨(ex:’A1) String audio_inside_id 내부 음향 ID String audio_inside_file_name 내부 음향 파일명 String audio_inside_original_file_name 내부 음향 원시 파일명 String audio_inside_num_channels 내부 음향 채널수 Number audio_inside_sample_width 내부 음향 샘플크기 Number audio_inside_frame_rate 내부 음향 프레임률 Number audio_inside_num_frames 내부 음향 프레임수 Number audio_inside_length 내부 음향 길이 Number audio_inside_timestamp_start 내부 음향 타임스탬프 시작 시간 9“yyyymmdd hh:mm:ss.d”_ String audio_inside_timestamp_end 내부 음향 타임스탬프 종료 시간 (“yyyymmdd hh:mm:ss.d”) String audio_inside_label 내부 음향 라벨(ex:“N’) String audio_outside_id 외부 음향 ID String audio_outside_file_name 외부 음향 파일명 String audio_outside_original_file_name 외부 음향 원시 파일명 String audio_outside_num_channels 외부 음향 채널수 Number audio_outside_sample_width 외부 음향 샘플크기 Number audio_outside_frame_rate 외부 음향 프레임률 Number audio_outside_num_frames 외부 음향 프레임수 Number audio_outside_length 외부 음향 길이 Number audio_outside_timestamp_start 외부 음향 타임스탬프 시작 시간 (“yyyymmdd hh:mm:ss.d”) String audio_outside_timestamp_end 외부 음향 타임스탬프 종료 시간 (“yyyymmdd hh:mm:ss.d”_ String audio_outside_label 외부 음향 라벨(ex:“N’) String - 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 최대값 필수
여부설명 범위 1 pipe_info Object 상수도관 정보 1-1 pipe_id String 30 Y 상수도관 ID 1-2 local_gov_name String Y 지자체명 제주시/시흥시/전주시/
진도군1-3 use_purpose String Y 사용목적 도수관/송수관/배수관 1-4 installation_year Number 2020 Y 매설년도 1990 ~ 2020 1-5 pipe_length Number 10 Y 길이(km) 1.0 ~ 10.0 1-6 pipe_type String Y 관종 강관/주철관 1-7 pipe_diameter Number 1100 Y 관경(mm) 300mm/500mm/600
mm/700mm/800mm/
900mm/1100mm2 data_info Object 데이터 정보 2-1 data_id String 30 Y 데이터 ID 2-2 detection_time String Y 탐지 시간 “yyyymmdd
hh:mm:ss.d”2-3 detection_position Number 99 Y 탐지 지점(구간) 2-4 detection_order Number Y 탐지 순번 2-5 multi_modal_label Array Y 멀티모달 데이터 라벨 “A1”, “A2”, “A3”,
“A4”, “A5”3 image_inside_info Object 내부 이미지 정보 3-1 image_id String 30 Y 내부 이미지 ID 3-2 image_file_name String 30 Y 내부 이미지 파일명 3-3 image_original_
file_nameString 30 Y 내부 이미지
원시 파일명3-4 image_height Number 1080 Y 내부 이미지 세로 크기 3-5 image_width Number 1920 Y 내부 이미지 가로 크기 3-6 annotations String Y 어노테이션 정보 3-6-1 polygon_info Array 폴리곤 정보 3-6-1-1 x Number 1920 Y 폴리곤 좌표(x) 3-6-1-2 y Number 1080 Y 폴리곤 좌표(y) 3-6-2 image_label String Y 객체 라벨 “A1”, “A2”, “A3”,
“A4”, “A5”4 audio_inside_info Object 내부 음향 정보 4-1 audio_inside_id String 30 Y 내부 음향 ID 4-2 audio_inside_
file_nameString 30 Y 내부 음향 파일명 4-3 audio_inside_
original_file_nameString 30 Y 내부 음향
원시 파일명4-4 audio_inside_
num_channelsNumber 10 Y 내부 음향 채널수 4-5 audio_inside_
sample_widthNumber 10 Y 내부 음향 샘플크기 4-6 audio_inside_
frame_rateNumber Y 내부 음향 프레임률 4-7 audio_inside_
num_framesNumber Y 내부 음향 프레임수 4-8 audio_inside_length Number Y 내부 음향 길이 4-9 audio_inside_
timestamp_startString Y 내부 음향 타임
스탬프 시작 시간“yyyymmdd
hh:mm:ss.d”4-10 audio_inside_
timestamp_endString Y 내부 음향 타임
스탬프 종료 시간“yyyymmdd
hh:mm:ss.d”4-11 audio_inside_label String Y 내부 음향 라벨 “N”, “A” 5 audio_outside_info Object 외부 음향 정보 5-1 audio_outside_id String 30 Y 외부 음향 ID 5-2 audio_outside_
file_nameString 30 Y 외부 음향 파일명 5-3 audio_outside_
original_file_nameString 30 Y 외부 음향
원시 파일명5-4 audio_outside_
num_channelsNumber 10 Y 외부 음향 채널수 5-5 audio_outside_
sample_widthNumber 10 Y 외부 음향 샘플크기 5-6 audio_outside_
frame_rateNumber Y 외부 음향 프레임률 5-7 audio_outside_
num_framesNumber Y 외부 음향 프레임수 5-8 audio_outside_
lengthNumber Y 외부 음향 길이 5-9 audio_outside_
timestamp_startString Y 외부 음향 타임
스탬프 시작 시간“yyyymmdd
hh:mm:ss.d”5-10 audio_outside_
timestamp_endString Y 외부 음향 타임
스탬프 종료 시간“yyyymmdd
hh:mm:ss.d”5-11 audio_outside_label String Y 외부 음향 라벨 “N”, “A” - JSON 예시
어노테이션 예시 ● SIHEUNG_B_5.json {
"pipe_info": {
"pipe_id": "SIHEUNG_B_5",
"local_gov_name": "시흥시",
"use_purpose": "송수관",
"installation_year": 2001,
"pipe_length": 5,
"pipe_type": "강관",
"pipe_diameter": 700
},
"data_info": {
"data_id": "SIHEUNG_B_51_000000",
"detection_time": "20231106 00:00:00.0",
"detection_position": 51,
"detection_order": 0,
"multi_modal_label": [
"A2"
]
},
"image_inside_info": {
"image_id": "SIHEUNG_B_51_000000_II",
"image_file_name": "SIHEUNG_B_51_000000_II.png",
"image_original_file_name": "SIHEUNG_B_51.mp4",
"image_height": 1080,
"image_width": 1920,
"annotations": [
{
"polygon_info": [
{
"x": 791.2156479779412,
"y": 1054.8235294117646
},
],
"image_label": "A4"
},
{
"x": 949,
"y": 1080
},
...
}
],
"image_label": "A2"
}
]
},
"audio_inside_info": {
"audio_inside_id": "SIHEUNG_B_51_000000_AI",
"audio_inside_file_name": "SIHEUNG_B_51_000000_AI.wav",
"audio_inside_original_file_name": "SIHEUNG_B_51_AI.wav",
"audio_inside_num_channels": 1,
"audio_inside_sample_width": 2,
"audio_inside_frame_rate": 22050,
"audio_inside_num_frames": 110250,
"audio_inside_length": 5.0,
"audio_inside_timestamp_start": "20231105 23:59:57.5",
"audio_inside_timestamp_end": "20231106 00:00:02.5",
"audio_inside_label": "N"
},
"audio_outside_info": {
"audio_outside_id": "SIHEUNG_B_51_000000_AO",
"audio_outside_file_name": "SIHEUNG_B_51_000000_AO.wav",
"audio_outside_original_file_name": "SIHEUNG_B_51_AO.wav",
"audio_outside_num_channels": 1,
"audio_outside_sample_width": 2,
"audio_outside_frame_rate": 8000,
"audio_outside_num_frames": 40000,
"audio_outside_length": 5.0,
"audio_outside_timestamp_start": "20231105 23:59:57.5",
"audio_outside_timestamp_end": "20231106 00:00:02.5",
"audio_outside_label": "N"
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜모핑아이
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 이경민 02-711-5809 km0107@morphingi.com 데이터 수집/정제/가공 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜써로마인드 AI 학습모델 ㈜진우소프트이노베이션 외부음향 데이터 수집 한국정보평가원(주) 검사 및 TTA 품질검증 대응 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 남상설 02-711-5809 ssnam0320@morphingi.com 이경민 02-711-5809 info@morphingi.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이충연 02-872-5127 cylee@surromind.ai 김택완 02-872-5127 dbher@surromind.ai 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 박지홍 02-711-5809 elan5027@morphingi.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.