-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-07-05 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-07-05 산출물 공개 Beta Version 소개
- 긴급 신고 음성 데이터 약 3천 시간 분량과 1:1 매칭된 음성 전사 텍스트 데이터. 구급/구조/화재/기타 4종으로 분류되어 있으며 성별, 긴급도, 감정 상태 분류 태그를 포함함
구축목적
- 위급상황 데이터 중 소방안전과 관련된 데이터를 활용하여, 향후 119 신고접수 관련 AI 개발 시 긴급 신고 분석 및 재난 상황 판단에 활용할 수 있도록 유형별 긴급도, 성별, 감정 상태를 반영한 인공지능 학습용 데이터셋 구축이 목적
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 오디오 , 텍스트 데이터 형식 wav 데이터 출처 서울종합방재센터, 인천소방본부, 광주소방본부 라벨링 유형 전사(음성), 분류 태그(성별/긴급도/감정 상태) 라벨링 형식 json 데이터 활용 서비스 인공지능 신고접수 시스템 구축 및 고도화 데이터 구축년도/
데이터 구축량2023년/158,973건 -
- 데이터 구축 규모
- 데이터 수량 :1) 신고 접수 통화 음성 데이터 3,064시간
2) 신고 접수 통화 음성에 1:1 매핑되는 텍스트 데이터 158,973건
- 데이터 분포 및 통계
- 신고 종류별 분포 4종 및 (16종)데이터 분포 및 통계 대분류 중분류 수량(건) 비율 구급 질병(중증 외) 72,154 46.97% 부상 16,903 11.00% 질병(중증) 16,056 10.45% 기타구급 9,650 6.28% 심정지 3,118 2.03% 사고 1,592 1.04% 임산부 307 0.20% 약물중독 259 0.17% 구조 안전사고 11,250 7.32% 기타구조 7,962 5.18% 대물사고 3,201 2.08% 자살 404 0.26% 화재 일반화재 9,256 6.03% 기타화재 1,348 0.88% 산불 147 0.10% 기타 기타 5,366 3.49% 계 158,973 100% - 신고 지역별 분포
신고 지역별 분포 항목 수량(건) 비율 서울 104,496 66.73% 광주 26,049 16.39% 인천 28,428 17.88% 합계 158,973 100% - 분류 태그(성별/긴급도/감정 상태)별 분포
①성별 분포성별 분포 항목 수량(건) 비율 여성 76,161 47.91% 남성 82,812 52.09% 합계 158,973 100% ②긴급도별 분포
긴급도별 분포 항목 수량(건) 비율 상 49,101 30.89% 중 53,421 33.60% 하 56,451 35.51% 합계 158,973 100% ③감정 상태별 분포
감정 상태별 분포 항목 수량(건) 비율 불안/걱정 85,156 53.57% 당황/난처 59,843 37.64% 중립 10,411 6.55% 기타부정 3,563 2.24% 합계 158,973 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- NLP 기반 긴급재난/중증질환 분류 판단 모델
모델학습
- 119 신고전화의 발화 텍스트를 기반으로 구급/비구급 상황을 분류하는 모델
- Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
- 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA에 Sequence Classificiaton 방식으로 Fine-tuning
- 성능 지표 : Accuracy (Weighted)
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능 : Accuracy (Weighted) 89.4858%서비스 활용 시나리오
- 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보- 음성(환경음)과 NLP 기반 긴급재난/중증질환 판단 멀티모달 모델
모델학습
- 119 신고전화의 발화 텍스트와 음성을 기반으로 신고 종류를 분류하는 모델
- Trnasformer기반의 언어모델 Kc-ELECTRA와 Transformer기반의 음성처리 모델 AST(MFCC)를 사용
- 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA와 AST(MFCC)모델에 입력하여 나온 각각의 임베딩을 융합하여 MLP기반의 Classifier에 입력함으로 Fine-tuning
- 성능 지표 : Accuracy (Weighted)
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능 : Accuracy (Weighted) 91.1307%서비스 활용 시나리오
- 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보- 음성-텍스트 변환 모델
모델학습- 해당 모델은 음성 녹취파일을 텍스트로 변환해주는 STT(Speech-to-text) 모델임
- 음성인식 모델로 최근 가장 좋은 성능 결과를 보이고 있는 소리 모델과 언어모델이 통합된 구조인 딥러닝 기반의 종단간(End-to-End) ASR(Automatic Speech Recognition) 방식 활용
- Encoder-Decoder Joint CTC-Attention 모델을 사용
- Encoder: Conformer, Decoder: Transformer
- 성능 지표 : CER
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능: CER 10 미만서비스 활용 시나리오
- 119 지능형 신고접수 음성 전사 고도화에 활용하여 출동 골든타임 확보- NLP 기반 종 분류 모델
모델학습- 119 신고전화의 발화 텍스트를 기반으로 신고 종류를 분류하는 모델
- Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
- 16종의 신고 분류를 태깅한 학습 데이터를 Kc-ELECTRA에 Sequence Classification 방식의 fine-tuning
- 성능 지표 : F1-score (Weighted)
- 학습데이터 : 신고전화 데이터 63% 분량
- 분류 성능 : F1-score (Weighted) 90 이상서비스 활용 시나리오
- 119 지능형 신고 접수 시스템 고도화에 활용하여 출동 골든타임 확보 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 재난 및 응급상황의 복합성이 증가하고 위급상황 패러다임 자체도 변화하여 신고 접수자의 경험과 직관에 의존하는 신고 접수 방식은 한계를 드러내고 있다. 또한 긴급 신고에 대한 신속, 정확한 응대가 이루어지지 않으면 피해가 더욱 커질 수 있어 신고 접수 시스템 개선 필요성은 높은 상황이다.
- 현재 소방본부에 구축된 시스템들은 음성을 텍스트로 전환하여 핵심 키워드 추출 및 위치 정보 확인에 집중할 뿐 신고 상황의 긴급도에 관한 판단은 신고 접수자의 역량에 기대고 있다. 따라서 응급 신고 접수 전 단계의 응대 역량 강화를 위해서는 고도화된 인공지능 도입이 필요한데, 유사 패턴 신고를 활용한 재난 상황 예측이나 위급 상황 예측 모델 등 긴급도에 대한 분석 및 상황 판단까지 제공할 수 있는 모델이 필요하다.
- 기존의 위급상황 음성/음향 데이터는 소방 긴급 신고 데이터의 비중이 높지 않다. 또한 대부분이 실제 신고 전화를 활용한 데이터가 아닌 관계로 인공지능 학습 시 효용성이 낮으며 응급상황에 대한 긴급도 역시 반영되어 있지 않다. 따라서 실제 신고 전화를 활용한 위급상황 음성/음향 데이터 고도화를 통해 향후 소방 신고 접수 시스템에 인공지능 도입 시 긴급 신고 분석 및 상황 판단까지 지원할 수 있도록 모델 학습에 유용한 데이터를 구축하였다.
- 본 데이터셋은 서울/인천/광주 지역소방본부에서 전달받은 실제 신고접수 음성 3,064시간 및 158,973건의 메타 데이터를 사용하였다. 신고 전화 음성을 전사하고, 신고접수 내용을 16종별(질병, 임산부, 산불 등)로 구분하였으며 그에 따른 긴급도를 상, 중, 하로 분류하였다. 또한 신고자의 성별, 감정 상태를 라벨링하였다. 이 과정에서 개발하여 AI허브에 개방하는 모델은 총 4개이며 아래와 같다.
- NLP 기반 긴급재난/중증 질환 판단 모델
- 음성(환경음)을 포함한 NLP 기반 긴급재난/중증 질환 판단 멀티모달 모델
- 음성-텍스트 변환 모델
- NLP 기반 종 분류 모델
- 데이터 구성데이터 구성 Key Description Type Child Type _id 작업아이디 String audioPath 오디오파일 경로 String recordId 녹취아이디 String status 구축 단계별 상태 String startAt 시작(초) Number endAt 종료(초) Number utterences 발화 JsonArray JsonObject [ 문서배열 JsonObject id 발화아이디 String startAt 발화시작(초) Number endAt 발화종료(초) Number text 발화내용 String speaker 화자 Number ] mediaType 접수/접수채널 String gender 신고자성별 String sentiment 감정 분류 String disasterLarge 대분류 String disasterMedium 중분류 String urgencyLevel 긴급도 레벨 String address 주소 String symptom 환자증상 Array String [ String ] triage 환자분류 String - 어노테이션 포맷
어노테이션 포맷 구분 속성명 타입 필수여부 설명 범위 비고 1 _id String O 작업아이디 2 audioPath String O 오디오파일 경로 3 recordId String O 녹취아이디 4 status String O 구축 단계별 상태 4~12 완료값 : 12 5 startAt Number O 시작(초) 0 기본값:0 6 endAt Number O 종료(초) 30,000
~180,000/ms 7 utterences Object 발화 7-1 utterences[].id String 발화아이디 7-2 utterences[].startAt Number 발화시작(초) 0
~179,999/ms 7-3 utterences[].endAt Number 발화종료(초) 1
~180,000/ms 7-4 utterences[].text String 발화내용 7-5 utterences[].speaker Number 화자 0,1 0:수보자
1:신고자8 mediaType String 접수/접수채널 Hompage
Mobile
Chatbot
KakaoTalk
Line
전화
기타9 gender String 신고자성별 M: 남성
F: 여성10 sentiment String 감정 분류 당황/난처
불안/걱정
중립
기타부정11 disasterLarge String 대분류 구급
구조
화재
기타12 disasterMedium String 중분류 13 urgencyLevel String 긴급도 레벨 상, 중 하 14 address String 주소 15 symptom Array 환자증상 16 triage String 환자분류 *프로퍼티 설명(property_name)
프로퍼티 설명(property_name) 구분 속성명 유효값 설명 4 status 4~12 4: 가공자 라벨링 준비 단계
5: 가공자 라벨링 할당 단계
6: 가공자 라벨링 저장 단계
7: 가공자 라벨링 완료 단계
8: 검수자 라벨링 준비 단계
9: 검수자 라벨링 할당 단계
10: 검수자 라벨링 저장 단계
11: 검수자 라벨링 완료 단계
12: 라벨링 완료 단계6 endAt 30000
~180,000단위: msec (30초~180초) 7-5 utterences[].speaker 0,1 0: 수보자
1: 신고자- 원문데이터 포맷 : 긴급신고 음성 데이터(wav)
- 실제 예시
실제 예시 데이터
예시
• 긴급 신고 음성 데이터
- 원천 데이터(wav)
- 라벨 데이터(json)
{
"_id" : "64d9fdff3e12da15ae3a359e",
"audioPath" : "20230814/Incheon/2023/02/07/016/converted_20230207065612_4016-016.wav",
"recordId" : "9d7cc435cca747a1a731",
"status" : 12,
"startAt" : 0,
"endAt" : 94200,
'utterances': [
{
"id" : "fc2db008",
"startAt" : 25173,
"endAt" : 29406,
"text" : "부계동 어, 부계역 바로 앞에 있는 대동아파트거든요. ",
"speaker" : 0
},
{
"id" : "wavesurfer_otjm8pn3rq",
"startAt" : 40433,
"endAt" : 46847,
"text" : "아들 분 아드님이 어깨 탈골 돼서, 지금 그 아드님이랑 같이 있는 분 뭐, 연락처 저, 있나요?",
"speaker" : 1
},
“mediaType”: 'mobile',
“gender”: 'M',
“address” : "인천광역시 부평구 부개동"
“disasterLarge”: 구급,
“disasterMedium”: 질병(중증 외),
“urgencyLevel”: 중,
"sentiment": "불안/걱정",
"symptom": ["기타통증"],
"triage": "준응급증상"
} -
데이터셋 구축 담당자
수행기관(주관) : 아일리스프런티어
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 장준 070-4530-5786 jeijei12@aift.kr 사업 총괄, 데이터 획득/정제/가공/검수, AI모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 리턴제로 저작도구 커스터마이징, 데이터 정제/가공/검수, AI모델 개발 중앙대학교 산학협력단 데이터 획득, AI모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 아일리스프런티어 송용관 이사 070-4530-5786 gariox@aift.kr 아일리스프런티어 장준 이사 070-4530-5786 jeijei12@aift.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 [책임자] 아일리스프런티어 송용관 이사 070-4530-5786 changheelee@cau.ac.kr [모델1,2담당] 중앙대학교 이창희 교수 02-820-5707 changheelee@cau.ac.kr [모델3담당] 리턴제로 문형준 팀장 02-555-1271 ken@rtzr.ai [모델4담당] 아일리스프런티어 장준 이사 070-4530-5786 jeijei12@aift.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 리턴제로 이현종 이사 02-555-1271 rene@rtzr.ai 리턴제로 문형준 팀장 02-555-1271 ken@rtzr.ai
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.