AI-Hub

#자연어 #음성 #안전

위급상황 음성/음향 (고도화) - 119 지능형 신고접수 음성 인식 데이터

분야재난안전환경
유형 오디오 , 텍스트

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 14,117 다운로드 : 445 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-07-05	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2025-05-08	구축업체 정보수정
2024-07-05	산출물 공개	Beta Version

소개

- 긴급 신고 음성 데이터 약 3천 시간 분량과 1:1 매칭된 음성 전사 텍스트 데이터. 구급/구조/화재/기타 4종으로 분류되어 있으며 성별, 긴급도, 감정 상태 분류 태그를 포함함

구축목적

- 위급상황 데이터 중 소방안전과 관련된 데이터를 활용하여, 향후 119 신고접수 관련 AI 개발 시 긴급 신고 분석 및 재난 상황 판단에 활용할 수 있도록 유형별 긴급도, 성별, 감정 상태를 반영한 인공지능 학습용 데이터셋 구축이 목적

메타데이터 구조표
데이터 영역	재난안전환경	데이터 유형	오디오 , 텍스트
데이터 형식	wav	데이터 출처	서울종합방재센터, 인천소방본부, 광주소방본부
라벨링 유형	전사(음성), 분류 태그(성별/긴급도/감정 상태)	라벨링 형식	json
데이터 활용 서비스	인공지능 신고접수 시스템 구축 및 고도화	데이터 구축년도/ 데이터 구축량	2023년/158,973건

- 데이터 구축 규모
- 데이터 수량 :

1) 신고 접수 통화 음성 데이터 3,064시간

2) 신고 접수 통화 음성에 1:1 매핑되는 텍스트 데이터 158,973건

- 데이터 분포 및 통계
- 신고 종류별 분포 4종 및 (16종)

데이터 분포 및 통계
대분류	중분류	수량(건)	비율
구급	질병(중증 외)	72,154	46.97%
	부상	16,903	11.00%
	질병(중증)	16,056	10.45%
	기타구급	9,650	6.28%
	심정지	3,118	2.03%
	사고	1,592	1.04%
	임산부	307	0.20%
	약물중독	259	0.17%
구조	안전사고	11,250	7.32%
	기타구조	7,962	5.18%
	대물사고	3,201	2.08%
	자살	404	0.26%
화재	일반화재	9,256	6.03%
	기타화재	1,348	0.88%
	산불	147	0.10%
기타	기타	5,366	3.49%
계		158,973	100%

- 신고 지역별 분포

신고 지역별 분포
항목	수량(건)	비율
서울	104,496	66.73%
광주	26,049	16.39%
인천	28,428	17.88%
합계	158,973	100%

- 분류 태그(성별/긴급도/감정 상태)별 분포
①성별 분포

성별 분포
항목	수량(건)	비율
여성	76,161	47.91%
남성	82,812	52.09%
합계	158,973	100%

②긴급도별 분포

긴급도별 분포
항목	수량(건)	비율
상	49,101	30.89%
중	53,421	33.60%
하	56,451	35.51%
합계	158,973	100%

③감정 상태별 분포

감정 상태별 분포
항목	수량(건)	비율
불안/걱정	85,156	53.57%
당황/난처	59,843	37.64%
중립	10,411	6.55%
기타부정	3,563	2.24%
합계	158,973	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- NLP 기반 긴급재난/중증질환 분류 판단 모델
모델학습

- 119 신고전화의 발화 텍스트를 기반으로 구급/비구급 상황을 분류하는 모델
- Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
- 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA에 Sequence Classificiaton 방식으로 Fine-tuning
- 성능 지표 : Accuracy (Weighted)
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능 : Accuracy (Weighted) 89.4858%

서비스 활용 시나리오
- 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보

- 음성(환경음)과 NLP 기반 긴급재난/중증질환 판단 멀티모달 모델
모델학습

- 119 신고전화의 발화 텍스트와 음성을 기반으로 신고 종류를 분류하는 모델
- Trnasformer기반의 언어모델 Kc-ELECTRA와 Transformer기반의 음성처리 모델 AST(MFCC)를 사용
- 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA와 AST(MFCC)모델에 입력하여 나온 각각의 임베딩을 융합하여 MLP기반의 Classifier에 입력함으로 Fine-tuning
- 성능 지표 : Accuracy (Weighted)
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능 : Accuracy (Weighted) 91.1307%

서비스 활용 시나리오
- 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보

- 음성-텍스트 변환 모델
모델학습

- 해당 모델은 음성 녹취파일을 텍스트로 변환해주는 STT(Speech-to-text) 모델임
- 음성인식 모델로 최근 가장 좋은 성능 결과를 보이고 있는 소리 모델과 언어모델이 통합된 구조인 딥러닝 기반의 종단간(End-to-End) ASR(Automatic Speech Recognition) 방식 활용
- Encoder-Decoder Joint CTC-Attention 모델을 사용
- Encoder: Conformer, Decoder: Transformer
- 성능 지표 : CER
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능: CER 10 미만

서비스 활용 시나리오
- 119 지능형 신고접수 음성 전사 고도화에 활용하여 출동 골든타임 확보

- NLP 기반 종 분류 모델
모델학습

- 119 신고전화의 발화 텍스트를 기반으로 신고 종류를 분류하는 모델
- Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
- 16종의 신고 분류를 태깅한 학습 데이터를 Kc-ELECTRA에 Sequence Classification 방식의 fine-tuning
- 성능 지표 : F1-score (Weighted)
- 학습데이터 : 신고전화 데이터 63% 분량
- 분류 성능 : F1-score (Weighted) 90 이상

서비스 활용 시나리오
- 119 지능형 신고 접수 시스템 고도화에 활용하여 출동 골든타임 확보

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 재난 및 응급상황의 복합성이 증가하고 위급상황 패러다임 자체도 변화하여 신고 접수자의 경험과 직관에 의존하는 신고 접수 방식은 한계를 드러내고 있다. 또한 긴급 신고에 대한 신속, 정확한 응대가 이루어지지 않으면 피해가 더욱 커질 수 있어 신고 접수 시스템 개선 필요성은 높은 상황이다.

- 현재 소방본부에 구축된 시스템들은 음성을 텍스트로 전환하여 핵심 키워드 추출 및 위치 정보 확인에 집중할 뿐 신고 상황의 긴급도에 관한 판단은 신고 접수자의 역량에 기대고 있다. 따라서 응급 신고 접수 전 단계의 응대 역량 강화를 위해서는 고도화된 인공지능 도입이 필요한데, 유사 패턴 신고를 활용한 재난 상황 예측이나 위급 상황 예측 모델 등 긴급도에 대한 분석 및 상황 판단까지 제공할 수 있는 모델이 필요하다.

- 기존의 위급상황 음성/음향 데이터는 소방 긴급 신고 데이터의 비중이 높지 않다. 또한 대부분이 실제 신고 전화를 활용한 데이터가 아닌 관계로 인공지능 학습 시 효용성이 낮으며 응급상황에 대한 긴급도 역시 반영되어 있지 않다. 따라서 실제 신고 전화를 활용한 위급상황 음성/음향 데이터 고도화를 통해 향후 소방 신고 접수 시스템에 인공지능 도입 시 긴급 신고 분석 및 상황 판단까지 지원할 수 있도록 모델 학습에 유용한 데이터를 구축하였다.

- 본 데이터셋은 서울/인천/광주 지역소방본부에서 전달받은 실제 신고접수 음성 3,064시간 및 158,973건의 메타 데이터를 사용하였다. 신고 전화 음성을 전사하고, 신고접수 내용을 16종별(질병, 임산부, 산불 등)로 구분하였으며 그에 따른 긴급도를 상, 중, 하로 분류하였다. 또한 신고자의 성별, 감정 상태를 라벨링하였다. 이 과정에서 개발하여 AI허브에 개방하는 모델은 총 4개이며 아래와 같다.
- NLP 기반 긴급재난/중증 질환 판단 모델
- 음성(환경음)을 포함한 NLP 기반 긴급재난/중증 질환 판단 멀티모달 모델
- 음성-텍스트 변환 모델
- NLP 기반 종 분류 모델

- 데이터 구성

데이터 구성
Key	Description	Type	Child Type
_id	작업아이디	String
audioPath	오디오파일 경로	String
recordId	녹취아이디	String
status	구축 단계별 상태	String
startAt	시작(초)	Number
endAt	종료(초)	Number
utterences	발화	JsonArray	JsonObject
[	문서배열	JsonObject
id	발화아이디	String
startAt	발화시작(초)	Number
endAt	발화종료(초)	Number
text	발화내용	String
speaker	화자	Number
]
mediaType	접수/접수채널	String
gender	신고자성별	String
sentiment	감정 분류	String
disasterLarge	대분류	String
disasterMedium	중분류	String
urgencyLevel	긴급도 레벨	String
address	주소	String
symptom	환자증상	Array	String
[		String
]
triage	환자분류	String

- 어노테이션 포맷

어노테이션 포맷
구분		속성명	타입	필수여부	설명	범위	비고
1		_id	String	O	작업아이디
2		audioPath	String	O	오디오파일 경로
3		recordId	String	O	녹취아이디
4		status	String	O	구축 단계별 상태	4~12	완료값 : 12
5		startAt	Number	O	시작(초)	0	기본값:0
6		endAt	Number	O	종료(초)	30,000 ~180,000	/ms
6		endAt	Number	O	종료(초)	30,000 ~180,000	/ms
7		utterences	Object		발화
	7-1	utterences[].id	String		발화아이디
	7-2	utterences[].startAt	Number		발화시작(초)	0 ~179,999	/ms
	7-2	utterences[].startAt	Number		발화시작(초)	0 ~179,999	/ms
	7-3	utterences[].endAt	Number		발화종료(초)	1 ~180,000	/ms
	7-3	utterences[].endAt	Number		발화종료(초)	1 ~180,000	/ms
	7-4	utterences[].text	String		발화내용
	7-5	utterences[].speaker	Number		화자	0,1	0:수보자 1:신고자
	7-5	utterences[].speaker	Number		화자	0,1	0:수보자 1:신고자
8		mediaType	String		접수/접수채널		Hompage Mobile Chatbot KakaoTalk Line 전화 기타






9		gender	String		신고자성별		M: 남성 F: 여성
9		gender	String		신고자성별		M: 남성 F: 여성
10		sentiment	String		감정 분류		당황/난처 불안/걱정 중립 기타부정



11		disasterLarge	String		대분류		구급 구조 화재 기타



12		disasterMedium	String		중분류
13		urgencyLevel	String		긴급도 레벨		상, 중 하
14		address	String		주소
15		symptom	Array		환자증상
16		triage	String		환자분류

*프로퍼티 설명(property_name)

프로퍼티 설명(property_name)
구분	속성명	유효값	설명
4	status	4~12	4: 가공자 라벨링 준비 단계 5: 가공자 라벨링 할당 단계 6: 가공자 라벨링 저장 단계 7: 가공자 라벨링 완료 단계 8: 검수자 라벨링 준비 단계 9: 검수자 라벨링 할당 단계 10: 검수자 라벨링 저장 단계 11: 검수자 라벨링 완료 단계 12: 라벨링 완료 단계
6	endAt	30000 ~180,000	단위: msec (30초~180초)
7-5	utterences[].speaker	0,1	0: 수보자 1: 신고자

- 원문데이터 포맷 : 긴급신고 음성 데이터(wav)

- 실제 예시

실제 예시
데이터 예시	• 긴급 신고 음성 데이터 - 원천 데이터(wav) - 라벨 데이터(json) { "_id" : "64d9fdff3e12da15ae3a359e", "audioPath" : "20230814/Incheon/2023/02/07/016/converted_20230207065612_4016-016.wav", "recordId" : "9d7cc435cca747a1a731", "status" : 12, "startAt" : 0, "endAt" : 94200, 'utterances': [ { "id" : "fc2db008", "startAt" : 25173, "endAt" : 29406, "text" : "부계동 어, 부계역 바로 앞에 있는 대동아파트거든요. ", "speaker" : 0 }, { "id" : "wavesurfer_otjm8pn3rq", "startAt" : 40433, "endAt" : 46847, "text" : "아들 분 아드님이 어깨 탈골 돼서, 지금 그 아드님이랑 같이 있는 분 뭐, 연락처 저, 있나요?", "speaker" : 1 }, “mediaType”: 'mobile', “gender”: 'M', “address” : "인천광역시 부평구 부개동" “disasterLarge”: 구급, “disasterMedium”: 질병(중증 외), “urgencyLevel”: 중, "sentiment": "불안/걱정", "symptom": ["기타통증"], "triage": "준응급증상" }

데이터셋 구축 담당자

수행기관(주관) : 아일리스프런티어

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
송용관	070-4530-5786	gariox@aift.kr	사업 총괄, 데이터 획득/정제/가공/검수, AI모델 개발

수행기관(참여)

수행기관(참여)
기관명	담당업무
리턴제로	저작도구 커스터마이징, 데이터 정제/가공/검수, AI모델 개발
중앙대학교 산학협력단	데이터 획득, AI모델 개발

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
아일리스프런티어 장준 이사	070-4530-5786	jeijei12@aift.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
[책임자] 아일리스프런티어 송용관 이사	070-4530-5786	gariox@aift.kr
[모델1,2담당] 중앙대학교 이창희 교수	02-820-5707	changheelee@cau.ac.kr
[모델3담당] 리턴제로 문형준 팀장	02-555-1271	ken@rtzr.ai
[모델4담당] 아일리스프런티어 장준 이사	070-4530-5786	jeijei12@aift.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
리턴제로 이현종 이사	02-555-1271	rene@rtzr.ai
리턴제로 문형준 팀장	02-555-1271	ken@rtzr.ai

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의