AI-Hub

#자연어 #음성 #안전

BETA 위급상황 음성/음향 (고도화) - 119 지능형 신고접수 음성 인식 데이터

위급상황 음성 음향 (고도화)- 119 지능형 신고접수 음성 인식 데이터 아이콘 이미지

분야재난안전환경
유형 오디오 , 텍스트

구축년도 : 2023 갱신년월 : 2024-07 조회수 : 2,398 다운로드 : 135 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.0	2024-07-05	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-07-05	산출물 공개	Beta Version

소개

- 긴급 신고 음성 데이터 약 3천 시간 분량과 1:1 매칭된 음성 전사 텍스트 데이터. 구급/구조/화재/기타 4종으로 분류되어 있으며 성별, 긴급도, 감정 상태 분류 태그를 포함함

구축목적

- 위급상황 데이터 중 소방안전과 관련된 데이터를 활용하여, 향후 119 신고접수 관련 AI 개발 시 긴급 신고 분석 및 재난 상황 판단에 활용할 수 있도록 유형별 긴급도, 성별, 감정 상태를 반영한 인공지능 학습용 데이터셋 구축이 목적

메타데이터 구조표
데이터 영역	재난안전환경	데이터 유형	오디오 , 텍스트
데이터 형식	wav	데이터 출처	서울종합방재센터, 인천소방본부, 광주소방본부
라벨링 유형	전사(음성), 분류 태그(성별/긴급도/감정 상태)	라벨링 형식	json
데이터 활용 서비스	인공지능 신고접수 시스템 구축 및 고도화	데이터 구축년도/ 데이터 구축량	2023년/158,973건

- 데이터 구축 규모
- 데이터 수량 :

1) 신고 접수 통화 음성 데이터 3,064시간

2) 신고 접수 통화 음성에 1:1 매핑되는 텍스트 데이터 158,973건

- 데이터 분포 및 통계
- 신고 종류별 분포 4종 및 (16종)

대분류	중분류	수량(건)	비율
구급	질병(중증 외)	72,154	46.97%
	부상	16,903	11.00%
	질병(중증)	16,056	10.45%
	기타구급	9,650	6.28%
	심정지	3,118	2.03%
	사고	1,592	1.04%
	임산부	307	0.20%
	약물중독	259	0.17%
구조	안전사고	11,250	7.32%
	기타구조	7,962	5.18%
	대물사고	3,201	2.08%
	자살	404	0.26%
화재	일반화재	9,256	6.03%
	기타화재	1,348	0.88%
	산불	147	0.10%
기타	기타	5,366	3.49%
계		158,973	100%

- 신고 지역별 분포

항목	수량(건)	비율
서울	104,496	66.73%
광주	26,049	16.39%
인천	28,428	17.88%
합계	158,973	100%

- 분류 태그(성별/긴급도/감정 상태)별 분포
①성별 분포

항목	수량(건)	비율
여성	76,161	47.91%
남성	82,812	52.09%
합계	158,973	100%

②긴급도별 분포

항목	수량(건)	비율
상	49,101	30.89%
중	53,421	33.60%
하	56,451	35.51%
합계	158,973	100%

③감정 상태별 분포

항목	수량(건)	비율
불안/걱정	85,156	53.57%
당황/난처	59,843	37.64%
중립	10,411	6.55%
기타부정	3,563	2.24%
합계	158,973	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드
- NLP 기반 긴급재난/중증질환 분류 판단 모델
모델학습

- 119 신고전화의 발화 텍스트를 기반으로 구급/비구급 상황을 분류하는 모델
- Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
- 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA에 Sequence Classificiaton 방식으로 Fine-tuning
- 성능 지표 : Accuracy (Weighted)
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능 : Accuracy (Weighted) 89.4858%

서비스 활용 시나리오
- 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보

- 음성(환경음)과 NLP 기반 긴급재난/중증질환 판단 멀티모달 모델
모델학습

- 119 신고전화의 발화 텍스트와 음성을 기반으로 신고 종류를 분류하는 모델
- Trnasformer기반의 언어모델 Kc-ELECTRA와 Transformer기반의 음성처리 모델 AST(MFCC)를 사용
- 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA와 AST(MFCC)모델에 입력하여 나온 각각의 임베딩을 융합하여 MLP기반의 Classifier에 입력함으로 Fine-tuning
- 성능 지표 : Accuracy (Weighted)
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능 : Accuracy (Weighted) 91.1307%

서비스 활용 시나리오
- 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보

- 음성-텍스트 변환 모델
모델학습

- 해당 모델은 음성 녹취파일을 텍스트로 변환해주는 STT(Speech-to-text) 모델임
- 음성인식 모델로 최근 가장 좋은 성능 결과를 보이고 있는 소리 모델과 언어모델이 통합된 구조인 딥러닝 기반의 종단간(End-to-End) ASR(Automatic Speech Recognition) 방식 활용
- Encoder-Decoder Joint CTC-Attention 모델을 사용
- Encoder: Conformer, Decoder: Transformer
- 성능 지표 : CER
- 학습데이터 : 신고전화 데이터 100% 분량
- 분류 성능: CER 10 미만

서비스 활용 시나리오
- 119 지능형 신고접수 음성 전사 고도화에 활용하여 출동 골든타임 확보

- NLP 기반 종 분류 모델
모델학습

- 119 신고전화의 발화 텍스트를 기반으로 신고 종류를 분류하는 모델
- Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
- 16종의 신고 분류를 태깅한 학습 데이터를 Kc-ELECTRA에 Sequence Classification 방식의 fine-tuning
- 성능 지표 : F1-score (Weighted)
- 학습데이터 : 신고전화 데이터 63% 분량
- 분류 성능 : F1-score (Weighted) 90 이상

서비스 활용 시나리오
- 119 지능형 신고 접수 시스템 고도화에 활용하여 출동 골든타임 확보

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 재난 및 응급상황의 복합성이 증가하고 위급상황 패러다임 자체도 변화하여 신고 접수자의 경험과 직관에 의존하는 신고 접수 방식은 한계를 드러내고 있다. 또한 긴급 신고에 대한 신속, 정확한 응대가 이루어지지 않으면 피해가 더욱 커질 수 있어 신고 접수 시스템 개선 필요성은 높은 상황이다.

- 현재 소방본부에 구축된 시스템들은 음성을 텍스트로 전환하여 핵심 키워드 추출 및 위치 정보 확인에 집중할 뿐 신고 상황의 긴급도에 관한 판단은 신고 접수자의 역량에 기대고 있다. 따라서 응급 신고 접수 전 단계의 응대 역량 강화를 위해서는 고도화된 인공지능 도입이 필요한데, 유사 패턴 신고를 활용한 재난 상황 예측이나 위급 상황 예측 모델 등 긴급도에 대한 분석 및 상황 판단까지 제공할 수 있는 모델이 필요하다.

- 기존의 위급상황 음성/음향 데이터는 소방 긴급 신고 데이터의 비중이 높지 않다. 또한 대부분이 실제 신고 전화를 활용한 데이터가 아닌 관계로 인공지능 학습 시 효용성이 낮으며 응급상황에 대한 긴급도 역시 반영되어 있지 않다. 따라서 실제 신고 전화를 활용한 위급상황 음성/음향 데이터 고도화를 통해 향후 소방 신고 접수 시스템에 인공지능 도입 시 긴급 신고 분석 및 상황 판단까지 지원할 수 있도록 모델 학습에 유용한 데이터를 구축하였다.

- 본 데이터셋은 서울/인천/광주 지역소방본부에서 전달받은 실제 신고접수 음성 3,064시간 및 158,973건의 메타 데이터를 사용하였다. 신고 전화 음성을 전사하고, 신고접수 내용을 16종별(질병, 임산부, 산불 등)로 구분하였으며 그에 따른 긴급도를 상, 중, 하로 분류하였다. 또한 신고자의 성별, 감정 상태를 라벨링하였다. 이 과정에서 개발하여 AI허브에 개방하는 모델은 총 4개이며 아래와 같다.
- NLP 기반 긴급재난/중증 질환 판단 모델
- 음성(환경음)을 포함한 NLP 기반 긴급재난/중증 질환 판단 멀티모달 모델
- 음성-텍스트 변환 모델
- NLP 기반 종 분류 모델

- 데이터 구성

Key	Description	Type	Child Type
_id	작업아이디	String
audioPath	오디오파일 경로	String
recordId	녹취아이디	String
status	구축 단계별 상태	String
startAt	시작(초)	Number
endAt	종료(초)	Number
utterences	발화	JsonArray	JsonObject
[	문서배열	JsonObject
id	발화아이디	String
startAt	발화시작(초)	Number
endAt	발화종료(초)	Number
text	발화내용	String
speaker	화자	Number
]
mediaType	접수/접수채널	String
gender	신고자성별	String
sentiment	감정 분류	String
disasterLarge	대분류	String
disasterMedium	중분류	String
urgencyLevel	긴급도 레벨	String
address	주소	String
symptom	환자증상	Array	String
[		String
]
triage	환자분류	String

- 어노테이션 포맷

구분		속성명	타입	필수여부	설명	범위	비고
1		_id	String	O	작업아이디
2		audioPath	String	O	오디오파일 경로
3		recordId	String	O	녹취아이디
4		status	String	O	구축 단계별 상태	4~12	완료값 : 12
5		startAt	Number	O	시작(초)	0	기본값:0
6		endAt	Number	O	종료(초)	30,000 ~180,000	/ms

7		utterences	Object		발화
	7-1	utterences[].id	String		발화아이디
	7-2	utterences[].startAt	Number		발화시작(초)	0 ~179,999	/ms

	7-3	utterences[].endAt	Number		발화종료(초)	1 ~180,000	/ms

	7-4	utterences[].text	String		발화내용
	7-5	utterences[].speaker	Number		화자	0,1	0:수보자 1:신고자

8		mediaType	String		접수/접수채널		Hompage Mobile Chatbot KakaoTalk Line 전화 기타






9		gender	String		신고자성별		M: 남성 F: 여성

10		sentiment	String		감정 분류		당황/난처 불안/걱정 중립 기타부정



11		disasterLarge	String		대분류		구급 구조 화재 기타



12		disasterMedium	String		중분류
13		urgencyLevel	String		긴급도 레벨		상, 중 하
14		address	String		주소
15		symptom	Array		환자증상
16		triage	String		환자분류

*프로퍼티 설명(property_name)

구분	속성명	유효값	설명
4	status	4~12	4: 가공자 라벨링 준비 단계 5: 가공자 라벨링 할당 단계 6: 가공자 라벨링 저장 단계 7: 가공자 라벨링 완료 단계 8: 검수자 라벨링 준비 단계 9: 검수자 라벨링 할당 단계 10: 검수자 라벨링 저장 단계 11: 검수자 라벨링 완료 단계 12: 라벨링 완료 단계
6	endAt	30000 ~180,000	단위: msec (30초~180초)
7-5	utterences[].speaker	0,1	0: 수보자 1: 신고자

- 원문데이터 포맷 : 긴급신고 음성 데이터(wav)

- 실제 예시

데이터

예시

• 긴급 신고 음성 데이터
- 원천 데이터(wav)

- 라벨 데이터(json)
{
    "_id" : "64d9fdff3e12da15ae3a359e",
    "audioPath" : "20230814/Incheon/2023/02/07/016/converted_20230207065612_4016-016.wav",
    "recordId" : "9d7cc435cca747a1a731",
    "status" : 12,
    "startAt" : 0,
    "endAt" : 94200,
    'utterances': [
            {
            "id" : "fc2db008",
            "startAt" : 25173,
            "endAt" : 29406,
            "text" : "부계동 어, 부계역 바로 앞에 있는 대동아파트거든요. ",
            "speaker" : 0
        },
        {
            "id" : "wavesurfer_otjm8pn3rq",
            "startAt" : 40433,
            "endAt" : 46847,
            "text" : "아들 분 아드님이 어깨 탈골 돼서, 지금 그 아드님이랑 같이 있는 분 뭐, 연락처 저, 있나요?",
            "speaker" : 1

        },
    “mediaType”: 'mobile',
    “gender”: 'M',
    “address” : "인천광역시 부평구 부개동"
    “disasterLarge”: 구급,
    “disasterMedium”: 질병(중증 외),
    “urgencyLevel”: 중,
    "sentiment": "불안/걱정",
    "symptom": ["기타통증"],
    "triage": "준응급증상"
}

데이터셋 구축 담당자

수행기관(주관) : 아일리스프런티어

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
장준	070-4530-5786	jeijei12@aift.kr	사업 총괄, 데이터 획득/정제/가공/검수, AI모델 개발

수행기관(참여)

수행기관(참여)
기관명	담당업무
리턴제로	저작도구 커스터마이징, 데이터 정제/가공/검수, AI모델 개발
중앙대학교 산학협력단	데이터 획득, AI모델 개발

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
아일리스프런티어 송용관 이사	070-4530-5786	gariox@aift.kr
아일리스프런티어 장준 이사	070-4530-5786	jeijei12@aift.kr

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
[책임자] 아일리스프런티어 송용관 이사	070-4530-5786	changheelee@cau.ac.kr
[모델1,2담당] 중앙대학교 이창희 교수	02-820-5707	changheelee@cau.ac.kr
[모델3담당] 리턴제로 문형준 팀장	02-555-1271	ken@rtzr.ai
[모델4담당] 아일리스프런티어 장준 이사	070-4530-5786	jeijei12@aift.kr

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
리턴제로 이현종 이사	02-555-1271	rene@rtzr.ai
리턴제로 문형준 팀장	02-555-1271	ken@rtzr.ai

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

하수관로 내부 이미지 데이터

교통문제 해결을 위한 CCTV 교통 영상(고속도로)

항공영상 도시건물 변화탐지 데이터

자연재해로 인한 생활시설 안전 데이터

IR 실제 환경 안면 검출 및 인식 데이터

기상 정보 데이터

상수원-취수원 통합 수질 및 녹조 데이터

토지 피복지도 항공위성 이미지 데이터(경상)

BETA 위급상황 음성/음향 (고도화) - 119 지능형 신고접수 음성 인식 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 아일리스프런티어

수행기관(참여)

데이터 관련 문의처

AI모델 관련 문의처

저작도구 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터