콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #음성 #안전

NEW 위급상황 음성/음향 (고도화) - 119 지능형 신고접수 음성 인식 데이터

위급상황 음성 음향 (고도화)- 119 지능형 신고접수 음성 인식 데이터 아이콘 이미지
  • 분야재난안전환경
  • 유형 오디오 , 텍스트
구축년도 : 2023 갱신년월 : 2024-10 조회수 : 5,564 다운로드 : 244 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-07-05 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-07-05 산출물 공개 Beta Version

    소개

    - 긴급 신고 음성 데이터 약 3천 시간 분량과 1:1 매칭된 음성 전사 텍스트 데이터. 구급/구조/화재/기타 4종으로 분류되어 있으며 성별, 긴급도, 감정 상태 분류 태그를 포함함

    구축목적

    - 위급상황 데이터 중 소방안전과 관련된 데이터를 활용하여, 향후 119 신고접수 관련 AI 개발 시 긴급 신고 분석 및 재난 상황 판단에 활용할 수 있도록 유형별 긴급도, 성별, 감정 상태를 반영한 인공지능 학습용 데이터셋 구축이 목적
  • - 데이터 구축 규모
      -  데이터 수량 :

        1) 신고 접수 통화 음성 데이터 3,064시간

        2) 신고 접수 통화 음성에 1:1 매핑되는 텍스트 데이터 158,973건

     

    - 데이터 분포 및 통계
      - 신고 종류별 분포 4종 및 (16종)

    데이터 분포 및 통계
    대분류 중분류 수량(건) 비율
    구급 질병(중증 외) 72,154 46.97%
    부상 16,903 11.00%
    질병(중증) 16,056 10.45%
    기타구급 9,650 6.28%
    심정지 3,118 2.03%
    사고 1,592 1.04%
    임산부 307 0.20%
    약물중독 259 0.17%
    구조 안전사고 11,250 7.32%
    기타구조 7,962 5.18%
    대물사고 3,201 2.08%
    자살 404 0.26%
    화재 일반화재 9,256 6.03%
    기타화재 1,348 0.88%
    산불 147 0.10%
    기타 기타 5,366 3.49%
    계  158,973 100%

     

      - 신고 지역별 분포

    신고 지역별 분포
    항목 수량(건) 비율
    서울 104,496 66.73%
    광주 26,049 16.39%
    인천 28,428 17.88%
    합계 158,973 100%

     

      - 분류 태그(성별/긴급도/감정 상태)별 분포
      ①성별 분포

    성별 분포
    항목 수량(건) 비율
    여성 76,161 47.91%
    남성 82,812 52.09%
    합계 158,973 100%

     

      ②긴급도별 분포

    긴급도별 분포
    항목 수량(건) 비율
    49,101 30.89%
    53,421 33.60%
    56,451 35.51%
    합계 158,973 100%

     

      ③감정 상태별 분포

    감정 상태별 분포
    항목 수량(건) 비율
    불안/걱정 85,156 53.57%
    당황/난처 59,843 37.64%
    중립 10,411 6.55%
    기타부정 3,563 2.24%
    합계 158,973 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - NLP 기반 긴급재난/중증질환 분류 판단 모델
      모델학습

    NLP 기반 긴급재난/중증질환 분류 판단 모델 설명 이미지
      - 119 신고전화의 발화 텍스트를 기반으로 구급/비구급 상황을 분류하는 모델
      - Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
      - 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA에 Sequence Classificiaton 방식으로 Fine-tuning
      - 성능 지표 : Accuracy (Weighted)
      - 학습데이터 : 신고전화 데이터 100% 분량
      - 분류 성능 : Accuracy (Weighted) 89.4858%

     

     서비스 활용 시나리오
      - 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보

     

    - 음성(환경음)과 NLP 기반 긴급재난/중증질환 판단 멀티모달 모델
     모델학습

    NLP 기반 긴급재난/중증질환 분류 판단 모델 설명이미지
      - 119 신고전화의 발화 텍스트와 음성을 기반으로 신고 종류를 분류하는 모델
      - Trnasformer기반의 언어모델 Kc-ELECTRA와 Transformer기반의 음성처리 모델 AST(MFCC)를 사용
      - 구급/비구급으로 라벨링한 학습 데이터를 Kc-ELECTRA와 AST(MFCC)모델에 입력하여 나온 각각의 임베딩을 융합하여 MLP기반의 Classifier에 입력함으로 Fine-tuning
      - 성능 지표 : Accuracy (Weighted)
      - 학습데이터 : 신고전화 데이터 100% 분량
      - 분류 성능 : Accuracy (Weighted) 91.1307%

     

     서비스 활용 시나리오
      - 소방본부 긴급상황 대응 AI 플랫폼 개발에 활용하여 출동 골든타임 확보

     

    - 음성-텍스트 변환 모델
       모델학습

    음성-텍스트 변환 모델 설명 이미지

      - 해당 모델은 음성 녹취파일을 텍스트로 변환해주는 STT(Speech-to-text) 모델임
      - 음성인식 모델로 최근 가장 좋은 성능 결과를 보이고 있는 소리 모델과 언어모델이 통합된 구조인 딥러닝 기반의 종단간(End-to-End) ASR(Automatic Speech Recognition) 방식 활용
      - Encoder-Decoder Joint CTC-Attention 모델을 사용
      - Encoder: Conformer, Decoder: Transformer 
      - 성능 지표 : CER
      - 학습데이터 : 신고전화 데이터 100% 분량
      - 분류 성능: CER 10 미만

     

     서비스 활용 시나리오
      - 119 지능형 신고접수 음성 전사 고도화에 활용하여 출동 골든타임 확보

     

    - NLP 기반 종 분류 모델
      모델학습

    NLP 기반 종 분류 모델 설명 이미지

       - 119 신고전화의 발화 텍스트를 기반으로 신고 종류를 분류하는 모델
       - Transformer 기반 자연어 처리 모델을 사용하며, 대화형 한국어 기반 자연어처리 모델 중 하나인 Kc-ELECTRA 모델 사용
       - 16종의 신고 분류를 태깅한 학습 데이터를 Kc-ELECTRA에 Sequence Classification 방식의 fine-tuning
       - 성능 지표 : F1-score (Weighted)
       - 학습데이터 : 신고전화 데이터 63% 분량
       - 분류 성능 : F1-score (Weighted) 90 이상

     

     서비스 활용 시나리오
      - 119 지능형 신고 접수 시스템 고도화에 활용하여 출동 골든타임 확보

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 재난 및 응급상황의 복합성이 증가하고 위급상황 패러다임 자체도 변화하여 신고 접수자의 경험과 직관에 의존하는 신고 접수 방식은 한계를 드러내고 있다. 또한 긴급 신고에 대한 신속, 정확한 응대가 이루어지지 않으면 피해가 더욱 커질 수 있어 신고 접수 시스템 개선 필요성은 높은 상황이다. 

     

    - 현재 소방본부에 구축된 시스템들은 음성을 텍스트로 전환하여 핵심 키워드 추출 및 위치 정보 확인에 집중할 뿐 신고 상황의 긴급도에 관한 판단은 신고 접수자의 역량에 기대고 있다. 따라서 응급 신고 접수 전 단계의 응대 역량 강화를 위해서는 고도화된 인공지능 도입이 필요한데, 유사 패턴 신고를 활용한 재난 상황 예측이나 위급 상황 예측 모델 등 긴급도에 대한 분석 및 상황 판단까지 제공할 수 있는 모델이 필요하다.

     

    - 기존의 위급상황 음성/음향 데이터는 소방 긴급 신고 데이터의 비중이 높지 않다. 또한 대부분이 실제 신고 전화를 활용한 데이터가 아닌 관계로 인공지능 학습 시 효용성이 낮으며 응급상황에 대한 긴급도 역시 반영되어 있지 않다. 따라서 실제 신고 전화를 활용한 위급상황 음성/음향 데이터 고도화를 통해 향후 소방 신고 접수 시스템에 인공지능 도입 시 긴급 신고 분석 및 상황 판단까지 지원할 수 있도록 모델 학습에 유용한 데이터를 구축하였다.

     

    - 본 데이터셋은 서울/인천/광주 지역소방본부에서 전달받은 실제 신고접수 음성 3,064시간 및 158,973건의 메타 데이터를 사용하였다. 신고 전화 음성을 전사하고, 신고접수 내용을 16종별(질병, 임산부, 산불 등)로 구분하였으며 그에 따른 긴급도를 상, 중, 하로 분류하였다. 또한 신고자의 성별, 감정 상태를 라벨링하였다. 이 과정에서 개발하여 AI허브에 개방하는 모델은 총 4개이며 아래와 같다.
      - NLP 기반 긴급재난/중증 질환 판단 모델
      - 음성(환경음)을 포함한 NLP 기반 긴급재난/중증 질환 판단 멀티모달 모델
      - 음성-텍스트 변환 모델
      - NLP 기반 종 분류 모델


    - 데이터 구성

    데이터 구성
    Key Description Type Child Type
    _id 작업아이디 String  
    audioPath 오디오파일 경로 String  
    recordId 녹취아이디 String  
    status 구축 단계별 상태 String  
    startAt 시작(초) Number  
    endAt 종료(초) Number  
    utterences 발화 JsonArray JsonObject
    [ 문서배열 JsonObject  
    id 발화아이디 String  
    startAt 발화시작(초) Number  
    endAt 발화종료(초) Number  
    text 발화내용 String  
    speaker 화자 Number  
    ]      
    mediaType 접수/접수채널 String  
    gender 신고자성별 String  
    sentiment 감정 분류 String  
    disasterLarge 대분류 String  
    disasterMedium 중분류 String  
    urgencyLevel 긴급도 레벨 String  
    address 주소 String  
    symptom 환자증상 Array String
    [   String  
    ]      
    triage 환자분류 String  

     

    - 어노테이션 포맷

    어노테이션 포맷
    구분 속성명 타입 필수여부 설명 범위 비고
    1 _id String O 작업아이디    
    2 audioPath String O 오디오파일 경로    
    3 recordId String O 녹취아이디    
    4 status String O 구축 단계별 상태 4~12 완료값 : 12
    5 startAt Number O 시작(초) 0 기본값:0
    6 endAt Number O 종료(초) 30,000
    ~180,000
    /ms
    7 utterences Object   발화    
      7-1 utterences[].id String   발화아이디    
    7-2 utterences[].startAt Number   발화시작(초) 0
    ~179,999
    /ms
    7-3 utterences[].endAt Number   발화종료(초) 1
    ~180,000
    /ms
    7-4 utterences[].text String   발화내용    
    7-5 utterences[].speaker Number   화자 0,1 0:수보자
    1:신고자
    8 mediaType String   접수/접수채널   Hompage
    Mobile
    Chatbot
    KakaoTalk
    Line
    전화
    기타
    9 gender String   신고자성별   M: 남성
    F: 여성
    10 sentiment String   감정 분류   당황/난처
    불안/걱정
    중립
    기타부정
    11 disasterLarge String   대분류   구급
    구조
    화재
    기타
    12 disasterMedium String   중분류    
    13 urgencyLevel String   긴급도 레벨   상, 중 하
    14 address String   주소    
    15 symptom Array   환자증상    
    16 triage String   환자분류    

     

       *프로퍼티 설명(property_name) 

    프로퍼티 설명(property_name)
    구분 속성명 유효값 설명
    4 status 4~12 4: 가공자 라벨링 준비 단계
    5: 가공자 라벨링 할당 단계
    6: 가공자 라벨링 저장 단계
    7: 가공자 라벨링 완료 단계
    8: 검수자 라벨링 준비 단계
    9: 검수자 라벨링 할당 단계
    10: 검수자 라벨링 저장 단계
    11: 검수자 라벨링 완료 단계
    12: 라벨링 완료 단계
    6 endAt 30000
    ~180,000
    단위: msec (30초~180초)
    7-5 utterences[].speaker 0,1 0: 수보자
    1: 신고자

     

    - 원문데이터 포맷 : 긴급신고 음성 데이터(wav)

     

    - 실제 예시

    실제 예시

    데이터

    예시

    • 긴급 신고 음성 데이터
     - 원천 데이터(wav)

     - 라벨 데이터(json)
    {
        "_id" : "64d9fdff3e12da15ae3a359e",
        "audioPath" : "20230814/Incheon/2023/02/07/016/converted_20230207065612_4016-016.wav",
        "recordId" : "9d7cc435cca747a1a731",
        "status" : 12,
        "startAt" : 0,
        "endAt" : 94200,
        'utterances': [
                {
                "id" : "fc2db008",
                "startAt" : 25173,
                "endAt" : 29406,
                "text" : "부계동 어, 부계역 바로 앞에 있는 대동아파트거든요. ",
                "speaker" : 0
            },
            {
                "id" : "wavesurfer_otjm8pn3rq",
                "startAt" : 40433,
                "endAt" : 46847,
                "text" : "아들 분 아드님이 어깨 탈골 돼서, 지금 그 아드님이랑 같이 있는 분 뭐, 연락처 저, 있나요?",
                "speaker" : 1

            },
        “mediaType”: 'mobile',
        “gender”: 'M',
        “address” : "인천광역시 부평구 부개동"
        “disasterLarge”: 구급,
        “disasterMedium”: 질병(중증 외),
        “urgencyLevel”: 중,
        "sentiment": "불안/걱정",
        "symptom": ["기타통증"],
        "triage": "준응급증상"
    }
  • 데이터셋 구축 담당자

    수행기관(주관) : 아일리스프런티어
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    장준 070-4530-5786 jeijei12@aift.kr 사업 총괄, 데이터 획득/정제/가공/검수, AI모델 개발
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    리턴제로 저작도구 커스터마이징, 데이터 정제/가공/검수, AI모델 개발
    중앙대학교 산학협력단 데이터 획득, AI모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    아일리스프런티어 송용관 이사 070-4530-5786 gariox@aift.kr
    아일리스프런티어 장준 이사 070-4530-5786 jeijei12@aift.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    [책임자] 아일리스프런티어 송용관 이사 070-4530-5786 changheelee@cau.ac.kr
    [모델1,2담당] 중앙대학교 이창희 교수 02-820-5707 changheelee@cau.ac.kr
    [모델3담당] 리턴제로 문형준 팀장 02-555-1271 ken@rtzr.ai
    [모델4담당] 아일리스프런티어 장준 이사 070-4530-5786 jeijei12@aift.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    리턴제로 이현종 이사 02-555-1271 rene@rtzr.ai
    리턴제로 문형준 팀장 02-555-1271 ken@rtzr.ai
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.