콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#음성 #자연어

소음 환경 음성인식 데이터

소음 환경 음성인식
  • 분야한국어
  • 유형 오디오
구축년도 : 2021 갱신년월 : 2022-09 조회수 : 9,400 다운로드 : 489 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2022-09-14 원천데이터 수정
    1.0 2022-07-28 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-13 신규 샘플데이터 개방
    2022-07-28 콘텐츠 최초 등록

    소개

    음성인식기술 성능개선을 위한 학습데이터 구축을 위해 주변 소음이 자연스럽게 혼합된 음성데이터를 수집/정제/가공하여 인공지능(AI) 학습용 데이터셋을 구축

    구축목적

    현재 음성 인공지능 성능 저하의 가장 큰 요인은 소음이다. 본 과제를 통해 소음 환경에서의 음성 인공지능의 성능 개선 및 노이즈 제거 기술 개발을 목표로 하며, 다양한 산업 분야에서 인공지능 비서, 녹취록 작성, 통역 등 음성 인식이 활용될 수 있는 다양한 분야에서 활용하도록 함
  • 1. 소음 환경 클래스 분류

    구분
    구분 소음 분류 세부소음원 종류
    1 가전소음 세탁기/건조기소음, 청소기소음, 기타
    2 교통수단소음 바이크소음, 싸이렌, 경적소음, 기타
    3 길거리소음 도로변소음, 인파소음, 기타
    4 카페/음식점소음 대화소음, 업소소음, 기타
    5 시장/쇼핑몰소음 전통시장소음, 복합쇼핑몰, 기타
    6 지하철/버스소음 지하철플랫폼, 지하철안, 기차(SRT/KTX)안, 버스안, 기타
    7 터미널소음 기차역대합실, 버스터미널대합실, 기타
    8 공사장소음 실외 공사장 소음, 실내 공사장 소음, 기타
    9 공장소음 가공공정소음, 조립공정소음, 기타
    10 일반자연소음 빗소리(우산,천막) 소음, 파도, 기타
    11 복합소음 2가지의 클래스가 합쳐진 소음

     

    클래스별 목표량

    장소/구축시간 계 획 실 적
    목표 시간 비율 달성 시간 비율
    1 가전소음 1,200 16% 1,243.52 15.41%
    2 교통수단소음 225 3% 265.85 3.29%
    3 길거리소음 375 5% 421.49 5.22%
    4 카페/음식점소음 1,125 15% 1,192.73 14.78%
    5 시장/쇼핑몰소음 1,275 17% 1,297.55 16.08%
    6 지하철/버스소음 600 8% 634 7.86%
    7 터미널소음 600 8% 628.48 7.79%
    8 공사장소음 225 3% 359.27 4.45%
    9 공장소음 375 5% 448.72 5.56%
    10 일반자연소음 375 5% 451.17 5.59%
    11 복합소음 1,125 15% 1,126.98 13.97%
    합 계 7,500 100% 8,069.76 100.00%

     

    2. 데이터 분포

    • 성별 발화시간 
    성 별 발화 시간 비율
    남성 3,358.20 41.61%
    여성 4,711.56 58.39%

     

    • 연령대별 발화시간 비율
    연령대별 발화 시간 비율
    20대 2,063.81 25.57%
    30대 1,966.16 24.37%
    40대 981.5 12.16%
    50대 3,058.29 37.90%

     

    • 대화주제별 발화시간 비율
    연령대별 발화 시간 비율
    개인및관계 1,854.87 22.98%
    주거와생활 1,075.04 13.32%
    상거래쇼핑 785.34 9.73%
    식음료 1,514.54 18.77%
    공공서비스 244.35 3.03%
    여가와오락 1,536.67 19.04%
    일과직업 674.3 8.36%
    행사및모임 384.65 4.77%

     

    • 화자 단위별 발화시간 비율
    발화 시간대별 발화 시간 비율
    20초 미만 3431.08 42.52%
    20초 ~ 40초미만 2721.69 33.73%
    40초 ~ 60초미만 960.63 11.90%
    60초 이상 956.36 11.85%
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    소음 환경 음성인식-활용 AI 모델 및 코드_1

    학습 전처리 

    •  44.1kHz 로 수집로 down 샘플링 된 음성
    •  16kHz로 down 샘플링 된 음성
    •  음성 길이를 통일한 학습 데이터 전처리

    모델학습

    •  STFT를 통해 Spectrogram으로 변환
    •  음성의 진폭을 바탕으로 한 노이즈 제거
    •  음성의 진폭과 위상을 바탕으로 한 노이즈 제거
    •  동시 학습 (200 Epoch)

    소음 환경 음성인식-활용 AI 모델 및 코드_2_학습 데이터 로드 및 모델 객체 생성

    소음 환경 음성인식-활용 AI 모델 및 코드_3_모델 객체 생성 및 모델 훈련

    소음 환경 음성인식-활용 AI 모델 및 코드_4_훈련된 모델 로드 및 ESTOI 측정

    소음 환경 음성인식-활용 AI 모델 및 코드_5_ESTOI 측정

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 음성의 명료도 Speech Recognition TSCN ESTOI 60 % 82 %
    2 음성인식률 개선 비율(참고지표) Speech Recognition TSCN F1-Score 0.3 0.34

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터셋 구성

    파일종류
    파일종류 파일설명 비고
    *_SN.wav (음성+소음)데이터 파일 원천데이터
    *_SD.wav (음성위주)데이터 파일
    *.Json 속성(메타)정보파일 라벨링테이터
    *.srt 전사텍스트테이터
    - SN.WAV : 음성과 소음이 섞여 있는 소리 데이터
     - SD.WAV : 깨끗한 화자 음성 소리 데이터
     - JSON : 라벨링 된 학습 데이터
     - SRT : 음성을 전사한 데이터

     

    2. 라벨링데이터 구성

    No 항목 설명 타입
    0 dataSet 데이터셋 String
    1 version 데이터셋 버전 String
    2 mediaUrl 녹취된 음원의 URL String
    3 date 녹취된 날짜 String
    4 typeInfo 소음원데이터 상세 정보 Array
      4–1 category 소음원 카테고리 정보
    (가전소음,교통수단소음,길거리소음,등)
    String
    4–2 subcategory 소음원 서브카테고리
    (세탁기/건조기소음, 청소기소음등)
    String
    4–3 place 음원 (녹취 장소) String
    4–4 bgnoisespl 구간내 소음원 최대 dB(배경소음) String
    4–5 avgnoisespl 구간내 소음원 평균 dB String
    4–6 distance 소음발생원과의 평균거리 String
    5 conversationtype 화자 대화유형 
    (개인및관계, 주거와생활, 식음료 등)
    String
    6 speakernumber 화자수( 예: 2명 ) String
    7 speakers 화자(목록:화자A, 화자B) Array
      7–1 speaker 화자 아이디 : speakers에 등록된 순번 String
    7–2 gender 화자(성별 : 남성, 여성) String
    7–3 agegroup 화자(연령대 : 20대,30대,40대,50대) String
    8 dialogs 전사 데이터 목록 Array
      8–1 speaker 화자 아이디 : speakers에 등록된 순번 String
    8–2 speakertext 전사된 텍스트 String
    8–3 startTime 전사된 텍스트의 음원 재생 시작 위치 String
    8–4 endTime 전사된 텍스트의 음원 재생 끝 위치 String
    8–5 speakTime 화자의 발성시간 ( sec ) String
    8–6 vocalvolume 화자의 평균발성정도(낮음/중간/높음) String
    9 samplingRate 샘플링레이트_레졸류션 Array
      9–1 SamplingRateResolution 샘플링레이트_레졸류션 (16bit ) Number
    9–2 SamplingRateFrequency  샘플링레이트_주파수 (44.1kHz) Number
    10 recStime 녹취시작시간(01~24) String
    11 recLen 녹취시간(대화포함한전체시간) Number
    12 recDevice 녹취장비구분(녹음장치,휴대폰) String

     

    3 라벨링데이터 실제예시

    {
      "dataSet":"소음환경음성데이터",
      "version":"1.0",
      "mediaUrl":"01.가전소음/01.세탁기,건조기/01_01_056464_211104_SD.wav",
      "date":"20211104",
      "typeInfo":[
        {
          "category":"가전소음",
          "subCategory":"세탁기,건조기",
          "place":"가정집 세탁기,건조기",
          "bgnoisespl":"75.3",
          "avgnoisespl":"62.1",
          "distance":"2"
        }
      ],
      "conversationType":"개인및관계",
      "speakerNumber":"2",
      "speakers":[
        {
          "speaker":"221",
          "gender":"여성",
          "ageGroup":"20"
        },
        {
          "speaker":"247",
          "gender":"여성",
          "ageGroup":"20"
        }
      ],
      "dialogs":[
        {
          "speaker":"221",
          "speakerText":"내가 요새 공부를 하던지 어떤 일을 하던지 공부가 제일 재미없긴 하지만. 내가 당연히 보던 뉴스들도 매일같이 확인하던 뉴스라든지 아니면 매일같이 하던 운동이라든지. 약간 그런 것들이그래서 조금 권태로움을 느끼는 것 같고. 약간 슬럼프인가 싶은 생각이 들 정도로 그냥 안 하고 싶다.",
          "startTime":"1",
          "endTime":"28",
          "speakTime":"27",
          "vocalVolume":"중간"
        },
        < 중간 생략 >
     ],
      "samplingRate":{
        "samplingRateResolution":16,
        "samplingRateFrequency":44.1
      },
      "recStime":"8",
      "recLen":309,
      "recDevice":"녹음장치"
    }

     

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜코테크시스템
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김연봉 02-529-6015 batnaic@kotech.co.kr
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜단솔플러스 품질관리 및 기술지원
    ㈜인사이트정보 데이터 구축 (수집/정제/가공)
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김연봉 02-529-6015 batnaic@kotech.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.