명령어 음성(노인남녀) 소개
기본탭
데이터셋명 | 명령어 음성(노인남녀) | |||
---|---|---|---|---|
데이터 분야 | 음성/자연어 | 데이터 유형 | 텍스트, 오디오 | |
구축기관 | 비디 | 데이터 관련 문의처 | 담당자명 | 황유라(비디) |
가공기관 | 미디어젠, 메트릭스리서치, 셀렉트스타 | 전화번호 | 02-2025-4999 | |
검수기관 | 미디어젠, 메트릭스리서치, 셀렉트스타, 세종대학교 | 이메일 | yura@bluedigm.com | |
구축 데이터량 | 432만 | 구축년도 | 2020년 | |
버전 | 1.2 | 최종수정일자 | 2021.10.22 | |
소개 | (20년 2차)AI 허브 메타데이터 필드(안)_(~150) (20년 2차)AI 허브 메타데이터 필드(안)_(~150) .XLSX 100% 11 B7:E7 한국인 노인남여 명령어를 인식하여 문자로 바꾸어 주는 AI기술을 위한 음성 데이터 스크린 리더 지원이 사용 설정되었습니다. 한국인 노인남여 명령어를 인식하여 문자로 바꾸어 주는 AI기술을 위한 음성 데이터 스크린 리더 지원 사용 설정 | |||
주요 키워드 | 명령어 AI 데이터, AI 비서, AI 로봇, AI 키오스크, 음성데이터, 전사데이터, 노년층 | |||
저작권 및 이용정책 | 본 데이터는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 '인공지능 학습용 데이터 구축사업'으로 구축된 데이터입니다. [데이터 이용정책 상세보기] | |||
데이터설명서 | 자료보기 | 구축활용가이드 | 자료보기 | |
샘플데이터 | 다운로드 | 교육활용동영상 | 영상보기 | |
저작도구 | 다운로드 | AI모델 | 다운로드 |
※ 본 데이터에 포함된 이름, 주소, 전화번호, 상황 등은 모두 창작된 것으로 실제와 어떠한 관련이 없음을 알려드립니다.
데이터 변경이력
버전 | 일자 | 변경내용 | 비고 |
---|---|---|---|
1.2 | 2021.10.22 | 데이터 추가 개방 | |
1.1 | 2021.09.08 | 데이터 품질 보완 및 추가 개방 | |
1.0 | 2021.06.30 | 데이터 최초 개방 |
구축 목적
- 한국인 노인남여의 음성 명령어를 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 노인 명령어 기반 AI 학습용 한국어 음성 DB를 구축함으로써, 국내 음성인식 인공지능 기술을 발전시키고 서비스를 제공하고자 함
활용 분야
- 음성 서비스를 제공하고자 하는 기업과 기관 및 개인
소개

-
AI 음성 서비스를 위한 음성 데이터를 다양한 환경에서 수집하여 생활 곳곳에서 음성 서비스를 가능하게 함.
-
노인을 대상으로 구축한 데이터 역시 동일한 수단을 통해 노인 특화 서비스로 활용될 수 있음.
구축 내용 및 제공 데이터량
- 데이터 구축 프로세스
- 데이터 설계, 수집, 가공, 검수 및 AI 모델링 수행 - 데이터 구축 규모
- 음성 3,000시간 데이터 구축
대표도면
- 음성 데이터 수집 도구
- 스마트폰, 태블릿, PC 등 다양한 환경에서 크라우드 워커들의 데이터 수집 수행, 문장 단위 데이터 가공의 자동화로 효율적 수집 가능 - 파일명 구조
- 파일명으로 데이터 카테고리, 화자정보, 환경정보 등을 쉽게 구분. - 데이터 검수 도구
- 3단계의 강도 높은 검수를 통해 데이터 품질 확보. - 어노테이션 구조
필요성
- 코로나19로 야기된 경기침체로 사회적 약자 계층에서 경제적으로 더욱 힘들어 하는 상황에서 본 사업을 통해 일자리를 창출해 경기침체에 대응할 수 있음.
- 노년층 명령어 AI 음성 데이터를 응급진료기관 안내 애플리케이션에 활용 가능
- 스마트폰 터치 및 조작을 최소화한 음성 명령어 기반의 응급 진료기관 안내 서비스를 통하여, 스마트폰 조작이 노약자 분들이 적절한 시간 내 처방을 받을 수 있도록 서비스를 제공할 수 있음.
데이터 구조
- 데이터 구성
(1) Wave 파일 : 48kHz(44kHz), 16bit, mono
(2) Json 파일 : Json 포맷 어노테이션 정보 - 데이터 분포
- 노인용 AI 비서 데이터 분포 (대본 기준)노인용 AI 비서 데이터 분포 표1 IoT Mode
changeON/
OFFTV
채널상태
정보상태
조정건강 복약
시간진료
스케
쥴긴급
SOS긴급
SOS메시
지전화 반복
일상기상 복귀 외출 취침 엔터
테인
먼트감성
대화노래
방라디
오스트
리밍
서비
스운세
/로
또종교 435 46 116 127 85 61 184 109 75 107 59 26 22 374 75 97 138 64 566 78 84 30 109 151 114 노인용 AI 비서 데이터 분포 표2 정보 건강
상식&
실버
교육
서비스교통
정보날씨 뉴스 스포
츠
정보치매
예방
서비
스커뮤
니케
이션메시
지소셜
미디
어전화 편의
기능알람 음식
주문인터
넷
검색캘린
더총합계 576 83 44 146 96 101 106 329 116 122 91 429 94 83 122 130 3000 노인용 AI 로봇 데이터 분포 표1 공항 대중교
통/숙박
정보비행
정보시설
정보주차
정산직원
호출마트 가격
비교상품
위치 및
정보운영
시간
확인주차
정산직원
호출할인
정보
확인757 243 150 235 77 52 653 190 93 141 37 81 111 노인용 AI 로봇 데이터 분포 표2 숙박 숙박
시설
정보숙박
예약숙박
체크
인/
아웃주변
관광
정보주차
정산직원
호출식당
/카페음식
주문/
계산직원
호출의료 병원
시설
정보의료
진
호출주차
정산진료
시간
예약진료
시간
조회총
합계715 276 51 67 185 60 76 357 280 77 518 195 75 37 116 95 3000 노인용 AI 키오스크 데이터 분포 표1 도서관 도서
검색/
대출시설
정보좌석
정보/
예약복지
센터문화
센터사회
복지재증
명식당/
카페음식
주문/
계산직원
호출영화
관매점
이용시설
안내영화
예매주차
등록750 333 299 118 311 167 61 83 420 310 110 403 114 181 76 32 노인용 AI 키오스크 데이터 분포 표2 의료 병원
시설
정보의료진
호출주차
정산진료
시간
예약진료
시간
조회지하철 목적지
검색배차/
시간승차권 시설
안내직원
호출총합계 475 138 80 52 95 110 641 84 163 94 207 93 3000 - 어노테이션 포맷
어노테이션 포맷 대분류 속성 표기 의미 타입 필수여부 기본 정보
(DB_Info)Language 언어 String Version 버전 String ApplicationCategory 응용 분야 String NumberOfSpeaker 발성화자 수 String NumberOfUtterance 발화 수 String DataCategory DB종류 String RecordingDate 녹음날짜 String FillingDate 수정날짜 String RevisionHistory 수정기록 String Distributer 수행기관 String 음성 정보
(Wave_Info)SamplingRate 주파수 String NumberOfBit 비트 수 String ByteOrder 바이트정보 String EncodingLaw 인코딩방식 String NumberOfChannel 채널 수 String SignalToNoiseRatio SNR String 전사 정보
(Label_Info)LabelText 텍스트 전사 String Y 화자 정보
(Speaker Info)SpeakerName 화자 이름 String Y Gender 성별 String Y Age 나이 String Y Region 지역 String Y Dialect 방언 String Y 환경 정보
(Environment_Info)RecordingEnviron 녹음 환경 String Y NoiseEnviron 노이즈 환경 String Y RecordingDevices 녹음 장치 String Y 파일 정보
(File_Info)FileCategory 파일 종류 String FileName 파일 이름 String DirectoryPath 파일 위치 String HeaderSize 헤더 크기 String FileLength 파일 길이 String Y FileFormat 파일 포맷 String NumberOfRepeat 반복 차수 String TimeInterval 녹음 주기 String Y Distance 녹음 거리 String 기타 정보
(Miscellaneous_Info)QualityStatus 품질 상태 String - Json 포맷 샘플
데이터셋 구축 담당자
수행기관(주관) : 비디
책임자명 | 전화번호 | 대표이메일 | 담당업무 |
---|---|---|---|
황유라 | 02-2025-4999 | yura@bluedigm.com | · 데이터 구축 총괄 · 응용 서비스 개발 |
수행기관(참여)
기관명 | 담당업무 | 기관명 | 담당업무 |
---|---|---|---|
미디어젠㈜ | · 데이터 검수 · AI 모델링 |
메트릭스리서치 | · 크라우드소싱 · 결과물 정제 및 검수 |
셀렉트스타 | · 비정형 데이터 정제 · 비정형 데이터 검수 |
세종대학교 | · 데이터 검증 및 연구활동 |