AI-Hub

#주소 # 표현형주소 # 주소약어 # 음성인식 # 음성인식모델 # JASPER # 네비게이션 # 쇼핑몰 # 소방 # 경찰 # 출동신고 # 긴급신고 # 라벨프린터 # 노약자 # 장애인

NEW 주소 음성 데이터

분야한국어
유형 오디오

구축년도 : 2022 갱신년월 : 2023-12 조회수 : 3,358 다운로드 : 285 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

데이터 토론 문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2023-12-08	데이터 최종 개방
1.0	2023-07-31	데이터 개방(Beta Version)

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2023-12-29	산출물 전체 공개

소개

□ 표현형 주소 발화를 포함한 스크립트 기반 대화 음성 데이터 세트
□ 주소 음성 인식 성능 개선을 위한 표현형 주소 데이터 세트 및 음성인식 AI모델 개발
□ 총 500,000 건의 주소 음성 데이터 및 주소 동의어 DB 1,000 건 구축

구축목적

□ 전국 주소 비율과 도심 밀집도에 따라 전국 편향이 최소화 될 수 있도록 데이터를 설계해 다양한 산업군에서 폭넓게 활용할 수 있는 데이터를 구축하는 목적 
□ 주소 라벨 프린터 우편. 편의점, 홈쇼핑 및 콜센터, 소방 및 경찰의 신속 출동 서비스 등 여러 서비스에 활용하기 위하여 주소 표현형 음성 데이터 구축하고 실제 주소와 매칭하여 데이터를 구축

메타데이터 구조표
데이터 영역	한국어	데이터 유형	오디오
데이터 형식		데이터 출처	자체수집
라벨링 유형		라벨링 형식	JSON
데이터 활용 서비스	네비게이션 주소 음성 인식, 고객센터 주소 자동 입력 등	데이터 구축년도/ 데이터 구축량	2022년/500,874건

데이터 구축 규모

구분	데이터 형태	데이터 구축 규모	포맷
주소 표현형 음성 데이터	음성	500,874 쌍	CSV, JSON
주소 동의어	텍스트	1,100 건	JSON

데이터 분포

품질특성	분류	분포	데이터 건수	비율(%)
다양성	발화자 성별	남	436,648	43.59%
(통계)	발화자 성별	여	565,116	56.41%
	발화자 연령	20~30대	651,132	65%
		40~50대	325,615	32.50%
		60대 이상	25,017	2.50%
	발화 상황 분포	공공	53,895	10.76%
		교통	88,959	17.76%
		안내	27,859	5.56%
		약속	85,504	17.07%
		일상	142,315	28.41%
		주문	102,350	20.43%
	발화자 출신 지역 분포	서울	507,056	50.62%
		경기	37,055	21.79%
		대구	77,828	9.64%
		그 외 지역	102,021	10.19%
다양성	주소 발화 지역	수도권	267,222	53.35%
(요건)	분포	광역시	133,735	26.70%
		그 외 지역	99,925	19.95%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

활용 모델
- 모델유형 : 음성인식 ASR (Automatic Speech Recognition)
- 모델명 : JASPER
- 2019년 NVIDIA(엔비디아)에서 발표한 음성인식 모델로, Non-Autoregressive 방식으로 Parallel하게 동작하여 다른 음성인식 모델 대비 빠른 추론이 가능

데이터 세트 분류
- 권장 학습 분류에 따라, 아래와 같이 세트를 분류함

구분	학습 Training	검증 Validation	시험 Test
비중	80%	10%	10%
내용	학습용 데이터 세트	학습 결과 평가 세트	모델 테스트 데이터 세트

JASPER 아키텍쳐 이미지

JASPER 아키텍쳐

데이터 성능 점수

측정값 (%)

기준값 (%)

데이터 성능 지표

데이터 성능 지표
번호	측정항목	AI TASK	학습모델	지표명	기준값 점수	측정값 점수
1	음성인식	Speech Recognition	Jasper	CER	15 %	7.79 %

※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

데이터 구축 규모 및 포맷

구분	공정	수량 (건)	포맷
주소 표현형 음성 데이터	수집	552,822	WAV(16KHz)
	정제	500,874	WAV(16KㅇHz)
	가공	500,874	JSON
	검사	500,874	JSON
주소 동의어		1,100	CSV, JSON

어노테이션 포맷
- 주소 표현형 음성 데이터

NO			속성명	속성 설명	Type	필수	예시
1			Info	데이터셋	object	-
	1-1		description	데이터셋 이름	String	Y	v1.0
	1-2		file_name	파일명	String	Y	1508_P54896010_A2103_A1102.wav
	1-3		date	수집 날짜	String	Y	20220831
	1-4		situation	발화상황	String	Y	일상
	1-5		environment	발화 환경정보	String	-	이사
	1-6		audio_quality	오디오 음질	String		16khz
	1-7		local	실제 주소 지역 분류	String	Y	그 외 지역
	1-8		region	실제 주소 세부 지역	String	Y	전라북도
	1-9		lat	실제 주소에 대한 위도	String		35.465153
	1-10		lng	실제 주소에 대한 경도	String		127.485642
2			Speakers	화자 목록	Array	-
	2-1		-		object
		2-1-1	id	화자 아이디	String	Y	1,233
		2-1-2	age	화자 연령 (1그룹/2그룹/3그룹 등)	String	Y	1그룹
		2-1-3	gender	화자 성별 (남, 여)	String	Y	여
		2-1-4	residence	화자 지역 (광역시)	String	Y	서울
3			dialogs	전사 데이터 목록	Array	-
	3-1		-		object
		3-1-1	speakerID	화자 아이디: speakers에 등록된 id	String	Y	1,2
		3-1-2	dialogID	발화 문장에 해당하는 id	number	Y	1,2
		3-1-3	text	발화 기준 한글 TEXT 데이터	String	Y
		3-1-4	textOrigin	표준어 전사 TEXT 데이터	String	Y
		3-1-5	ex_add	주소 표현형에 해당하는 전사 Text	String	-	전북대학교 전주캠퍼스 야외음악당
		3-1-6	startPoint	발화 음성 시간의 시작	number	Y	5.453270833
		3-1-7	endPoint	발화 음성 시간의 끝	number	Y	13.48522917
		3-1-8	originAddress	실제 주소	String	-	전라북도 전주시 덕진구 금암동 백제대로 567

- 주소 동의어

NO		속성명	속성 설명	Type	필수	예시
1		Info	데이터셋	object	-
	1-1	description	데이터셋 이름	String	Y	“주소동의어집합”
	1-2	addresstext	동의어	String	Y	“공유오피스”
2		synonyms	동의어 리스트	list	Y	“공공오피스”, “공유사무실”

폴더 및 파일명 구조

폴더	원천/라벨링 데이터

라벨링 예시

주소 표현형 음성 발화 데이터	JSON

주소 동의어 데이터	JSON

데이터셋 구축 담당자

수행기관(주관) : ㈜엠티

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
구균모	070-8806-6991	kmgu@mtdata.co.kr	사업총괄, 학습

수행기관(참여)

수행기관(참여)
기관명	담당업무
한국우편사업진흥원	수집
㈜세명소프트	정제, 가공
㈜타임게이트	검사

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
구균모	070-8806-6991	kmgu@mtdata.co.kr

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

자유대화 음성(소아남여, 유아 등 혼합)

방송 콘텐츠 대화체 음성인식 데이터

중·노년층 한국어 방언 데이터(강원도,경상도)

명령어 음성(소아,유아)

문화, 게임 콘텐츠 분야 용어 말뭉치

기술과학 분야 한-영 번역 병렬 말뭉치 데이터

비디오 네러티브 질의응답 데이터

공감형 대화

NEW 주소 음성 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

데이터 성능 지표

데이터 성능 점수

데이터 성능 지표

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : ㈜엠티

수행기관(참여)

데이터 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터