-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-12-04 서브라벨링 추가 개방 1.1 2024-10-30 데이터 최종 개방 1.0 2024-08-09 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-09 산출물 공개 Beta Version 소개
- 다국어 일상대화 통번역용 학습 데이터 총 1,250시간 이상 구축을 목표로, 한국 상황 시나리오를 기반으로 한 음성 500시간, 외국 상황 시나리오를 기반으로 한 음성을 각 언어당 250시간씩 총 750시간 구축. 라벨링 데이터로 음성 전사 및 번역 텍스트 데이터를 구축함.
구축목적
- 초거대 AI 기술 연구에 필요한 고품질 통번역 학습 데이터를 구축하기 위함. - 해당 데이터 구축을 통해 ‘관련 산업 경쟁력 확보를 통해 국가 경쟁력 강화’, ‘언어 인공지능 통번역 시스템의 품질 향상’, ‘지연 없는 순간 번역/출력이 가능한 통번역 기술 및 Face to Face 자동 동시 통역 기술’ 개발에 기여함.
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 오디오 , 텍스트 데이터 형식 wav 데이터 출처 자체 수집 라벨링 유형 전사(음성), 번역(자연어) 라벨링 형식 json 데이터 활용 서비스 - 지연 없이 순간적 번역과 출력이 가능한 통번역 서비스 - Face to Face 자동 동시통역 서비스 데이터 구축년도/
데이터 구축량2023년/원천데이터: 다국어 일상대화 음성 1,250시간 wav 파일 374,824건 (132.13GB) 라벨링데이터: 음성 전사 및 번역 텍스트 json 파일 20,264건 (280.39MB) -
- 데이터 통계
- 데이터 구축 규모
원천 음성 총 1,250시간(374,824건)
라벨링 전사 총 1,250시간(10,132건)
라벨링 번역 총 1,250시간(10,132건)데이터 구축 규모 데이터 종류 데이터 형태 원문 규모 어노테이션 규모 결과물 규모 전사 번역 다국어 일상대화 녹음 음성 1,250시간 1,250시간 1,250시간 1,250시간 374,824건 10,132건 10,132건 - 데이터 분포
1) 발화 참여자 200명 이상, 인당 10시간 이내, 언어당 최소 50명 이상의 일상대화 수집
2) 한국어 25%, 외국어(스페인어, 프랑스어, 러시아어) 각각 25%로 한 언어가 전체의 50%를 넘지 않도록 함
3) 10개의 주제(병원, 금융, 관광, 쇼핑, 음식, 숙박, 직장, 취미, 민원행정, 구급) 일상대화 녹음
4) 언어별 특정 주제의 최대 비중은 20% 넘지 않음
5) 음성 발화 녹음은 국내/해외 거주 원어민 중심으로 하며 특정 언어에서 원어민 발화 비중이 90%이상으로 함
6) 음성 발화자의 나이, 성별, 국가, 원어민 여부, 녹음 환경, 주제, 녹음 도구 등 정보를 수집함* 성별 통계
성별 통계 구분 비율 (%) 수량 (건) 남자 15.44 61 여자 84.56 333 합계 100 394 - 발화 참여자 중 남자에 비해 여자 참여자의 비율이 높은 편임
* 연령별 통계
데이터 통계 구분 비율 (%) 수량 (건) 20대 34.49 139 30대 44.42 179 40대 11.66 47 50대 5.96 24 60대 1.24 5 합계 100 394 - 발화 참여자 중 30대의 비율이 가장 높으며, 그 다음으로는 20대, 40대, 50대, 60대 순으로 비율이 높게 나타남
* 도메인별 통계
도메인별 통계 구분 비율 (%) 수량 (건) 관광 9.63 1,954 구급 10.19 2,066 금융 12.18 2,470 민원행정 11.03 2,238 병원 9.22 1,870 쇼핑 9.59 1,946 숙박 8.42 1,708 음식 9.1 1,846 직장 11.17 2,266 취미 9.47 1,920 합계 100 20,284 - 일상대화 분야 10개 주제별 각각 9~12%의 비율로 균등하게 구축함
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 활용 모델
- 모델학습
① 음성인식 유효성 검증
○ AI 모델에 대한 요약
• ESPNET2는 End-to-End Speech processing tookit의 약자로, 음성 처리 관련 오픈 소스이다. 이 툴에는 Kaldi와 같은 다양한 음성인식 전처리 라이브러리와 다양한 프레임워크에서의 음성인식 관련 알고리즘을 소개하고 있다. ESPNET2의 ASR은 연속발화 음성을 처리하는 CTC 인코딩 알고리즘과 transformer 언어모델 기반의 디코딩 알고리즘으로 한국어 음성인식 모델 학습하는데 적합하다. 인코딩에서는 fbank 방식의 음성 전처리를 통한 인코딩 방식을 포함하여 다양한 방식을 제공하고 있으며 transformer 디코딩에서는 전사 문장을 사전 토큰화한 학습한 모델로 attention 기반의 아키텍처를 가지고 있다.○ 모델의 적합성 및 선정사유:
• 학습데이터 기반 인공지능 음성인식 학습모델임
• 연속발화 기반 음성인식 학습 모델임
• 최근 음성인식 학습 모델 중 성능이 우수한 알고리즘을 사용함
• AI허브 공개 데이터셋인 KSponSpeech(한국어 일반 대화 음성) 학습데이터를 활용하여 성능평가를 진행한 reference가 많은 모델임② 다국어 통번역 구축 데이터 유효성 검증
○ AI 모델에 대한 요약
• openNMT는 tensorflow 플랫폼과 pytorch 기반의 플랫폼을 모두 지원하는 AI 자동번역 모델 구성할 수 있는 오픈 소스이다. 본 프로그램에서는 인코딩과 디코딩 아키텍처를 구성하고 있으며, attention 기반의 transformer 알고리즘을 제공한다. .○ 모델의 적합성 및 선정사유:
• 병렬말뭉치 기반 자동번역 학습데이터에 최적화된 인공지능 자동번역 학습모델임
• Attention 기반의 transformer 알고리즘을 제공하고 있음
• 최근 자동번역 학습 모델 중 성능이 우수함.• AI허브 KSponSpeech 학습데이터를 활용하여 성능평가를 진행한 reference가 많음
○ 우선적으로 구축한 데이터로 모델을 학습하여 그 유효성을 평가함
○ 우선적으로 구축한 데이터를 이용하여 활용 서비스를 개발하겠음
○ 활용서비스 수요업체의 니즈를 기반으로 인공지능 기술 컨설팅 및 교육을 진행하겠음.
- 우선 자체 통번역 초거대 언어 및 음성 모델 개발하여 공개함
- 초거대 AI 모델, OpenAI의 whisper 모델을 기반으로 downstream 기술을 개발하여 적극 지원하겠음- 서비스 활용 시나리오
○ 본 과제에서 구축된 학습 데이터 세트를 활용하여 음성인식시스템 개발, 음성 기반 가상비서 및 개인 어시스턴트, 음성 기반 번역, 음성 합성, 음성 데이터 분석 및 인사이트 도출 등의 인공지능 시스템의 개발 및 성능을 크게 발전시킬 수 있음.○ 주관사인 디엠티랩스 2022 NIA 방송콘텐츠 한국어-유럽어 통번역 데이터를 구축함에 따라 이를 본사의 자체 번역기 및 투명 디스플레이 통역기 학습에 적용한 바 있고 유의미한 번역 성능 향상을 보임. 또한 본사에서 현재 출시 준비 중인 관광 통역 어플리케이션 ‘에움’에 이번 과제 이후 다국어 학습 데이터를 인공지능 학습에 활용하고자 함.
- 기타 정보
- 대표성
외국인과의 통번역이 필요한 일상대화 10개 분야(병원, 금융, 관광, 쇼핑, 음식, 숙박, 직장, 취미, 민원 행정, 구급)의 주제로 다양하게 선정하였고, 한국과의 교역 및 상호 관광 등 범용성이 높은 프랑스어, 스페인어, 러시아어 실시간 통번역 데이터를 구축- 독립성
한국 및 외국의 문화/사회/맥락이 반영된 한국/외국 상황을 기반으로 한국인과 외국인이 각자의 언어를 사용하여 대화하는 형식으로 구성됨 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 구성
데이터 구성 Key Description Type Child Type { 시작 object "분류정보": { 분류정보 시작 object "대분류": 대분류 string "중분류": 중분류 string "소분류": 소분류 string }, 분류정보 종료 object "대화정보": { 대화정보 시작 object "대화ID": 대화ID string "시나리오": 시나리오 string "대화방식": 대화방식 string "대화음성길이": 대화음성길이 string "대화발화수": 대화발화수 string "대화환경": 대화환경 number }, 대화정보 종료 object "대화내용": [ 대화 배열 시작 array object { 대화 중 1번째 발화 시작 object "id": id number "uid": uid string "사용언어": 사용언어 string "음성파일명": 음성파일명 string "전사문": 전사문 string "전사문어절수": 전사문어절수 number "번역문언어": 번역문언어 string "번역문": 번역문 string "번역문어절수": 번역문어절수 number }, 대화 중 1번째 발화 종료 object (중간 생략) (발화 수만큼 진행) { 대화 중 n번째 발화 시작 object "id": id number "uid": uid string "사용언어": 사용언어 string "음성파일명": 음성파일명 string "전사문": 전사문 string "전사문어절수": 전사문어절수 number "번역문언어": 번역문언어 string "번역문": 번역문 string "번역문어절수": 번역문어절수 number }, 대화 중 n번째 발화 종료 object ], 대화 배열 종료 object "발화자정보": [ 발화자정보 배열 시작 array object { 발화자정보 1건 시작 object "uid": uid string "역할": 역할 string "성별": 성별 string "연령대": 연령대 string "사용언어": 사용언어 string "국가": 국가 string }, 발화자정보 1건 종료 object { 발화자정보 1건 시작 object "uid": uid string "역할": 역할 string "성별": 성별 string "연령대": 연령대 string "사용언어": 사용언어 string "국가": 국가 string }, 발화자정보 1건 종료 object ] 발화자정보 배열 종료 object } 종료 object
- 어노테이션 포맷
① 전사어노테이션 포맷 전사 구분 속성명 타입 필수여부 설명 범위 비고 1 분류정보 1-1 대분류 문자열 필수 주제 대분류 “숙박”, “행정”, “금융” 등 10 주제 1-2 중분류 문자열 필수 주제 중주제 금융의 경우, 은행 또는 증권 등 1-3 소분류 문자열+기호 필수아님 주제 소분류 은행의 경우, 대출, 예금 등 분류 2 대화정보 2-1 대화ID 문자+기호+숫자 조합 필수 대화 시퀀스 번호 문자, 숫자, 기호 조합 (예: “k-ht-dt-0001”) 2-2 사나리오 문자열 필수 대화 시나리오 1글자 이상 1000글자 이하의 다국어로 기술된 문자열 2-3 대화방식 문자열 필수 2인 또는 3인 방식 문자열 (1 < 길이 < 10) 2-4 대화환경 문자열 필수 대화 환경 “대면/비대면/온라인”의 형태 2-5 대화음성길이 “MM:SS.000” 필수 대화 주제별 음성 길이 1분 이상 20분 이하의 “MM:SS.000” 형태의 시간 포맷 2-6 대화발화수 숫자 필수 주제당 나눈 대화 발화 갯수 1 < 대화발화수 < 200 3 발화자정보 3-1 uid 문자+기호+숫자 조합 필수 발화자ID 문자 숫자 기호 조합 (예: “dt-fr-u001”) 3-2 역할 문자열 필수 참여 중인 대화에서의 역할 “관광객”, “간호사”, “공무원” 등등 3-3 성별 문자열 필수 발화자 성별 “남자” or “여자” 3-4 연령대 문자열 필수 발화자 연령대 “20대”, “30대”, “40대”, “50대”, “60대”, “70대” 중 하나 3-5 사용언어 문자+기호 조합 필수 발화자 사용한 언어 “ko” or “ru” or “fr” or “es” 3-6 국가 문자코드 필수 발화자 국가 발화자 국가코드(“FR, ES, RU, KR등”) 4 대화내용 4-1 id 숫자 필수 발화순서 0 < id < 200 사이 정수 4-2 uid 문자+기호+숫자 조합 필수 발화자 ID 문자, 숫자, 기호 조합 (예: “dt-fr-u001”) 4-3 사용언어 문자+기호 조합 필수 발화자 사용한 언어 “ko” or “ru” or “fr” or “es” 4-4 음성파일명 문자+기호+숫자 조합 필수 해당 발화의 음성 세그먼트 파일 "k-ht-dt-0001-006.wav"의 형식 4-5 전사문 문자열 필수 발화 내용에 대한 텍스트 전사문 발화 내용에 대한 텍스트 전사문 4-6 전사문어절수 숫자 필수 전사문 어절수 0보다 크고 1000보다 적음
② 번역어노테이션 포맷 번역 구분 속성명 타입 필수여부 설명 범위 비고 1 분류정보 1-1 대분류 문자열 필수 주제 대분류 “숙박”, “행정”, “금융” 등 10 주제 1-2 중분류 문자열 필수 주제 중주제 금융의 경우, 은행 또는 증권 등 1-3 소분류 문자열+기호 필수아님 주제 소분류 은행의 경우, 대출, 예금 등 분류 2 대화정보 2-1 대화ID 문자+기호+숫자 조합 필수 대화 시퀀스 번호 문자, 숫자, 기호 조합 (예: “k-ht-dt-0001”) 2-2 사나리오 문자열 필수 대화 시나리오 1글자 이상 1000글자 이하의 다국어로 기술된 문자열 2-3 대화방식 문자열 필수 2인 또는 3인 방식 문자열 (1 < 길이 < 10) 2-4 대화환경 문자열 필수 대화 환경 “대면/비대면/온라인”의 형태 2-5 대화음성길이 “MM:SS.000” 필수 대화 주제별 음성 길이 1분 이상 20분 이하의 “MM:SS.000” 형태의 시간 포맷 2-6 대화발화수 숫자 필수 주제당 나눈 대화 발화 갯수 1 < 대화발화수 < 200 3 발화자정보 3-1 uid 문자+기호+숫자 조합 필수 발화자ID 문자 숫자 기호 조합 (예: “dt-fr-u001”) 3-2 역할 문자열 필수 참여 중인 대화에서의 역할 “관광객”, “간호사”, “공무원” 등등 3-3 성별 문자열 필수 발화자 성별 “남자” or “여자” 3-4 연령대 문자열 필수 발화자 연령대 “20대”, “30대”, “40대”, “50대”, “60대”, “70대” 중 하나 3-5 사용언어 문자+기호 조합 필수 발화자 사용한 언어 “ko” or “ru” or “fr” or “es” 3-6 국가 문자코드 필수 발화자 국가 발화자 국가코드(“FR, ES, RU, KR등”) 4 대화내용 4-1 id 숫자 필수 발화순서 0 < id < 200 사이 정수 4-2 uid 문자+기호+숫자 조합 필수 발화자 ID 문자, 숫자, 기호 조합 (예: “dt-fr-u001”) 4-3 사용언어 문자+기호 조합 필수 발화자 사용한 언어 “ko” or “ru” or “fr” or “es” 4-4 음성파일명 문자+기호+숫자 조합 필수 해당 발화의 음성 세그먼트 파일 "k-ht-dt-0001-006.wav"의 형식 4-5 전사문 문자열 필수 발화 내용에 대한 텍스트 전사문 발화 내용에 대한 텍스트 전사문 4-6 전사문어절수 숫자 필수 전사문 어절수 0보다 크고 1000보다 적음 4-7 번역문 문자열 필수 번역문 0< 번역문길이 < 1000 4-8 번역문언어 언어코드 필수 번역문언어 “ko” or “ru” or “fr” or “es” 4-9 번역문어절수 숫자 필수 번역문어절수 0보다 크고 500보다 적음
- 데이터 포맷
- 원문데이터 포맷 예시원문데이터 포맷 예시< 통번역 대화 샘플 2인
대화
(한-러 통번역 상황)[119상담사] 안녕하세요. 경기도 119 상황실입니다. 무슨 일로 전화주셨어요? [민원인] У моего друга внезапно возникли проблемы с дыханием. [119상담사] 그러세요? 주소가 어떻게 되나요? [민원인] Адрес здесь: Ханнам-дон, 15. [119상담사] 우선 몇가지 질문을 할게요. 천천히 듣고 대답해 주세요. 알겠어요? [민원인] да [119상담사] 가슴에 통증이 있는지 물어봐 주시겠어요? [민원인] Говорят, есть. [119상담사] 이렇게 숨을 못 쉰 경우가 기존에도 있었는지 물어봐 주시겠어요? [민원인] нет. Говорят, это первый раз. [119상담사] 알겠습니다. 지금 119대원이 현장에 가고 있습니다. 잠시만 기다려주시겠어요? [민원인] Не могли бы вы прийти побыстрее? [119상담사] 도와줄 사람 금방 가니깐 당황하지 마시고 조금만 기다려주세요. 알겠죠? [민원인] да [119상담사] 친구는 현재 깨어 있는지 아니면 정신을 잃었는지 알려주시겠어요? [민원인] Я еще не сплю. [119상담사] 옆에서 말을 좀 시키면서 지켜봐 줄래요? [민원인] Да, мы делаем это. [119상담사] 혹시 현관문 열려 있나요? [민원인] нет. [119상담사] 구급대원들이 곧 도착할테니 문을 열어 줄래요? [민원인] подождите минуту. [119상담사] 구급대원들이 도착하면 친구와 함께 병원으로 이송할테니 함께 해주실거죠? [민원인] да. Я думаю, приехали медики. [119상담사] 네, 알겠습니다. 전화 종료할게요. 2인
대화
(한-불 통번역 상황)[119상담사] 안녕하세요. 경기도 119 상황실입니다. 무슨 일로 전화주셨어요? [민원인] Mon ami a soudainement du mal à respirer. [119상담사] 그러세요? 주소가 어떻게 되나요? [민원인] L’adresse ici est 15 Hannam-dong. [119상담사] 우선 몇가지 질문을 할게요. 천천히 듣고 대답해 주세요. 알겠어요? [민원인] Oui [119상담사] 가슴에 통증이 있는지 물어봐 주시겠어요? [민원인] On dit qu'il y a de la douleur. [119상담사] 이렇게 숨을 못 쉰 경우가 기존에도 있었는지 물어봐 주시겠어요? [민원인] Non. On dit que c'est la première fois. [119상담사] 알겠습니다. 지금 119대원이 현장에 가고 있습니다. 잠시만 기다려주시겠어요? [민원인] Pourriez-vous s'il vous plaît venir rapidement ? [119상담사] 도와줄 사람 금방 가니깐 당황하지 마시고 조금만 기다려주세요. 알겠죠? [민원인] Oui [119상담사] 친구는 현재 깨어 있는지 아니면 정신을 잃었는지 알려주시겠어요? [민원인] Je suis encore debout. [119상담사] 옆에서 말을 좀 시키면서 지켜봐 줄래요? [민원인] Oui, nous le faisons. [119상담사] 혹시 현관문 열려 있나요? [민원인] Non. [119상담사] 구급대원들이 곧 도착할테니 문을 열어 줄래요? [민원인] attends une minute. [119상담사] 구급대원들이 도착하면 친구와 함께 병원으로 이송할테니 함께 해주실거죠? [민원인] Oui. Je pense que les ambulanciers sont arrivés. [119상담사] 네, 알겠습니다. 전화 종료할게요.
- JSON 형식JSON 형식 라벨링 샘플 음성전사 { "분류정보": { "대분류": "숙박", "중분류": "예약", "소분류": "N/A" }, "대화정보": { "대화ID": "k-ht-dt-0001", "시나리오": "나는 프랑스인이고 한국으로 관광을 와서 호텔에 묵을 예정이다. 호텔에 왔는데 온라인으로 예약을 못하고 와서 당일에 예약을 하려는 상황이고 다행이 방이 있는 상태다. 사람은 2명이고 2박3일을 묵을 예정이다. 침대는 더블침대를 원하고 오션뷰가 잘 보이도록 높은 층이 였으면 좋겠다. 청소는 굳이 안해줘도 되서 수건만 넉넉하게 챙겨줬으면 한다고 가정해서 호텔직원과 나의 대화를 만듬.", "대화방식": "2인대화", "대화환경": "비대면", "대화음성길이": 02:03.044, "대화발화수": 12 }, "발화자정보": [ { "uid": "dt-fr-u001", "역할": "관광객", "성별": "남자", "연령대": "50대", "사용언어": "fr", "국가": "프랑스" }, { "uid": "dt-ko-u001", "역할": "호텔직원", "성별": "여자", "연령대": "30대", "사용언어": "ko", "국가": "한국" } ], "대화내용": [ { "id": 1, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-001.wav", "전사문": "Bonjour, Nous sommes venus à l'hôtel sans réservation préalable, y a-t-il une chambre disponible ?", "전사문어절수": 15, }, { "id": 2, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-002.wav", "전사문": "네, 몇 박 묵으실 예정이세요?", "전사문어절수": 5, }, { "id": 3, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-003.wav", "전사문": "Deux personnes pour 3 jours et 2 nuits.", "전사문어절수": 8, }, { "id": 4, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-004.wav", "전사문": "두 분이시면 더블 침대 방으로 드릴까요?", "전사문어절수": 6, }, { "id": 5, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-005.wav", "전사문": "Oui, mais puis-je avoir une chambre avec vue sur l'océan à un étage supérieur ?", "전사문어절수": 8, }, { "id": 6, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-006.wav", "전사문": "되죠, 오션뷰가 보이는 높은 층 방도 가능합니다. ", "전사문어절수": 7, }, { "id": 7, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-007.wav", "전사문": "Quel est le prix de la chambre ?", "전사문어절수": 8, }, { "id": 8, "uid": "dt-ko-u001", "사용언어": "KR-ko", "음성파일명": "k-ht-dt-0001-008.wav", "전사문": "2박에 총 30만원입니다. ", "전사문어절수": 3, }, { "id": 9, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-009.wav", "전사문": "Le petit-déjeuner est-il inclus dans le tarif ?", "전사문어절수": 7, }, { "id": 10, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-010.wav", "전사문": "2박에 총 30만원입니다. ", "전사문어절수": 3, }, { "id": 11, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-011.wav", "전사문": "Oui, veuillez inclure le petit-déjeuner. ah ! Mais vous n’êtes pas obligé de le nettoyer.", "전사문어절수": 8, }, { "id": 12, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-012.wav", "전사문": "네, 알겠습니다. ", "전사문어절수": 2, } ] } 번역 { "분류정보": { "대분류": "숙박", "중분류": "예약", "소분류": "N/A" }, "대화정보": { "대화ID": "k-ht-dt-0001", "시나리오": "나는 프랑스인이고 한국으로 관광을 와서 호텔에 묵을 예정이다. 호텔에 왔는데 온라인으로 예약을 못하고 와서 당일에 예약을 하려는 상황이고 다행이 방이 있는 상태다. 사람은 2명이고 2박3일을 묵을 예정이다. 침대는 더블침대를 원하고 오션뷰가 잘 보이도록 높은 층이 였으면 좋겠다. 청소는 굳이 안해줘도 되서 수건만 넉넉하게 챙겨줬으면 한다고 가정해서 호텔직원과 나의 대화를 만듬.", "대화방식": "2인대화", "대화환경": "비대면", "대화음성길이": 02:03.044, "대화발화수": 12 }, "발화자정보": [ { "uid": "dt-fr-u001", "역할": "관광객", "성별": "남자", "연령대": "50대", "사용언어": "fr", "국가": "프랑스" }, { "uid": "dt-ko-u001", "역할": "호텔직원", "성별": "여자", "연령대": "30대", "사용언어": "ko", "국가": "한국" } ], "대화내용": [ { "id": 1, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-001.wav", "전사문": "Bonjour, Nous sommes venus à l'hôtel sans réservation préalable, y a-t-il une chambre disponible ?", "전사문어절수": 15, "번역문": "안녕하세요. 저희가 사전 예약 없이 호텔에 왔는데요, 혹시 빈 방 있을까요?", "번역문언어": "KR-ko", "번역문어절수": 11 }, { "id": 2, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-002.wav", "전사문": "네, 몇 박 묵으실 예정이세요?", "전사문어절수": 5, "번역문": "N/A", "번역문언어": "N/A", "번역문어절수": 0 }, { "id": 3, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-003.wav", "전사문": "Deux personnes pour 3 jours et 2 nuits.", "전사문어절수": 8, "번역문": "2박3일로 두 명이요.", "번역문언어": "ko", "번역문어절수": 3 }, { "id": 4, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-004.wav", "전사문": "두 분이시면 더블 침대 방으로 드릴까요?", "전사문어절수": 6, "번역문": "N/A", "번역문언어": "N/A", "번역문어절수": 0, }, { "id": 5, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-005.wav", "전사문": "Oui, mais puis-je avoir une chambre avec vue sur l'océan à un étage supérieur ?", "전사문어절수": 8, "번역문": "네, 근데 높은 층으로 오션뷰 방도 되나요?", "번역문언어": "ko", "번역문어절수": 7 }, { "id": 6, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-006.wav", "전사문": "되죠, 오션뷰가 보이는 높은 층 방도 가능합니다. ", "전사문어절수": 7, "번역문": "N/A", "번역문언어": "N/A", "번역문어절수": 0 }, { "id": 7, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-007.wav", "전사문": "Quel est le prix de la chambre ?", "전사문어절수": 8, "번역문": "방 가격이 어떻게 되나요?", "번역문언어": "ko", "번역문어절수": 4 }, { "id": 8, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-008.wav", "전사문": "2박에 총 30만원입니다. ", "전사문어절수": 3, "번역문": "N/A", "번역문언어": "N/A", "번역문어절수": 0 }, { "id": 9, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-009.wav", "전사문": "Le petit-déjeuner est-il inclus dans le tarif ?", "전사문어절수": 7, "번역문": "아침식사는 포함된 가격인가요?", "번역문언어": "ko", "번역문어절수": 3 }, { "id": 10, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-010.wav", "전사문": "2박에 총 30만원입니다. ", "전사문어절수": 3, "번역문": "N/A", "번역문언어": "N/A", "번역문어절수": 0, }, { "id": 11, "uid": "dt-fr-u001", "사용언어": "fr", "음성파일명": "k-ht-dt-0001-011.wav", "전사문": "Oui, veuillez inclure le petit-déjeuner. ah ! Mais vous n’êtes pas obligé de le nettoyer.", "전사문어절수": 8, "번역문": "네, 아침식사도 포함해주세요. 아! 근데 청소는 굳이 안 해주셔도 돼요.", "번역문언어": "ko", "번역문어절수": 10 }, { "id": 12, "uid": "dt-ko-u001", "사용언어": "ko", "음성파일명": "k-ht-dt-0001-012.wav", "전사문": "네, 알겠습니다. ", "전사문어절수": 2, "번역문": "N/A", "번역문언어": "N/A", "번역문어절수": 0 } ] }
- 실제 예시\1.데이터\5.Sample\라벨링데이터\한국내\전사\러시아어\관광
{
"분류정보": {
"대분류": "관광",
"중분류": "도움요청",
"소분류": "N/A"
},
"대화정보": {
"대화ID": "k-tr-dt-0003-009-ru",
"시나리오": "외국인이 오늘 한국을 여행하다가 여권을 잃어버렸습니다. 관광안내소 직원에게 해결방법을 묻고, 여권 분실시 대처 방법에 대한 안내를 듣습니다. 근처에 경찰서가 있는지, 어느 정도 걸리는지, 대사관은 어디에 있는지, 임시 여권 발급에 어떤 서류가 필요한지 등 이런 상황에서 나올만한 내용을 구성하여 대화를 시작해 주세요.",
"대화방식": "2인대화",
"대화음성길이": "10:50.645",
"대화발화수": 59,
"대화환경": "비대면"
},
"대화내용": [
{
"id": 1,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-001-ru.wav",
"전사문": "Здравствуйте.",
"전사문어절수": 1
},
{
"id": 2,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-002-kr.wav",
"전사문": "네. 10분 정도만 걸으시면 돼요.",
"전사문어절수": 5
},
{
"id": 3,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-003-ru.wav",
"전사문": "Я турист из Китая, сегодня я потеряла паспорт в Сеуле. Могу ли я получить помощь?",
"전사문어절수": 15
},
{
"id": 4,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-004-ru.wav",
"전사문": "Спасибо. Все что нужно сделать, это сначала заявить в полицейском участке, а потом пойти в Китайское посольство,",
"전사문어절수": 17
},
{
"id": 5,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-005-ru.wav",
"전사문": "Где находится Китайское посольство?",
"전사문어절수": 4
},(------------------------------중간 생략------------------------------)
{
"id": 54,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-054-kr.wav",
"전사문": "당연히 해야할 일인걸요. 또 필요하신 점은 없으세요?",
"전사문어절수": 7
},
{
"id": 55,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-055-ru.wav",
"전사문": "Да. Кажется, этого достаточно.",
"전사문어절수": 4
},
{
"id": 56,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-056-kr.wav",
"전사문": "지도를 보고 따라가면 보일 거예요.",
"전사문어절수": 5
},
{
"id": 57,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-057-kr.wav",
"전사문": "네. 전화 상담도 가능하니 도중에 필요한 일 있으시면 전화 주세요.",
"전사문어절수": 10
},
{
"id": 58,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-058-kr.wav",
"전사문": "네. 남은 여행도 무사히 즐기시길요.",
"전사문어절수": 5
},
{
"id": 59,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-059-kr.wav",
"전사문": "네. 맞습니다.",
"전사문어절수": 2
}
],
"발화자정보": [
{
"uid": "dt-ru-u0143",
"역할": "관광객",
"성별": "여성",
"연령대": "20대",
"사용언어": "ru",
"국가": "우즈베키스탄"
},
{
"uid": "dt-kr-u0045",
"역할": "직원",
"성별": "여성",
"연령대": "30대",
"사용언어": "ko",
"국가": "한국"
}
]
}
\1.데이터\5.Sample\라벨링데이터\한국내\번역\러시아어\관광{
"분류정보": {
"대분류": "관광",
"중분류": "도움요청",
"소분류": "N/A"
},
"대화정보": {
"대화ID": "k-tr-dt-0003-009-ru",
"시나리오": "외국인이 오늘 한국을 여행하다가 여권을 잃어버렸습니다. 관광안내소 직원에게 해결방법을 묻고, 여권 분실시 대처 방법에 대한 안내를 듣습니다. 근처에 경찰서가 있는지, 어느 정도 걸리는지, 대사관은 어디에 있는지, 임시 여권 발급에 어떤 서류가 필요한지 등 이런 상황에서 나올만한 내용을 구성하여 대화를 시작해 주세요.",
"대화방식": "2인대화",
"대화음성길이": "10:50.645",
"대화발화수": 59,
"대화환경": "비대면"
},
"대화내용": [
{
"id": 1,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-001-ru.wav",
"전사문": "Здравствуйте.",
"전사문어절수": 1,
"번역문언어": "ko",
"번역문": "안녕하세요.",
"번역문어절수": 1
},
{
"id": 2,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-002-kr.wav",
"전사문": "네. 10분 정도만 걸으시면 돼요.",
"전사문어절수": 5,
"번역문언어": "ru",
"번역문": "да. Вам нужно идти всего около 10 минут.",
"번역문어절수": 8
},
{
"id": 3,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-003-ru.wav",
"전사문": "Я турист из Китая, сегодня я потеряла паспорт в Сеуле. Могу ли я получить помощь?",
"전사문어절수": 15,
"번역문언어": "ko",
"번역문": "중국에서 온 여행객인데, 오늘 서울에서 여권을 잃어버렸어요. 도움을 받을 수 있는 방법이 있을까요?",
"번역문어절수": 13
},
{
"id": 4,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-004-ru.wav",
"전사문": "Спасибо. Все что нужно сделать, это сначала заявить в полицейском участке, а потом пойти в Китайское посольство,",
"전사문어절수": 17,
"번역문언어": "ko",
"번역문": "감사합니다. 경찰서에 신고 후 중국 대사관을 가면 되는 거죠?",
"번역문어절수": 9
},
{
"id": 5,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-005-ru.wav",
"전사문": "Где находится Китайское посольство?",
"전사문어절수": 4,
"번역문언어": "ko",
"번역문": "중국 대사관은 어디에 있나요?",
"번역문어절수": 4
},(------------------------------중간 생략------------------------------)
{
"id": 54,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-054-kr.wav",
"전사문": "당연히 해야할 일인걸요. 또 필요하신 점은 없으세요?",
"전사문어절수": 7,
"번역문언어": "ru",
"번역문": "Конечно, это то, что нужно сделать. Есть ли что-нибудь еще, что вам нужно?",
"번역문어절수": 13
},
{
"id": 55,
"uid": "dt-ru-u0143",
"사용언어": "ru",
"음성파일명": "k-tr-dt-0003-009-ru-055-ru.wav",
"전사문": "Да. Кажется, этого достаточно.",
"전사문어절수": 4,
"번역문언어": "ko",
"번역문": "네. 이 정도면 충분한",
"번역문어절수": 4
},
{
"id": 56,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-056-kr.wav",
"전사문": "지도를 보고 따라가면 보일 거예요.",
"전사문어절수": 5,
"번역문언어": "ru",
"번역문": "Если вы посмотрите на карту и будете следовать ей, вы это увидите.",
"번역문어절수": 12
},
{
"id": 57,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-057-kr.wav",
"전사문": "네. 전화 상담도 가능하니 도중에 필요한 일 있으시면 전화 주세요.",
"전사문어절수": 10,
"번역문언어": "ru",
"번역문": "да. Также доступна консультация по телефону, поэтому, пожалуйста, позвоните нам, если вам что-нибудь понадобится в процессе.",
"번역문어절수": 16
},
{
"id": 58,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-058-kr.wav",
"전사문": "네. 남은 여행도 무사히 즐기시길요.",
"전사문어절수": 5,
"번역문언어": "ru",
"번역문": "да. Надеюсь, вы благополучно проведете остаток поездки.",
"번역문어절수": 7
},
{
"id": 59,
"uid": "dt-kr-u0045",
"사용언어": "ko",
"음성파일명": "k-tr-dt-0003-009-ru-059-kr.wav",
"전사문": "네. 맞습니다.",
"전사문어절수": 2,
"번역문언어": "ru",
"번역문": "да. ты прав.",
"번역문어절수": 3
}
],
"발화자정보": [
{
"uid": "dt-ru-u0143",
"역할": "관광객",
"성별": "여성",
"연령대": "20대",
"사용언어": "ru",
"국가": "우즈베키스탄"
},
{
"uid": "dt-kr-u0045",
"역할": "직원",
"성별": "여성",
"연령대": "30대",
"사용언어": "ko",
"국가": "한국"
}
]
}
\1.데이터\5.Sample\라벨링데이터\한국외\전사\프한\구급{
"분류정보": {
"대분류": "구급",
"중분류": "도난",
"소분류": "N/A"
},
"대화정보": {
"대화ID": "f-em-dt-0001-001",
"시나리오": "Je suis un Touriste(철수) coréen et je suis venu pour mes vacances à Paris. J'ai pris le métro à la station pyramides pour aller voir la tour Eiffel. Lorsque je sors du métro, je me rends compte que mon sac est ouvert et que je ne retrouve plus mon passeport, mon porte feuille et ma caméra. Je pars au commissariat pour faire une déposition. Ce dialogue doit faire 130 phrases.",
"대화방식": "2인대화",
"대화환경": "대면",
"대화음성길이": "04:40,702",
"대화발화수": 74
},
"발화자정보": [
{
"uid": "dt-ko-u0042",
"역할": "관광객",
"성별": "여성",
"연령대": "20대",
"사용언어": "ko",
"국가": "한국"
},
{
"uid": "dt-fr-u0041",
"역할": "친구2",
"성별": "남성",
"연령대": "20대",
"사용언어": "fr",
"국가": "프랑스"
}
],
"대화내용": [
{
"id": 1,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-001-ko.wav",
"전사문": "안녕하세요, 제가 관광객인데 도움이 필요해서요. ",
"전사문어절수": 5
},
{
"id": 2,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-002-fr.wav",
"전사문": "Dites-moi, quel est le problème ?",
"전사문어절수": 6
},
{
"id": 3,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-003-ko.wav",
"전사문": "네. 제가 피라미드 역에서 지하철 타고 에펠탑을 보러가다가 가방이 열린 거를 발견해서요. ",
"전사문어절수": 12
},
{
"id": 4,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-004-fr.wav",
"전사문": "Je suis désolé, que s'est-il passé ensuite ?",
"전사문어절수": 8
},
{
"id": 5,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-005-ko.wav",
"전사문": "가방 확인해보니까 여권, 지갑, 카메라가 없어졌더라구요.",
"전사문어절수": 6
},(------------------------------중간 생략------------------------------)
{
"id": 70,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-070-fr.wav",
"전사문": "C'est l'attitude à avoir.",
"전사문어절수": 4
},
{
"id": 71,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-071-fr.wav",
"전사문": "Si vous avez besoin de quoi que ce soit d'autre, n'hésitez pas.",
"전사문어절수": 12
},
{
"id": 72,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-072-fr.wav",
"전사문": "Nous sommes là pour vous aider.",
"전사문어절수": 6
},
{
"id": 73,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-073-ko.wav",
"전사문": "너무 감사해요.",
"전사문어절수": 2
},
{
"id": 74,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-074-ko.wav",
"전사문": "덕분에 기분이 훨씬 낫네요. ",
"전사문어절수": 4
}
]
}
\1.데이터\5.Sample\라벨링데이터\한국외\번역\프한\구급{
"분류정보": {
"대분류": "구급",
"중분류": "도난",
"소분류": "N/A"
},
"대화정보": {
"대화ID": "f-em-dt-0001-001",
"시나리오": "Je suis un Touriste(철수) coréen et je suis venu pour mes vacances à Paris. J'ai pris le métro à la station pyramides pour aller voir la tour Eiffel. Lorsque je sors du métro, je me rends compte que mon sac est ouvert et que je ne retrouve plus mon passeport, mon porte feuille et ma caméra. Je pars au commissariat pour faire une déposition. Ce dialogue doit faire 130 phrases.",
"대화방식": "2인대화",
"대화환경": "대면",
"대화음성길이": "04:40,702",
"대화발화수": 74
},
"발화자정보": [
{
"uid": "dt-ko-u0042",
"역할": "관광객",
"성별": "여성",
"연령대": "20대",
"사용언어": "ko",
"국가": "한국"
},
{
"uid": "dt-fr-u0041",
"역할": "친구2",
"성별": "남성",
"연령대": "20대",
"사용언어": "fr",
"국가": "프랑스"
}
],
"대화내용": [
{
"id": 1,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-001-ko.wav",
"전사문": "안녕하세요, 제가 관광객인데 도움이 필요해서요. ",
"전사문어절수": 5,
"번역문": "Monsieur, j'ai besoin d'aide, je suis un touriste.",
"번역문어절수": 8,
"번역문언어": "fr"
},
{
"id": 2,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-002-fr.wav",
"전사문": "Dites-moi, quel est le problème ?",
"번역문": "무슨 문제인지 말씀해 주실 수 있을까요?",
"번역문언어": "ko",
"전사문어절수": 6,
"번역문어절수": 6
},
{
"id": 3,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-003-ko.wav",
"전사문": "네. 제가 피라미드 역에서 지하철 타고 에펠탑을 보러가다가 가방이 열린 거를 발견해서요. ",
"번역문": "Oui. J'ai pris le métro à Pyramides pour aller voir la tour Eiffel et j'ai vu que mon sac était ouvert.",
"번역문언어": "fr",
"전사문어절수": 12,
"번역문어절수": 21
},
{
"id": 4,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-004-fr.wav",
"전사문": "Je suis désolé, que s'est-il passé ensuite ?",
"번역문": "어머나, 그 다음에는 어떻게 되셨는데요?",
"번역문언어": "ko",
"전사문어절수": 8,
"번역문어절수": 5
},
{
"id": 5,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-005-ko.wav",
"전사문": "가방 확인해보니까 여권, 지갑, 카메라가 없어졌더라구요.",
"번역문": "En vérifiant mon sac, j'ai constaté que je n'avais plus mon passeport, mon porte-monnaie et ma caméra.",
"번역문언어": "fr",
"전사문어절수": 6,
"번역문어절수": 17
},(------------------------------중간 생략------------------------------)
{
"id": 70,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-070-fr.wav",
"전사문": "C'est l'attitude à avoir.",
"번역문": "그렇게 하시는 게 좋을 거예요. ",
"번역문언어": "ko",
"전사문어절수": 4,
"번역문어절수": 5
},
{
"id": 71,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-071-fr.wav",
"전사문": "Si vous avez besoin de quoi que ce soit d'autre, n'hésitez pas.",
"번역문": "필요한 게 있으시면 바로 말씀해주시구요. ",
"번역문언어": "ko",
"전사문어절수": 12,
"번역문어절수": 5
},
{
"id": 72,
"uid": "dt-fr-u0041",
"사용언어": "fr",
"음성파일명": "f-em-dt-0001-001-AB-072-fr.wav",
"전사문": "Nous sommes là pour vous aider.",
"번역문": "저희가 도와드릴게요. ",
"번역문언어": "ko",
"전사문어절수": 6,
"번역문어절수": 2
},
{
"id": 73,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-073-ko.wav",
"전사문": "너무 감사해요.",
"번역문": "Merci infiniment.",
"번역문언어": "fr",
"전사문어절수": 2,
"번역문어절수": 2
},
{
"id": 74,
"uid": "dt-ko-u0042",
"사용언어": "ko",
"음성파일명": "f-em-dt-0001-001-AB-074-ko.wav",
"전사문": "덕분에 기분이 훨씬 낫네요. ",
"번역문": "Je me sens déjà mieux grâce à vous.",
"번역문언어": "fr",
"전사문어절수": 4,
"번역문어절수": 8
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜디엠티랩스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 JIN YUN(김운) 02-794-5333 yunjin@dmtlabs.co.kr 총괄 PM (사업 관리, 데이터 구축, AI모델 개발) 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜에버트란 데이터 구축 (수집, 정제, 가공, 검사) 주식회사 엑스엘에이트에이아이 데이터 구축 (수집, 정제, 가공, 검사) ㈜윤즈정보개발 데이터 구축 (수집, 정제, 가공, 검사) 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 JIN YUN(김운) 02-794-5333 yunjin@dmtlabs.co.kr 이희정 02-794-5333 lhj@dmtlabs.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 JIN YUN(김운) 02-794-5333 yunjin@dmtlabs.co.kr JIN YAN(김연) 02-794-5333 jinyan1983@dmtlabs.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 JIN YUN(김운) 02-794-5333 yunjin@dmtlabs.co.kr 이희정 02-794-5333 lhj@dmtlabs.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.