NEW 생성형AI 금융 분야 다국어 병렬 말뭉치 데이터
- 분야금융
- 유형 텍스트
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2024-12-04 서브라벨링 추가 개방 1.1 2024-10-30 데이터 최종 개방 1.0 2024-10-21 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-06-28 산출물 공개 Beta Version 소개
- 국내 금융기관의 금융 분야 통번역 서비스를 지원하기 위한 금융 분야의 다국어 번역 데이터
구축목적
- 금융 분야의 다국어 번역 병렬 말뭉치를 구축하여, 금융 분야 기계 번역기의 품질 고도화 (한국어↔영어/한국어↔중국어/한국어↔일본어/한국어↔베트남어/한국어↔인도네시아어)
-
메타데이터 구조표 데이터 영역 금융 데이터 유형 텍스트 데이터 형식 json 데이터 출처 공공데이터포털, 뉴스, 학술논문 라벨링 유형 번역(자연어) 라벨링 형식 json 데이터 활용 서비스 기계 번역 데이터 구축년도/
데이터 구축량2023년/한국어-영어: 508,506, 한국어-일본어: 507,999, 한국어-중국어: 505,153 / 한국어-베트남어: 512,400, 한국어-인도네시아어: 510,612 -
- 데이터 구축 규모
데이터 구축 규모 문서유형 라벨링 언어 문서수 문장수 평균어절수 공시정보 영어 61,461 100,721 16.6 일본어 59,081 107,880 16.4 중국어 63,911 101,207 16.6 베트남어 64,983 107,185 16.6 인도네시아어 50,849 105,051 16.5 소계 300,285 522,044 16.5 뉴스기사 영어 39,421 103,913 18.3 일본어 39,980 100,012 18.6 중국어 38,983 100,467 18.5 베트남어 40,834 101,003 18.6 인도네시아어 39,056 100,162 18.3 소계 198,274 505,557 18.5 규제정보 영어 41,061 101,117 16.5 일본어 44,079 100,100 16.3 중국어 48,431 100,785 16.5 베트남어 37,800 102,319 16 인도네시아어 40,063 100,740 17 소계 211,434 505,061 16.5 보고서 영어 26,790 101,535 17.1 일본어 26,579 100,007 18.4 중국어 27,730 102,289 16.9 베트남어 30,764 101,562 16.5 인도네시아어 31,017 103,614 16.4 소계 142,880 509,007 17 학술논문 영어 37,303 101,220 18.9 일본어 36,989 100,000 19.4 중국어 36,659 100,405 19.3 베트남어 32,108 100,331 19.6 인도네시아어 31,258 101,045 19 소계 174,317 503,001 19.2 합계 1,027,190 2,544,670 17.5 - 데이터 분포
- 금융 문서 카테고리별 분포금융 문서 카테고리별 분포 문서 유형 목표 구성비 결과 구성비 공시정보 20% 29.20% 뉴스기사 20% 19.30% 규제정보 20% 20.60% 보고서 20% 13.90% 학술논문 20% 17.00% - 언어별 분포
언어별 분포 언어 목표 구성비 결과 구성비 영어 20% 20.00% 일본어 20% 19.90% 중국어 20% 19.90% 베트남어 20% 20.10% 인도네시아어 20% 20.10% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 모델학습
- 모델 아키텍쳐: attention 알고리즘 바탕의 encoder, decoder로 구성
- 본 사업에 구축된 병렬 코퍼스로 각 언어세트에 맞는 번역 모델 구축
- Systran의 AutoML (모델스튜디오)를 활용하여 효율적인 학습 및 모델 관리AI 모델 상세 AI모델 task AI모델 성능지표 및 목표값 Data I/O Translation Systran MT (Transformer) 언어별 BLEU Score를 측정하며, 언어별 목표 점수 이상 달성 Input data: source text 한국어-영어: 55점이상 Output data: target text 한국어-중국어: 55점 이상 한국어-일본어: 55점 이상 한국어-베트남어: 45점 이상 한국어-인도네시아어: 45점 이상 - 서비스 활용 시나리오
- 본 사업을 통해 구축된 모델을 바탕으로 사업성 적절성 검토 후 서비스 구축 or 모델 공개 등을 통해 가치 창출
- 금융 분야 전문 모델 출시를 통해 해외 금융 서비스를 고려하거나 해 외 금융 자료를 번역하고 분석하는데 활용 가능
- 시스트란이 제공하는 직접 학습 가능한 AutoML + Cloud 기반의 SAAS(Software-as-a-Service) 형태의 번역 서비스 제공 가능
- 이를 통해 해외 금융 자료 분석을 하고자 하는 고객 혹은 해외 금융 분야에 진출하는 업체들에 다양한 서비스 제공 가능 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 국내 금융 분야의 문서를 수집하였으며, 문서 유형은 공시정보, 뉴스 기사, 규제정보, 보고서, 학술논문 등 5개로 분류함
- 라벨링 유형은 번역(MTPE)으로 한국어를 영어, 일본어, 중국어, 베트 남어, 인도네시아어 등 5개 외국어로 번역함
- 다국어 병렬 말뭉치 데이터는 한국어 원문 (ko), 기계번역문(mt), 기 계번역문을 포스트에디팅한 최종 번역문 (mtpe)으로 구성함
- 문서 유형별 제공하는 정보를 문서 정보로 정의하여 데이터를 구축함
- 데이터 구성
1) 공통 항목데이터 구성 공통 항목 항목 설명 타입 meta doc_no 문서 번호 string domain 구축할 데이터셋의 분야 string category 원시데이터의 문서 유형 string license 원문에 대한 라이센스 string source_language 출발 언어의 언어 코드값 string target_language 도착 언어의 언어코드 string sents page 문서 단위인 쪽 번호를 기재함* number sn 문장에 부여한 고유 시리얼 번호 string source_original 원시 데이터 추출 문장 string source_cleaned 정제된 원천데이터 string mt 기계번역문 string mtpe 기계번역문을 포스트에디팅한 최종 번역문 string *page: 규제정보, 보고서, 학술논문에 포함된 항목이며, 문서 1개를 쪽수로 구분함
2) 문서유형별 ‘문서정보(doc_info)’ 구성 항목
문서유형별 ‘문서정보(doc_info)’ 구성 항목 문서 유형 항목 항목 설명 타입 공시정보 doc_info source 원시데이터의 작성기관, 자료 출처 string dis_no 공시번호 string doc_name 공시정보 문서의 제목 string com_name 공시정보를 공개한 기업명 string date 공시일 number 규제정보 doc_info source 원시데이터의 작성기관, 자료 출처 string title 규제정보의 제목 string date 문서 작성일 number 보고서 doc_info source 원시데이터의 작성기관, 자료 출처 string title 보고서의 제목 string date 문서 작성일 number 학술논문 doc_info source 원시데이터의 작성기관, 자료 출처 string journal_name 학술논문이 발간된 학술지명 string vol_info 학술지의 발간 정보 (권, 호, 논문의 페이지 번호 등) string doi 학술논문의 고유 식별번호 string title 학술 논문의 제목 string date 학술논문 발간월 number *뉴스기사의 경우, AI 허브에 데이터 업로드 시 “doc_info”를 공개하지 말아야 한다는 저 작권자의 요청에 따라, 최종데이터 제출 시, 뉴스 기사의 “doc_info” 삭제함
- 어노테이션 포맷
1) 공시정보공시정보 No 속성명 타입 필수여부 속성 설명 예시 1 meta object 필수 문서의 메타 정보 1-2 doc_no string 필수 공시 정보 문서 번호 “dis1”, “dis2”, ... 1-3 domain string 필수 구축할 데이터셋의 분야 “금융” 1-4 category string 필수 원시데이터의 문서구분/내용구분 “공시정보” 1-5 license string 필수 원문에 대한 라이센스 “open” 1-6 source_language string 필수 출발 언어의 언어 코드값 “ko” 1-7 target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id” 2 doc_info object 필수 문서별 속성 정보 2-1 source string 필수 원시데이터의 작성 기관/작성자, 자료 출처 “금융감독원” 2-2 dis_no number 필수 공시번호 20220720000382 2-3 doc_name string 필수 공시정보 문서의 제목 “주요사항보고서” 2-4 com_name string 필수 공시정보를 공개한 기업명 “삼강엠앤티(주)” 2-5 date number 필수 공시일을 기재함 YYYYMMDD 3 sents array 필수 라벨링 데이터 정보 3-1 sn string 필수 문장에 부여한 고유 시리얼 번호 “dic1sent1”, “dic2sent1”, ... 3-2 source_original string 필수 원시 데이터 추출 문장 3-3 source_cleaned string 필수 정제된 원천데이터 3-4 mt string 필수 기계번역문 3-5 mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문 2) 뉴스기사
뉴스기사 No 속성명 타입 필수여부 속성 설명 예시 1 meta object 필수 문서의 메타 정보 1-1 doc_no string 필수 뉴스기사의 문서 번호 “news1”, “news2”, ... 1-2 domain string 필수 구축할 데이터셋의 분야 “금융” 1-3 category string 필수 원시데이터의 문서구분/내용구분 “뉴스기사” 1-4 license string 필수 원문에 대한 라이센스 “open” 1-5 source_language string 필수 출발 언어의 언어 코드값 “ko” 1-6 target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id” 2 sents array 필수 라벨링 데이터 정보 2-1 sn string 필수 문장에 부여한 고유 시리얼 번호 “news1sent1”, “news2sent1”, ... 2-2 source_original string 필수 원시 데이터 추출 문장 2-3 source_cleaned string 필수 정제된 원천데이터 2-4 mt string 필수 기계번역문 2-5 mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문 3) 규제정보/보고서
규제정보/보고서 No 속성명 타입 필수여부 속성 설명 예시 1 meta object 필수 문서의 메타 정보 1-1 doc_no string 필수 문서 번호 규제정보: “law1”, “law2”, …
보고서: “report1”, “report2”, …1-2 domain string 필수 구축할 데이터셋의 분야 “금융” 1-3 category string 필수 원시데이터의 문서구분/내용구분 “규제정보”
“보고서”1-4 license string 필수 원문에 대한 라이센스 “open” 1-5 source_language string 필수 출발 언어의 언어 코드값 “ko” 1-6 target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id” 2 doc_info object 필수 문서별 속성 정보 2-1 source string 필수 원시데이터의 작성 기관/작성자, 자료 출처 2-2 title number 필수 문서 제목 2-3 date number 선택 문서 작성일 YYYYMMDD 3 sents array 필수 라벨링 데이터 정보 3-1 page number 필수 문서 단위인 쪽 번호를 기재함 1, 2, 3, ... 3-2 sn string 필수 문장에 부여한 고유 시리얼 번호 3-3 source_original string 필수 원시 데이터 추출 문장 3-4 source_cleaned string 필수 정제된 원천데이터 3-5 mt string 필수 기계번역문 3-6 mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문 4) 학술논문
학술논문 No 속성명 타입 필수여부 속성 설명 예시 1 meta object 필수 문서의 메타 정보 1-1 doc_no string 필수 학술 논문의 문서 번호 “paper1”, “paper2”, ... 1-2 domain string 필수 구축할 데이터셋의 분야 “금융” 1-3 category string 필수 원시데이터의 문서구분/내용구분 “학술논문” 1-4 license string 필수 원문에 대한 라이센스 “open” 1-5 source_language string 필수 출발 언어의 언어 코드값 “ko” 1-6 target_language string 필수 도착 언어의 언어 코드 값 “en”, “ja”, “zh”, “vi”, “id” 2 doc_info object 필수 문서별 속성 정보 2-1 source string 필수 원시데이터의 작성 기관/작성자, 자료 출처 “한국금융학회”, ... 2-2 journal_name string 필수 학술논문이 발간된 학술지명 “금융연구”, ... 2-3 vol_info string 필수 학술지의 발간 정보 (권, 호, 논문의 페이지 번호 등) “2017, vol.31, no.4, pp. 133-167 (35 pages)”, ... 2-4 doi string 필수 학술논문의 고유 식별번호 “10.17924/solc.2018.49.191”, ... 2-5 title string 필수 학술 논문의 제목 2-6 date number 필수 학술논문 발간월을 기재함 YYYYMMDD 3 sents array 필수 라벨링 데이터 정보 3-1 page number 필수 문서 단위인 쪽 번호를 기재함 1, 2, 3, ... 3-2 sn string 필수 문장에 부여한 고유 시리얼 번호 “paper1sent1”, “paper2sent1”, ... 3-3 source_original string 필수 원시 데이터 추출 문장 3-4 source_cleaned string 필수 정제된 원천데이터 3-5 mt string 필수 기계번역문 3-6 mtpe string 필수 기계번역문을 포스트에디팅한 최종 번역문 - 실제 예시
공시정보 베트남어 번역 < 공시정보 베트남어 번역> { "meta": { "doc_no": "dis247330", "domain": "금융", "category": "공시정보", "license": "open", "source_language": "ko", "target_language": "vi"
}, "doc_info": { "source": "금융감독원", "dis_no": 20210817001666, "doc_name": "반기보고서", "com_name": "(주)성남시민프로축구단", "date": 20210817
}, "sents": [ {
"sn": "dis247330sent154074043",
"source_original": "당사는 2011년 1월 1일부터 시행되는 일반기업회계기준에 따라 재무제표를 작성하였으며, 2020년 12월 31일로 종료하는 회계연도의 연차 재무제표를 작성할 때에 적용한 것과 동일한 회계정책을 적용하고 있습니다.",
"source_cleaned": "당사는 2011년 1월 1일부터 시행되는 일반기업회계기준에 따라 재무제표를 작성하였으며, 2020년 12월 31일로 종료하는 회계연도의 연차 재무제표를 작성할 때에 적용한 것과 동일한 회계정책을 적용하고 있습니다.",
"mt": "Côngty đãchuẩnbịbáocáotàichínhtheoTiêuchuẩnKếtoánDoanhnghiệpThông thường, cóhiệulựctừngày1 tháng1 năm2011, vàđangápdụngchínhsáchkếtoántươngtựđượcápdụngkhilậpbáocáotàichínhhàngnămchonă
mtàichínhkếtthúcvàongày31 tháng12 năm2020.",
"mtpe": "Côngty chúngtôiđãlậpbáocáotàichínhtheochuẩnmựckếtoándoanhnghiệptổnghợpcóhiệulựctừngày1 tháng1 năm2011 vàchúngtôiđangápdụngcácchínhsáchkếtoántươngtựnhưcácchínhsáchđãápdụngkhilậpbáocáotàichínhnămchonămtàichínhkếtthúcngày31 tháng12 năm2020."
}, {
"sn": "dis247330sent154074196",
"source_original": "당반기와 전반기중 발생한 무형자산의 변동내용은 다음과 같으며 무형자산상각비의과목으로 손익계산서에 계상하였습니다.",
"source_cleaned": "당반기와 전반기중 발생한 무형자산의 변동내용은 다음과 같으며 무형자산상각비의과목으로 손익계산서에 계상하였습니다.",
"mt": "Nhữngthayđổivềtàisảnphi vậtthểxảyratrongnửađầunămvànửađầunămlànhữngnộidung sau, vàđượcliệtkêtronghóađơnlãisuấtnhưmộtmônhọcchi phíkhấuhao tàisảnphi vậtthể.",
"mtpe": "Nhữngthayđổivềtàisảnvôhìnhxảyratrongnửahiệntạivànửađầunămnhưsauvàđượcghinhậnvàobáocáokếtquảhoạtđộngkinhdoanhnhưmộtđốitượngcủachi phíkhấuhao tàisảnvôhình."
} ]
}뉴스기사 인도네시아어 번역 < 뉴스기사 인도네시아어 번역> { "meta": { "doc_no": "news286809", "domain": "금융", "category": "뉴스기사", "license": "open", "source_language": "ko", "target_language": "id"
}, "sents": [ {
"sn": "news286809sent3432515",
"source_original": "이날 오전 9시 13분 현재 유가증권시장에서 한솔테크닉스는전 거래일보다 11.33% 하락한 6천420원에 거래되고 있다.",
"source_cleaned": "이날 오전 9시 13분 현재 유가증권시장에서 한솔테크닉스는전 거래일보다 11.33% 하락한 6천420원에 거래되고 있다.",
"mt": "Pada pukul9:13 pagi, di pasar saham, Hansoltechdiperdagangkanpada 6.420 won, turun11,33% darihariperdagangansebelumnya.",
"mtpe": "Pada pukul09:13 di hariyang sama, Hansol Technics diperdagangkanpada 6.420 won, turun11,33% darihariperdagangansebelumnya."
}, {
"sn": "news286809sent3432516",
"source_original": "한솔테크닉스는지난 19일 운영자금 조달을 위해 518억원 규모의 주주배정 후 실권주일반공모 방식 유상증자를 결정했다고 공시했다.",
"source_cleaned": "한솔테크닉스는지난 19일 운영자금 조달을 위해 518억 원 규모의 주주배정 후 실권주일반공모 방식 유상증자를 결정했다고 공시했다.",
"mt": "Pada tanggal19, Han Sol Technologies mengumumkanpada tanggal19 bahwamerekatelahmemutuskanuntukmenambahmodal melaluipenawaranumumhaknyatasetelahmengalokasikanpemegangsahamsebesar51,8 miliarwon untukmengumpulkandana operasional.",
"mtpe": "Hansol Technics mengumumkanpada tanggal19 bahwamerekatelahmemutuskanuntukmeningkatkanmodal untukpeningkatanmodal disetormelaluipenawaranumumsahamreal-rights setelahmengalokasikan51,8 miliarwon kepadapemegangsahamuntukmengumpulkandana operasional."
} ]
}규제정보 일본어 번역 < 규제정보 일본어 번역> { "meta": { "doc_no": "law3027", "domain": "금융", "category": "규제정보", "license": "open", "source_language": "ko", "target_language": "ja"
}, "doc_info": { "source": "법제처", "title": "자본시장과_금융투자업에_관한_법률_시행령(대통령령)(제33542호)_477", "date": 20230613
}, "sents": [ {
"page": 334,
"sn": "law3027sent62996",
"source_original": "⑩ 법 부칙 제3조제12항에 따라 설립등기를 한 때에는 종전의 「증권거래법 시행령」 제84조의28제5항에 따라 성립된 주권의 매매거래로서 결제가 종결되지 아니한 것은 제178조에 따라 같은 조건으로 거래가 성립된 것으로 본다.",
"source_cleaned": "⑩ 법 부칙 제3조제12항에 따라 설립등기를 한 때에는 종전의 「증권거래법 시행령」 제84조의28제5항에 따라 성립된 주권의 매매거래로서 결제가 종결되지 아니한 것은 제178조에 따라 같은 조건으로 거래가 성립된 것으로 본다.",
"mt": "⑩法付則第3条第12項により設立登記をした時には従来の「証券取引法施行令」第84条の28第5項により成立した主権の売買取引として決済が終結されなかったのは第178条により同じ条件で取引が成立したと見なす。",
"mtpe": "⑩法の付則第3条第12項により設立登記をした時には従来の「証券取引法施行令」第84条の28第5項により成立した株券の売買取引として決済が終結されなかったものは第178条に基づき同じ条件で取引が成立したと見なす。"
}, {
"page": 334,
"sn": "law3027sent62995",
"source_original": "제5조(주식등의대량보유 등의 보고대상 중요계약) 법 부칙 제21조제2항에서 “주요계약내용 등 대통령령으로 정하는 중요한 사항”이란제155조 각 호의 어느 하나에 해당하는 사항을 말한다.",
"source_cleaned": "부칙 제21조 제2항에서 “주요계약내용 등 대통령령으로 정하는 중요한 사항”이란제155조 각 호의 어느 하나에 해당하는 사항을 말한다.",
"mt": "付則第21条第2項で「主要契約内容など大統領令で定める重要な事項」とは、第155条各号のいずれかに該当する事項をいう。",
"mtpe": "付則の第21条第2項の「主要契約内容など大統領令で定める重要な事項」とは、第155条各号のいずれかに該当する事項をいう。"
} ]
}보고서 영어 번역 < 보고서 영어 번역> { "meta": { "doc_no": "report1967", "domain": "금융", "category": "보고서", "license": "open", "source_language": "ko", "target_language": "en"
}, "doc_info": { "source": "한국무역보험공사", "title": "亞신흥국에 대한 불안감 완화와 수출업체 네고물량에대한
기대감으로 1,110원대 등락 예상", "date": 20130826
}, "sents": [ {
"page": 1,
"sn": "report1967sent21603",
"source_original": "금일 달러-원 환율은 아시아 신흥국에 대한 불한감완화와 네고물량으로1,110원대에서 등락할 것으로 예상된다.",
"source_cleaned": "금일 달러-원 환율은 아시아 신흥국에 대한 불한감완화와 네고물량으로1,110원대에서 등락할 것으로 예상된다.",
"mt": "Today'sdollar-wonexchangerateisexpectedtofluctuatefromaroundKRW 1,110 duetoeasedcomplaintsagainstemergingAsiancountriesand thevolumeof thenego.",
"mtpe": "The dollar-wonexchangerateisexpectedtofluctuateintherangeof KRW 1,110 today, ascomplaintsagainstemergingAsiancountrieseaseand negotiationvolumesincrease."
}, {
"page": 1,
"sn": "report1967sent21608",
"source_original": "뉴욕증시는 주택지표 부진에 따른 Fed양적완화조치 규모감축 시행 시기 지연 가능성으로 상승하였다.",
"source_cleaned": "뉴욕증시는 주택지표 부진에 따른 Fed양적완화조치 규모감축 시행 시기 지연 가능성으로 상승하였다.",
"mt": "New York StockExchange The possibilityof adelayinthetimingof implementingtheFed'squantitativeeasingmeasuresduetosluggishhousingindicatorshasrisen.",
"mtpe": "The New York StockExchange hasrisenduetothepossibilityof adelayinthetimingof implementingtheFed'squantitativeeasingmeasures, whichiscausedbysluggishhousingindicators."
} ]
}학술논문 중국어 번역 < 학술논문 중국어 번역> { "meta": { "doc_no": "paper20919", "domain": "금융", "category": "학술논문", "license": "open", "source_language": "ko", "target_language": "zh"
}, "doc_info": { "source": "법학연구소", "journal_name": "외법논집", "vol_info": "2018, vol.42,no.1, pp. 217-246 (30 pages)", "doi": "10.17257/hufslr.2018.42.1.217", "title": "금융광고와 금융소비자 보호 - 규제 정비방향과 법적 과제 -", "date": 201802
}, "sents": [ {
"page": 2,
"sn": "paper20919sent222135",
"source_original": "대표적으로 TV나 신문⋅잡지⋅전단지등을 통한 광고와 인터넷⋅사이트등에 게시된 정보, 그 리고버스⋅지하철⋅택시에부착된 다양한 광고 등을 통해 금융상품에 대한 일정한 이미지가 형 성되기때문이다.",
"source_cleaned": "대표적으로 TV나 신문⋅잡지⋅전단지등을 통한 광고와 인터넷⋅사이트등에 게시된 정보, 그 리고버스⋅지하철⋅택시에부착된 다양한 광고 등을 통해 금융상품에 대한 일정한 이미지가 형 성되기때문이다.",
"mt": "具有代表性的是,通过电视、报纸⋅杂志⋅传单等广告和网络⋅网站等上登载的信息,以及公交车⋅地铁⋅出租车上贴着的各种广告等,对金融商品的一定形象形成了。",
"mtpe": "因为最具代表性的是通过电视、报纸、杂志、传单等广告和网上、网站上发布的信息,还有公交车、地铁、出租车上贴着的多种广告等,对金融商品的一定形象形成了。"
}, {
"page": 2,
"sn": "paper20919sent222141",
"source_original": "이처럼 금융상품의 경우 판매단계에서 금융회사의 적 정한 정보 제공과 금융소비자에게 적합한 상품의 권유는 기본이고 필수라 할 것이다.",
"source_cleaned": "이처럼 금융상품의 경우 판매단계에서 금융회사의 적 정한 정보 제공과 금융소비자에게 적합한 상품의 권유는 기본이고 필수라 할 것이다.",
"mt": "像这样,金融商品在销售阶段,提供金融公司适当的信息和推荐适合金融消费者的商品是基本,也是必须的。",
"mtpe": "像这样,金融商品在销售阶段,金融公司提供适当的信息和推荐适合金融消费者的商品是基本和必须的。"
} ]
} -
데이터셋 구축 담당자
수행기관(주관) : 글나무 주식회사
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 방다솜 부장 02-3210-0601 dsbang@voctree.com 데이터 구축 PM 수행기관(참여)
수행기관(참여) 기관명 담당업무 주식회사 렉스코드 라벨링 데이터 구축 (영어, 중국어) 주식회사 시스트란 저작도구 개발 및 운영, AI 모델 학습 주식회사 트위그팜 라벨링 데이터 구축 (일본어) 한샘글로벌 주식회사 라벨링 데이터 구축 (베트남어, 인도네시아어) 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 글나무 문선희 대표 02-3210-0609 sunny@voctree.com 글나무 방다솜 부장 02-3210-0601 dsbang@voctree.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 시스트란 지용훈 연구원 042-472-6840 Younghoon.Ji@systrangroup.com 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 시스트란 이동호 연구원 042-472-6840 Dongho.Lee@systrangroup.com
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.