콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#번역 데이터 활용 서비스 #데이터 환류 서비스 #학습데이터 구축 #자연어 처리 #말뭉치 #전문분야 #NMT #사회적 약자 #일자리 창출

NEW AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축

AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 4,439 다운로드 : 205 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-15 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-02-28 산출물 전체 공개

    소개

    • 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터
    • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터

    구축목적

    AI 허브에 공개된 말뭉치 데이터를 활용하여 TM 구축
    • 기계 번역기 성능 향상을 위한 신규 말뭉치와 비교 평가 데이터 구축
  • 데이터 구축 규모

    항목명 지표 규모
    구축량 문장수  AIHUB TM 구축 870,022문장
    또는 단어 용어 사전 10,000건 
      NER 데이터 10,000건 
      신규 말뭉치 데이터(한-영, 한-일, 한-중) 635,110문장 
      번역기 평가 데이터 600,000문장 
      유사문장 데이터 729,910문장 
      MTPE 시험 데이터 101,673문장
    주제 분포 비율 15개 세부 분야별 데이터 분포 확인
    문장 길이 분포 수량(어절 수) 평균 15어절(최소 2어절~최대 30어절)
     

     

    데이터 분포

    데이터 셋 대분류 중분류 데이터 구축 수량
    1번  구어체-대화체 N/A 21,096
    AIHUB TM 구축 뉴스 문어체 N/A 352.414
      지자체웹사이트  N/A 35,379
      문어체
      문화 문어체 N/A 29,427
      조례 문어체 N/A 44,923
      전문분야 문어체 N/A 383,176
      합계 866,415
    2번  경제 N/A 1,964
    용어 사전 문화 N/A 1,987
      법률 N/A 2,088
      의학 N/A 2,004
      행정 N/A 1,957
      합계 10,000
    3번  구어체-대화체 N/A 118
    NER 학습용 데이터 뉴스 문어체 N/A 4,182
      지자체웹사이트 문어체 N/A 700
      문화 문어체 N/A 295
      조례 문어체 N/A 533
      전문분야 문어체 N/A 4,172
      합계 10,000
    6번  기계 공학  16,115
    신규 말뭉치 데이터 재료 재료과학  29,271
    (한-영) 정보/통신 컴퓨터과학  11,077
      생명과학 환경과 생태학  27,966
      생물학 생화학  12,729
      미생물학  3,967
      농림수산 식품 농학  12,192
      보건의료 약리학 독성학  18,165
      의약학  5,744
      수학 수학  11,438
      물리학 물리학  3,746
      화학 화학  42,060
      사회 사회과학  11,312
      합계 205,782
    6번  기계 공학  14,538
    신규 말뭉치 데이터 재료 재료과학  29,997
    (한-일) 정보/통신 컴퓨터과학  10,981
      생명과학 환경과 생태학  29,383
      생물학 생화학  14,184
      미생물학  3,974
      농림수산 식품 농학  12,271
      보건의료 약리학 독성학  18,407
      의약학  5,655
      수학 수학  10,947
      물리학 물리학  3,756
      화학 화학  46,741
      사회 사회과학  11,074
      합계 211,908
    6번  기계 공학  16,234
    신규 말뭉치 데이터 재료 재료과학  29,279
    (한-중) 정보/통신 컴퓨터과학  11,003
      생명과학 환경과 생태학  27,937
      생물학 생화학  13,363
      미생물학  4,018
      농림수산 식품 농학  12,247
      보건의료 약리학 독성학  18,590
      의약학  6,124
      수학 수학  14,582
      물리학 물리학  3,669
      화학 화학  48,979
      사회 사회과학  11,395
      합계 217,420
    7번  기계 공학  14,264
    번역기 평가 데이터 재료 재료과학  28,534
    (한-영) 정보/통신 컴퓨터과학  9,658
      생명과학 환경과 생태학  26,464
      생물학 생화학  14,582
      미생물학  3,854
      농림수산 식품 농학  10,274
      보건의료 약리학 독성학  17,884
      의약학  6,614
      수학 수학  14,152
      물리학 물리학  4,042
      화학 화학  37,276
      사회 사회과학  12,402
      합계 200,000
    7번  기계 공학  13,742
    번역기 평가 데이터 재료 재료과학  28,188
    (한-일) 정보/통신 컴퓨터과학  10,448
      생명과학 환경과 생태학  25,504
      생물학 생화학  13,724
      미생물학  3,816
      농림수산 식품 농학  11,814
      보건의료 약리학 독성학  17,658
      의약학  5,316
      수학 수학  10,726
      물리학 물리학  3,694
      화학 화학  44,720
      사회 사회과학  10,650
      합계 200,000
    7번  기계 공학  15,370
    번역기 평가 데이터 재료 재료과학  26,352
    (한-중) 정보/통신 컴퓨터과학  9,864
      생명과학 환경과 생태학  26,286
      생물학 생화학  13,396
      미생물학  3,836
      농림수산 식품 농학  12,062
      보건의료 약리학 독성학  16,222
      의약학  4,906
      수학 수학  11,630
      물리학 물리학  3,482
      화학 화학  45,880
      사회 사회과학  10,714
      합계 200,000
    8번  기계 공학  18,341
    유사문장 데이터 재료 재료과학  34,965
    (한-영) 정보/통신 컴퓨터과학  12,194
      생명과학 환경과 생태학  31,978
      생물학 생화학  17,083
      미생물학  4,796
      농림수산 식품 농학  13,585
      보건의료 약리학 독성학  22,245
      의약학  7,700
      수학 수학  16,258
      물리학 물리학  4,747
      화학 화학  48,032
      사회 사회과학  12,684
      합계 244,608
    8번  기계 공학  14,464
    유사문장 데이터 재료 재료과학  24,207
    (한-일) 정보/통신 컴퓨터과학  11,950
      생명과학 환경과 생태학  29,489
      생물학 생화학  14,367
      미생물학  4,090
      농림수산 식품 농학  14,582
      보건의료 약리학 독성학  20,402
      의약학  7,278
      수학 수학  15,636
      물리학 물리학  2,392
      화학 화학  35,583
      사회 사회과학  16,388
      합계 210,828
    8번  기계 공학  19,386
    유사문장 데이터 재료 재료과학  34,842
    (한-중) 정보/통신 컴퓨터과학  14,594
      생명과학 환경과 생태학  39,571
      생물학 생화학  18,662
      미생물학  5,348
      농림수산 식품 농학  16,654
      보건의료 약리학 독성학  27,198
      의약학  8,685
      수학 수학  19,015
      물리학 물리학  4,366
      화학 화학  48,824
      사회 사회과학  17,329
      합계 274,474
    9번 기계 공학  2,217
    MTPE 시험 데이터 재료 재료과학  19,973
    (한-영) 정보/통신 컴퓨터과학  8,942
      생명과학 환경과 생태학  7,222
      생물학 생화학  10,019
      미생물학  2,576
      농림수산 식품 농학  6,218
      보건의료 약리학 독성학  6,965
      의약학  2,413
      수학 수학  11,736
      물리학 물리학  3,761
      화학 화학  9,243
      사회 사회과학  10,388
      합계 101,673
    총 합계 2,953,108
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    인공지능 모델(알고리즘)

    개발 언어 Python 3.7
    프레임워크 PyTorch 1.8.1
    학습 알고리즘 openNMT
    학습 조건 -batch_size: 64,000 
    -batch_type: "tokens" 
    -train_steps: 100,000 
    -dropout: 0.1 
    -warmup_steps: 6,000 
    -learning_rate: 2 
    -decay_method: "noam" 
    파일 형식 학습 데이터 셋: json
    평가 데이터 셋: json
    전체 구축 데이터 대비 모델에 적용되는 비율 100%(1,071,228)
    모델 학습 과정별 -training Set: 81.10% (868,725 문장)
    데이터 분류 및 비율 정보 -Validation Set: 10.00% (107,114 문장)
      -Test Set: 8.90%(95,389 문장)
      총 1,071,228 문장

    openNMT 기계 번역기 모델

    openNMT 기계 번역기 모델

    ● Transformer 기계 번역기를 현재로 상용에서 사용하고 있는 기계 번역기 모델임
    ● Transformer의 경우 우수한 결과물을 만들기 위해서는 필수적으로 우수한 학습 데이터가 필요함
    ● 언어별 본 과제 분야에 특화된 번역기 모델을 학습하여 해당 분야의 수요 기관에서 직접적으로 사용이 가능함

     

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 한-영 번역 성능 Machine Translation OpenNMT-Transformer BLEU 0.7 0.7014
    2 한-일 번역 성능 Machine Translation OpenNMT-Transformer BLEU 0.7 0.779
    3 한-중 번역 성능 Machine Translation OpenNMT-Transformer BLEU 0.7 0.7119
    4 NER 태깅 성능 Machine Translation KoBERT-NER F1-Score 0.7 0.8692

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

     

     

    1레벨 2레벨 3레벨 4레벨
    AIHUB 데이터 구어체-대화체    
    AIHUB 데이터 뉴스문어체    
    AIHUB 데이터 지자체웹사이트 문어체    
    AIHUB 데이터 문화문어체    
    AIHUB 데이터 조례문어체    
    AIHUB 데이터 전문분야 문어체    
    용어사전 경제    
    용어사전 문화    
    용어사전 법률    
    용어사전 의학    
    용어사전 행정    
    NER 태깅 구어체-대화체    
    NER 태깅 뉴스문어체    
    NER 태깅 지자체웹사이트 문어체    
    NER 태깅 문화문어체    
    NER 태깅 조례문어체    
    NER 태깅 전문분야 문어체    
    신규구축 데이터 한영 기계 공학
    신규구축 데이터 한영 재료 재료과학
    신규구축 데이터 한영 정보-통신 컴퓨터과학
    신규구축 데이터 한영 생명과학 환경과 생태학
    신규구축 데이터 한영 생명과학 생물학 생화학
    신규구축 데이터 한영 생명과학 미생물학
    신규구축 데이터 한영 농림수산식품 농학
    신규구축 데이터 한영 보건의료 약리학 독성학
    신규구축 데이터 한영 보건의료 의약학
    신규구축 데이터 한영 수학 수학
    신규구축 데이터 한영 물리학 물리학
    신규구축 데이터 한영 화학 화학
    신규구축 데이터 한영 사회 사회과학
    신규구축 데이터 한일 기계 공학
    신규구축 데이터 한일 재료 재료과학
    신규구축 데이터 한일 정보-통신 컴퓨터과학
    신규구축 데이터 한일 생명과학 환경과 생태학
    신규구축 데이터 한일 생명과학 생물학 생화학
    신규구축 데이터 한일 생명과학 미생물학
    신규구축 데이터 한일 농림수산식품 농학
    신규구축 데이터 한일 보건의료 약리학 독성학
    신규구축 데이터 한일 보건의료 의약학
    신규구축 데이터 한일 수학 수학
    신규구축 데이터 한일 물리학 물리학
    신규구축 데이터 한일 화학 화학
    신규구축 데이터 한일 사회 사회과학
    신규구축 데이터 한중 기계 공학
    신규구축 데이터 한중 재료 재료과학
    신규구축 데이터 한중 정보-통신 컴퓨터과학
    신규구축 데이터 한중 생명과학 환경과 생태학
    신규구축 데이터 한중 생명과학 생물학 생화학
    신규구축 데이터 한중 생명과학 미생물학
    신규구축 데이터 한중 농림수산식품 농학
    신규구축 데이터 한중 보건의료 약리학 독성학
    신규구축 데이터 한중 보건의료 의약학
    신규구축 데이터 한중 수학 수학
    신규구축 데이터 한중 물리학 물리학
    신규구축 데이터 한중 화학 화학
    신규구축 데이터 한중 사회 사회과학
    번역기 평가 데이터 한영 기계 공학
    번역기 평가 데이터 한영 재료 재료과학
    번역기 평가 데이터 한영 정보-통신 컴퓨터과학
    번역기 평가 데이터 한영 생명과학 환경과 생태학
    번역기 평가 데이터 한영 생명과학 생물학 생화학
    번역기 평가 데이터 한영 생명과학 미생물학
    번역기 평가 데이터 한영 농림수산식품 농학
    번역기 평가 데이터 한영 보건의료 약리학 독성학
    번역기 평가 데이터 한영 보건의료 의약학
    번역기 평가 데이터 한영 수학 수학
    번역기 평가 데이터 한영 물리학 물리학
    번역기 평가 데이터 한영 화학 화학
    번역기 평가 데이터 한영 사회 사회과학
    번역기 평가 데이터 한일 기계 공학
    번역기 평가 데이터 한일 재료 재료과학
    번역기 평가 데이터 한일 정보-통신 컴퓨터과학
    번역기 평가 데이터 한일 생명과학 환경과 생태학
    번역기 평가 데이터 한일 생명과학 생물학 생화학
    번역기 평가 데이터 한일 생명과학 미생물학
    번역기 평가 데이터 한일 농림수산식품 농학
    번역기 평가 데이터 한일 보건의료 약리학 독성학
    번역기 평가 데이터 한일 보건의료 의약학
    번역기 평가 데이터 한일 수학 수학
    번역기 평가 데이터 한일 물리학 물리학
    번역기 평가 데이터 한일 화학 화학
    번역기 평가 데이터 한일 사회 사회과학
    번역기 평가 데이터 한중 기계 공학
    번역기 평가 데이터 한중 재료 재료과학
    번역기 평가 데이터 한중 정보-통신 컴퓨터과학
    번역기 평가 데이터 한중 생명과학 환경과 생태학
    번역기 평가 데이터 한중 생명과학 생물학 생화학
    번역기 평가 데이터 한중 생명과학 미생물학
    번역기 평가 데이터 한중 농림수산식품 농학
    번역기 평가 데이터 한중 보건의료 약리학 독성학
    번역기 평가 데이터 한중 보건의료 의약학
    번역기 평가 데이터 한중 수학 수학
    번역기 평가 데이터 한중 물리학 물리학
    번역기 평가 데이터 한중 화학 화학
    번역기 평가 데이터 한중 사회 사회과학
    유사문장 데이터 한영 기계 공학
    유사문장 데이터 한영 재료 재료과학
    유사문장 데이터 한영 정보-통신 컴퓨터과학
    유사문장 데이터 한영 생명과학 환경과 생태학
    유사문장 데이터 한영 생명과학 생물학 생화학
    유사문장 데이터 한영 생명과학 미생물학
    유사문장 데이터 한영 농림수산식품 농학
    유사문장 데이터 한영 보건의료 약리학 독성학
    유사문장 데이터 한영 보건의료 의약학
    유사문장 데이터 한영 수학 수학
    유사문장 데이터 한영 물리학 물리학
    유사문장 데이터 한영 화학 화학
    유사문장 데이터 한영 사회 사회과학
    유사문장 데이터 한일 기계 공학
    유사문장 데이터 한일 재료 재료과학
    유사문장 데이터 한일 정보-통신 컴퓨터과학
    유사문장 데이터 한일 생명과학 환경과 생태학
    유사문장 데이터 한일 생명과학 생물학 생화학
    유사문장 데이터 한일 생명과학 미생물학
    유사문장 데이터 한일 농림수산식품 농학
    유사문장 데이터 한일 보건의료 약리학 독성학
    유사문장 데이터 한일 보건의료 의약학
    유사문장 데이터 한일 수학 수학
    유사문장 데이터 한일 물리학 물리학
    유사문장 데이터 한일 화학 화학
    유사문장 데이터 한일 사회 사회과학
    유사문장 데이터 한중 기계 공학
    유사문장 데이터 한중 재료 재료과학
    유사문장 데이터 한중 정보-통신 컴퓨터과학
    유사문장 데이터 한중 생명과학 환경과 생태학
    유사문장 데이터 한중 생명과학 생물학 생화학
    유사문장 데이터 한중 생명과학 미생물학
    유사문장 데이터 한중 농림수산식품 농학
    유사문장 데이터 한중 보건의료 약리학 독성학
    유사문장 데이터 한중 보건의료 의약학
    유사문장 데이터 한중 수학 수학
    유사문장 데이터 한중 물리학 물리학
    유사문장 데이터 한중 화학 화학
    유사문장 데이터 한중 사회 사회과학
    MTPE 시험 데이터 한영 기계 공학
    MTPE 시험 데이터 한영 재료 재료과학
    MTPE 시험 데이터 한영 정보-통신 컴퓨터과학
    MTPE 시험 데이터 한영 생명과학 환경과 생태학
    MTPE 시험 데이터 한영 생명과학 생물학 생화학
    MTPE 시험 데이터 한영 생명과학 미생물학
    MTPE 시험 데이터 한영 농림수산식품 농학
    MTPE 시험 데이터 한영 보건의료 약리학 독성학
    MTPE 시험 데이터 한영 보건의료 의약학
    MTPE 시험 데이터 한영 수학 수학
    MTPE 시험 데이터 한영 물리학 물리학
     
     
     
    No. 속성명 항목 설명 Type 필수여부
    시리얼넘버 sn 공동작업관리위해 문장에 부여한 번호 string 선택
    파일 이름 file_name 원시데이터 파일명 string 선택
    데이터 분류 data_set 데이터 분류 string 필수
    중분류 (도메인) domain 최상위 분야 string 필수
    세분류  subdomain 하위 분야 string 선택
    출처 source 자료 출처 기재 string 필수
    비식별화 원문 [원문언어] 개인정보 비식별화 처리된 원문 문장 string 필수
    정제 원문 [원문언어]_cleaned 보정한 원문 문장 string 선택
    원문 [원문언어]_original 문서에서 추출되고 1차적으로 정제한 원문 문장 string 필수
    기계번역문 mt 기계번역기의 결과문 string 선택
    번역문 [번역언어] 번역문 문장 string 필수
    원문언어 source_language 출발 언어의 언어 코드 값 (예: ko) string 필수
    번역문언어 target_language 도착 언어의 언어 코드 값 (예: en, ja, zh, id) string 필수
    라이센스 license 원문의 라이선스 여부 string 필수
    문체 style 문어체 구어체 구분 string 필수
     

     

    33-2 신규 말뭉치 원문데이터 포맷 예시

     
    제목
    연료전지 삼중열병합 시스템의 성능개선 R&D 효과에 대한 경제성 분석 연구
    카테고리 공학
    파일명 KCI_FI002849013
    발행일 2022.04.21
    원문
    데이터센터의 냉방부하는 기존 전기냉동기에서 생산되는 냉열과 삼중열병합시스템의 흡수식냉동기에서 생산되는 냉열의 합과 같아야 하며 다음 식과 같이 정의된다.
    전처리 후
    데이터 센터의 냉방 부하는 기존 전기냉동기에서 생산되는 냉열과 삼중 열병합 시스템의 흡수식 냉동기에서 생산되는 냉열의 합과 같아야 하며 다음 식과 같이 정의된다.
    번역문
    The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat and power system, and is defined as the following equation.
    검수 후
    The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat cogeneration system, and is defined as the following equation:
     
    json 형식
    "sn": "1007022013023",
    "domain": "기계",
    "subdomain": "공학",
    "year": 2022,
    "from": "KCI_FI002849013",
    "source_sentence": "데이터 센터의 냉방 부하는 기존 전기냉동기에서 생산되는 냉열과 삼중 열병합 시스템의 흡수식 냉동기에서 생산되는 냉열의 합과 같아야 하며 다음 식과 같이 정의된다.",
    "mt_sentence": "The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat and power system, and is defined as the following equation."
    "target_sentence": "The cooling load of the data center should be equal to the sum of the cold heat produced by the existing electric chiller and the cold heat produced by the absorption chiller of the triple heat cogeneration system, and is defined as the following equation:",
    "source_language_code": "ko",
    "target_language_code": "en",
    "source_word_count": 22,
    "target_word_count": 45
    },
     

     

     실제 예시
    기계공학 실제 예시

     

     

     

  • 데이터셋 구축 담당자

    수행기관(주관) : 트위그팜
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    최규동 1833-5926 ken.choi@twigfarm.net 데이터 구축
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    글나무 데이터 가공 및 검수
    크라우드 소싱
    렉스코드 데이터 가공 및 검수
    크라우드 소싱
    시스트란 번역기 모델 검증
    학습용 데이터 가공 및 검수
    휴텍씨 데이터 가공 및 검수
    인공지능사업융합사업단 데이터 공용 활용
    한국표준협회 데이터 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    최규동 1833-5926 ken.choi@twigfarm.net
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.