콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#멀티모달

BETA 한국어 텍스트-비디오-사운드 데이터

한국어 텍스트-비디오-사운드 데이터 아이콘 이미지
  • 분야한국어
  • 유형 비디오 , 이미지
구축년도 : 2023 갱신년월 : 2024-08 조회수 : 1,454 다운로드 : 35 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-08-22 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-08-22 산출물 공개 Beta Version

    소개

    - 텍스트-비디오-사운드 페어를 통해 시각-언어 분석 및 이를 활용한 서비스 제공을 위한 멀티모달 데이터
    - 텍스트 기반의 검색을 통해 비디오 및 사운드 검색이 가능한 학습용 데이터
    - 한국어 텍스트-비디오-사운드 쌍 데이터 50만 건 이상 구축

    구축목적

    - 텍스트 기반 비디오 혹은 이미지 검색, 비디오에서 텍스트 캡션 혹은 요약문 생성 등의 텍스트-이미지, 텍스트-비디오 연구 지원
    - 사운드-텍스트 변환 모델 등을 통해 비디오/이미지 자동 자막 시스템 구축
    - 텍스트 기반의 자연어 이해, 텍스트 기반 멀티모달 검색, 자연어 생성
  • - 데이터 구축 규모

    데이터 구축 규모
    데이터 통계 데이터 구축 규모 500,123건
    데이터 분포 스포츠(4.88%), 게임(4.61%), 음악(1.33%), 영화(1.96%)
    시사(2.13%), 엔터테인먼트(4.84%), 뷰티패션(4.40%)
    교육(2.83%), 과학기술(3.41%), 여행(3.96%)
    건강헬스(5.17%), 음식요리(4.47%), DIY공예(1.12%)
    인테리어(1.61%), 아트디자인(0.65%), 애니메이션(1.00%)
    아동(2.79%), 금융비즈니스(4.34%), 동기부여(1.90%)
    다큐멘터리(2.60%), 정치뉴스(7.61%), 기업금융뉴스(5.49%)
    국제뉴스(1.59%), 교육뉴스(1.04%), 문화뉴스(2.34%)
    사건사고뉴스(10.72%), 사회일반뉴스(6.06%)
    과학기술뉴스(3.09%), 스포츠뉴스(0.63%), 날씨기후뉴스(1.43%)

     

    - 데이터 분포

     - 도메인 분포 : 스포츠, 게임, 음악, 영화, 시사, 엔터테인먼트, 뷰티/패션, 교육, 과학기술, 여행, 건강/헬스, 음식/요리, DIY/공예, 인테리어, 아트/디자인, 애니메이션, 아동, 금융/비즈니스, 동기부여, 다큐멘터리, 정치뉴스, 기업/금융뉴스, 국제뉴스, 교육뉴스, 문화뉴스, 사건사고뉴스, 사회일반뉴스, 과학기술뉴스, 스포츠뉴스, 날씨기후뉴스 총 30종
     - 비디오 내 소리 길이 : 15초 이상
     - 성별 : 남, 여
     - 연령대 : 10대 미만, 10대, 20대, 30대, 40대, 50대 이상
     - 사운드 : 자연, 발화, 음악, 소음, 기타
     - 비디오 세분류 : 598개
     - 행동 : 159개
     - 사물 : 75개
     - 장소 : 21개
     - 어절 수 : 5어절 단위
     - 캡션 어절 수 : 5어절 단위

     

    ㅇ 통계 기준
     - 통계 항목 중 성별, 연령대 분포는 라벨링데이터 내 발화자 (speaker_info) 기준으로 나온 통계
     - 행동, 사물, 장소 분포는 라벨링데이터 내 이미지 (image_labeling) 기준으로 나온 통계
     - 어절 수, 비디오 내 소리 길이, 사운드 분포는 라벨링데이터 내 각각의 발화 (video term) 기준으로 나온 통계

     

    ㅇ 다양성(요건) : 도메인 분포

    다양성(요건) : 도메인 분포
    도메인 분포
    (단위: 건)
    카테고리 비율
    스포츠 24,389 4.88%
    게임 23,036 4.61%
    음악 6,636 1.33%
    영화 9,795 1.96%
    시사 10,641 2.13%
    엔터테인먼트 24,194 4.84%
    뷰티패션 22,004 4.40%
    교육 14,166 2.83%
    과학기술 17,075 3.41%
    여행 19,802 3.96%
    건강헬스 25,837 5.17%
    음식요리 22,373 4.47%
    DIY공예 5,600 1.12%
    인테리어 8,035 1.61%
    아트디자인 3,255 0.65%
    애니메이션 4,978 1.00%
    아동 13,973 2.79%
    금융비즈니스 21,699 4.34%
    동기부여 9,512 1.90%
    다큐멘터리 13,003 2.60%
    정치뉴스 38,073 7.61%
    기업금융뉴스 27,470 5.49%
    국제뉴스 7,962 1.59%
    교육뉴스 5,218 1.04%
    문화뉴스 11,712 2.34%
    사건사고뉴스 53,608 10.72%
    사회일반뉴스 30,311 6.06%
    과학기술뉴스 15,451 3.09%
    스포츠뉴스 3,165 0.63%
    날씨기후관련뉴스 7,150 1.43%
    합계 500,123 100%

     

    ㅇ 다양성(요건) : 비디오 내 소리 길이 (발화 기준)

    다양성(요건) : 비디오 내 소리 길이 (발화 기준)
    비디오 내 소리 길이
    (단위: 초)
    정량 목표 결과
    15초 충족

     

    ㅇ 다양성(통계) : 성별 (발화자 기준)

    다양성(통계) : 성별 (발화자 기준)
    성별
    (단위: 건)
    성별 비율
    남성 443,649 63.25%
    여성 257,793 36.75%
    합계 701,442 100%

     

    ㅇ 다양성(통계) : 연령대 (발화자 기준)

    다양성(통계) : 연령대 (발화자 기준)
    연령대
    (단위: 건)
    연령대 비율
    10대 미만 3,123 0.45%
    10대 22,546 3.21%
    20대 83,549 11.91%
    30대 317,308 45.24%
    40대 170,958 24.37%
    50대 이상 103,958 14.82%
    합계 701,442 100%

     

    ㅇ 다양성(통계) : 사운드 (발화 기준)

    다양성(통계) : 사운드 (발화 기준)
    사운드
    (단위: 건)
    사운드 비율
    자연 64,043 1.60%
    발화 2,476,912 61.99%
    음악 878,616 21.99%
    소음 164,413 4.11%
    기타 411,706 10.30%
    합계 3,995,690 100%

     

    ㅇ 다양성(통계) : 비디오 세분류

    다양성(통계) : 비디오 세분류
    세분류 카테고리
    (단위: 건)
    세분류 카테고리 비율
    퀄트/패브릭 4,043 0.81%
    액세서리 577 0.12%
    도자기 16 0.00%
    캔들 14 0.00%
    플라워 4 0.00%
    수공예 728 0.15%
    목공예 113 0.02%
    종이공예 105 0.02%
    스트레칭 3,253 0.65%
    건강관리 1,061 0.21%
    홈트레이닝 4,252 0.85%
    중략
    대통령 5,019 1.00%
    정부부처 5,363 1.07%
    지방정부 746 0.15%
    경제정책 1,555 0.31%
    교육정책 171 0.03%
    국방 3,286 0.66%
    외교 4,060 0.81%
    복지 459 0.09%
    환경 244 0.05%
    과학기술 133 0.03%
    세종청사 44 0.01%
    법률 1,069 0.21%
    보건의료 434 0.09%
    국토교통 529 0.11%
    집권당 1,100 0.22%
    야당 1,587 0.32%
    군소정당 77 0.02%
    원외정당 13 0.00%
    지도부회의 130 0.03%
    정당정책 846 0.17%
    당대표선거 149 0.03%
    원내대표선거 42 0.01%
    후원회 28 0.01%
    신당창당 59 0.01%
    합당 27 0.01%
    합계 500,123 100%

    ※ 일부 내용만 홈페이지에서 표시되며 전체 비디오 세분류 카테고리는 본 페이지의

       '어노테이션 포맷 및 데이터 구조' 항목의 '구축활용가이드 다운로드'를 통해 확인하실 수 있습니다.

     

    ㅇ 다양성(통계) : 행동 (이미지 기준)

    다양성(통계) : 행동 (이미지 기준)
    행동
    (단위: 건)
    행동 비율
    먹다 4,381 0.84%
    마시다 1,250 0.24%
    씹다 187 0.04%
    놀다 1,344 0.26%
    쉬다 435 0.08%
    타다 1,562 0.30%
    요리하다 2,337 0.45%
    산책시키다 77 0.01%
    (공을) 차다 725 0.14%
    그리다 300 0.06%
    연주하다 3,733 0.72%
    (사진을) 찍다 822 0.16%
    (공을) 던지다 608 0.12%
    (공을) 치다 2,951 0.57%
    게임하다 2,832 0.55%
    채팅하다 63 0.01%
    전화하다 492 0.09%
    수다를 떨다 673 0.13%
    (노래를) 부르다 1,142 0.22%
    보다 15,857 3.05%
    듣다 2,075 0.40%
    중략
    만나다 607 0.12%
    헤어지다 66 0.01%
    말하다 171,402 33.01%
    일하다 8,041 1.55%
    회의하다 2,459 0.47%
    협업하다 142 0.03%
    경쟁하다 132 0.03%
    싸우다 2,751 0.53%
    배우다 294 0.06%
    읽다 1,369 0.26%
    쓰다 2,664 0.51%
    악수하다 1,441 0.28%
    나누다 20 0.00%
    내다 42 0.01%
    빌리다 12 0.00%
    알 수 없음(기타) 161,306 31.06%
    합계 500,123 100%

    ※ 일부 내용만 홈페이지에서 표시되며 전체 행동(이미지 기준)은 본 페이지의

       '어노테이션 포맷 및 데이터 구조' 항목의 '구축활용가이드 다운로드'를 통해 확인하실 수 있습니다.

     

    ㅇ 다양성(통계) : 사물 (이미지 기준)

    다양성(통계) : 사물 (이미지 기준)
    사물
    (단위: 건)
    사물 비율
    자전거 1,712 0.33%
    자동차 23,553 4.54%
    오토바이 610 0.12%
    비행기 1,199 0.23%
    버스 1,356 0.26%
    기차 517 0.10%
    트럭 1,945 0.37%
    3,882 0.75%
    신호등 254 0.05%
    벤치 658 0.13%
    소화전 162 0.03%
    교통표지판 559 0.11%
    445 0.09%
    고양이 5,607 1.08%
    강아지 2,497 0.48%
    174 0.03%
    68 0.01%
    175 0.03%
    코끼리 33 0.01%
    94 0.02%
    얼룩말 8 0.00%
    기린 7 0.00%
    돼지 156 0.03%
    744 0.14%
    유리잔 1,518 0.29%
    2,122 0.41%
    포크 617 0.12%
    숟가락 2,457 0.47%
    젓가락 1,915 0.37%
    나이프 547 0.11%
    그릇 5,153 0.99%
    사과 174 0.03%
    바나나 55 0.01%
    피자 63 0.01%
    486 0.09%
    샌드위치 69 0.01%
    345 0.07%
    의자 13,197 2.54%
    소파 3,559 0.69%
    침대 2,270 0.44%
    책상 8,220 1.58%
    좌변기 210 0.04%
    화분 9,075 1.75%
    티비 1,840 0.35%
    노트북 3,716 0.72%
    마우스 579 0.11%
    키보드 1,173 0.23%
    리모콘 139 0.03%
    핸드폰 5,409 1.04%
    마이크 36,361 7.00%
    전자레인지 144 0.03%
    냉장고 604 0.12%
    에어프라이어 85 0.02%
    가스레인지 622 0.12%
    믹서기 137 0.03%
    스키 20 0.00%
    스노보드 14 0.00%
    운동용 공 2,302 0.44%
    방망이 53 0.01%
    글러브 110 0.02%
    라켓 1,290 0.25%
    보드 79 0.02%
    가방 2,908 0.56%
    슈트케이스 34 0.01%
    우산 404 0.08%
    넥타이 13,691 2.64%
    캐리어가방 292 0.06%
    6,273 1.21%
    시계 1,209 0.23%
    꽃병 913 0.18%
    가위 326 0.06%
    인형 500 0.10%
    헤어드라이어 106 0.02%
    칫솔 84 0.02%
    null 339,408 65.36%
    합계 500,123 100%

     

    ㅇ 다양성(통계) : 장소 (이미지 기준)

    다양성(통계) : 장소 (이미지 기준)
    장소
    (단위: 건)
    장소 비율
    교육시설 13,880 2.67%
    음식점 13,583 2.62%
    자연 경관 29,973 5.77%
    인공조성환경 14,896 2.87%
    거주시설 85,457 16.46%
    숙박시설 3,461 0.67%
    종교/의료시설 9,164 1.76%
    공공시설 15,986 3.08%
    교통/이동수단 15,275 2.94%
    상업시설 16,427 3.16%
    문화재 및 유적지 1,915 0.37%
    스포츠 관람 및 레저시설 12,803 2.47%
    오락시설 2,497 0.48%
    공연시설 2,726 0.52%
    행사/사무공강 80,695 15.54%
    건물 내부시설 33,054 6.37%
    도심 환경 15,138 2.92%
    도로 및 교통시설 22,185 4.27%
    예술/전시공간 2,630 0.51%
    산업시설 5,833 1.12%
    알 수 없음 121,714 23.44%
    합계 519,292 100%

     

    ㅇ 다양성(통계) : 어절 수 (발화 기준)

    다양성(통계) : 어절 수 (발화 기준)
    어절 수
    (단위: 건)
    어절 수 비율
    1~5 752,634 30.38%
    6~10 734,600 29.66%
    11~15 513,469 20.73%
    16~20 283,233 11.43%
    21~25 121,465 4.90%
    26~30 44,127 1.78%
    30 이상 27,527 1.11%
    합계 2,477,055 100%

     

    ㅇ 다양성(통계) : 캡션 어절 수

    다양성(통계) : 캡션 어절 수
    캡션 어절 수
    (단위: 건)
    캡션 어절 수 비율
    5~10 104,082 20.81%
    11~15 131,345 26.26%
    16~20 111,137 22.22%
    21~25 73,313 14.66%
    26~30 41,034 8.20%
    30 이상 39,212 7.84%
    합계 500,123 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 모델학습
    본 사업에서 구축한 데이터가 비디오 자동 요약과 비디오 구간검색 모델에 활용할 수 있기에 아래와 같은 비율로 학습을 진행함.

    모델학습
    모델 분류 구분 학습(Training) 검증(Validation) 시험(Test)
    비디오 캡셔닝 개요 - KO-BART
    - GPU 학습 사용
    - 학습 도중 모델 성과 평가 및 비교 - 모델 학습 완료 후
    - 모델 테스트
    - BLEU-3, BLEU-4
    데이터 비율 85% 5% 10%
    비디오 검색 개요 - KO-BART + BERT
    - GPU 학습 사용
    - 학습 도중 모델 성과 평가 및 비교 - 모델 학습 완료 후
    - 모델 테스트
    - Recall@1, Recall@5 점수 비교
    데이터 비율 85% 5% 10%

     

    - 서비스 활용 시나리오
    구축한 모델은 영상 자막이나 회의 요약 및 번역 등에 활용할 수 있으며, 코퍼스 연구에 활용할 수 있음
    ● OTT 컨텐츠 자동 요약문 생성
    ● STT 연계 회의록 자동 요약문 생성

    ● OTT / 동영상 플랫폼 검색 모델 개발
    ▷ 동영상 플랫폼 등 키워드-based의 동영상 검색이 아닌, 특정 구간의 장면 / 발화내용을 활용하여 검색
    ▷ 더욱 정교화된 검색 모델 개발에 적극 활용 가능 

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 설명

    데이터 설명
    과제명 주요 내용 데이터 구축량 데이터 형식
    한국어
    텍스트-비디오-사운드
    데이터
    유튜브, 방송사 뉴스 비디오 데이터의 음성 전사, 주요 이미지 추출, 비디오 요약 가공을 한 데이터셋 대분류 30개, 세분류 598개로 이루어진 말소리가 포함된 최소 15초 이상으로 구성된 50만 건의 데이터셋 비디오 음성 전사, 비디오 내용 요약, 주요 이미지에 대한 텍스트 라벨링으로 매핑된 데이터셋
    데이터 종류 내용 제공 형태
    원천 데이터 정제 기준에 맞게 정제된 총 50만 건 이상의 비디오 데이터 및 비디오 내 주요 이미지 데이터 MP4, JPG
    라벨링 데이터 비디오 음성 전사, 비디오 내용 요약, 주요 이미지에 대한 텍스트 라벨링한 데이터 JSON

     

    - 데이터 구성

    데이터 구성
    key Description type
    metadata 영상 메타데이터 object
    video 비디오 정보 object
    term 발화 전사 정보 array
    summary 비디오 요약문 object
    image 이미지 정보 array

     

    - 어노테이션 포맷

    어노테이션 포맷
    구분 속성명 타입 필수 여부 설명 범위
    1 metadata obj Y 영상 메타데이터  
      1-1 filename str Y 파일명  
    1-2 category str Y 30개 대분류 카테고리  
    1-3 sub_category num Y 598개 세분류 카테고리 항목 번호로 표기  
    1-4 sound num Y 사운드 분류(번호 표기) 1~5
    1-5 quality str Y 영상 화질  
    1-6 length num Y 영상 길이 (초)  
    1-7 format str Y 영상 포맷  
    1-8 date str Y 최초 방송(게시)일  
    1-9 license str Y 저작권  
    1-10 agreement_score num Y 2차 가공자 점수  
    2 video obj Y 비디오 정보  
      2-1 speakers_info arr Y 발화 화자 정보  
      2-1-1 speaker_id str Y 화자 아이디  
    2-1-2 age str Y 연령대 10대 미만, 10대, 20대, 30대, 40대, 50대 이상
    2-1-3 gender str Y 성별 남성, 여성
    2-2 term arr Y 발화 전사 정보  
        2-2-1 speaker_id str Y 화자 아이디  
    2-2-2 transcription str Y 발화 전사 내용  
    2-2-3 sound_type num Y 사운드 분류(번호 표기)  
    2-2-4 start num Y 발화 시작 시간  
    2-2-5 end num Y 발화 끝 시간  
    3 summary str Y 비디오 요약문  
    4 image arr Y 이미지  
      4-1 image_info obj Y 이미지 정보  
      4-1-1 image_id str Y 이미지 아이디  
    4-1-2 image_name str Y 이미지 파일명  
    4-1-3 image_format str Y 이미지 포맷  
    4-2 image_labeling arr Y 이미지 라벨링 정보  
      4-2-1 labeling_id str Y 라벨링 아이디  
    4-2-2 age str   등장인물 연령대 10대 미만, 10대, 20대, 30대, 40대, 50대 이상
    4-2-3 gender str   등장인물 성별 남성, 여성
    4-2-3-1 place num Y 장소 대분류 21가지 항목 번호로 표기 1~21
    4-2-3-1 obj num   사물 소분류 75가지 항목 번호로 표기 1~75
    4-2-3-2 act num Y 행동 소분류 159가지 항목 번호로 표기 1~159

     

    - 실제 json 예시

    실제 json 예시
      "metadata": {
            "filename": "KNE_00439",
            "category": "문화뉴스",
            "sub_category": 23,
            "sound": [
                2,
                3
            ],
            "quality": "HD",
            "length": 24.924,
            "format": "MP4",
            "date": "2022-03-16",
            "license": "KBS",
            "agreement_score": 3
        },
        "video": {
            "speakers_info": [
                {
                    "speaker_id": "1",
                    "age": "30대",
                    "gender": "남성"
                }
            ],
            "term": [
                {
                    "speaker_id": "1",
                    "transcription": "따라서 JYP USA는 케이팝 고유의 팬덤 기반 사업을 미국 시장에 적용하고 현지에서 신인도 발굴해 키워낼 계획인데요.",
                    "sound_type": [
                        2,
                        3
                    ],
                    "start": 0.000,
                    "end": 9.213
                },
                {
                    "speaker_id": "1",
                    "transcription": "무엇보다 현지에 소속된 그룹들의 활발한 미국 활동이 예상돼 이들이 어떤 성과를 거둘지 관심이 쏠립니다.",
                    "sound_type": [
                        2,
                        3
                    ],
                    "start": 9.223,
                    "end": 19.262
                },
                {
                    "speaker_id": "1",
                    "transcription": "서울대가 대중문화 분야 인사에게 처음으로 명예 박사 학위를 주기로 했습니다.",
                    "sound_type": [
                        2
                    ],
                    "start": 19.272,
                    "end": 24.924
                }
            ]
        },
        "summary": "미국 시장에서 케이팝 고유의 팬덤 기반 사업을 확장중인 JYP USA 소속 현지 그룹들의 미국 활동 성과에 대한 기대감과 서울대가 대중문화 분야 인사에게 처음으로 박사 학위를 수여했다는 소식이다.",
        "image": [
            {
                "image_info": {
                    "image_id": "1",
                    "image_name": "KNE_00439_01.jpg",
                    "image_format": "JPG"
                },
                "image_labeling": [
                    {
                        "labeling_id": "1.1",
                        "age": "20대",
                        "gender": "남성",
                        "place": 17,
                        "object": null,
                        "act": 12
                    }
                ]
            },
            {
                "image_info": {
                    "image_id": "2",
                    "image_name": "KNE_00439_02.jpg",
                    "image_format": "JPG"
                },
                "image_labeling": [
                    {
                        "labeling_id": "2.1",
                        "age": "20대",
                        "gender": "남성",
                        "place": 14,
                        "object": null,
                        "act": 137
                    }
                ]
         
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜팀벨
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김소현 070-5090-7961 ksh0214@timbel.net 011-017. 한국어 텍스트-비디오-사운드 데이터 실무 담당
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜메트릭스알앤씨 원시데이터 수집 및 원천데이터 정제
    KBS 원시데이터 수집 및 원천데이터 정제
    한국과학기술원 품질 검수 및 AI 모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이상준 070-5090-7902 leesj@timbel.net
    김소현 070-5090-7961 ksh0214@timbel.net
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    나경준 042-350-2912 rudwns0326@kaist.ac.kr
    김재홍 042-350-2912 luke.4.18@kaist.ac.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이상준 070-5090-7902 leesj@timbel.net
    김소현 070-5090-7961 ksh0214@timbel.net
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.