콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#문화 # 관광 # 음성 # 자연어

음악 유사성 판별 데이터

음악 유사성 판별 데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 27,497 다운로드 : 175 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-15 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-15 산출물 전체 공개

    소개

    장르별 음원 데이터로 이루어진 음악 간의 유사성을 설명 가능 하도록 판별하기 위한 인공지능 학습용 데이터

    구축목적

    공지능 음악 추천 시스템, 표절 음악 방지, 음악 정보 검색, 음악 분류 및 분석, 인공지능 작곡 등의 다양한 음악 관련 서비스에서 활용될 수 있음
  • 1) 데이터 구축 규모 및 분포

    데이터 구축 규모 및 분포
    종류 장르 커버 종류 음원 라벨링 데이터 제공방식
    (PCM) MIDI  Music JSON
      XML
    Regular Ballade Org 3,000 3,000 3,000 3,000 wav 파일
    Dance Org 2,000 2,000 2,000 2,000 MIDI 파일,
    Hiphop Org 1,000 1,000 1,000 1,000 MusicXML 파일,
    RnB Org 1,000 1,000 1,000 1,000 & JSON 파일
    Rock Org 1,000 1,000 1,000 1,000  
    Trot Org 2,000 2,000 2,000 2,000  
    Similar Ballade Org 300 300 300 300 wav 파일
    Cover_ 300 300 300 300 MIDI 파일,
    Arrangement_A MusicXML 파일,
    Cover_Genre_A 300 300 300 300 & JSON 파일
    Cover_ 300 300 300 300  
    Instrument_A  
    Cover_ 300 300 300 300  
    Instrument_C  
    Cover_ 300 300 300 300  
    Rhythm_A  
    Cover_ 300 300 300 300  
    Tempo_A  
    Cover_ 300 300 300 300  
    Tempo_C  
    Cover_ 300 300 300 300  
    Timbre_A  
    Cover_ 300 300 300 300  
    Timbre_C  
    Dance Org 200 200 200 200  
    Cover_ 200 200 200 200  
    Arrangement_A  
    Cover_Genre_A 200 200 200 200  
    Cover_ 200 200 200 200  
    Instrument_A  
    Cover_ 200 200 200 200  
    Instrument_C  
    Cover_ 200 200 200 200  
    Rhythm_A  
    Cover_ 200 200 200 200  
    Tempo_A  
    Cover_ 200 200 200 200  
    Tempo_C  
    Cover_ 200 200 200 200  
    Timbre_A  
    Cover_ 200 200 200 200  
    Timbre_C  
    Hiphop Org 100 100 100 100  
    Cover_ 100 100 100 100  
    Arrangement_A  
    Cover_Genre_A 100 100 100 100  
    Cover_ 100 100 100 100  
    Instrument_A  
    Cover_ 100 100 100 100  
    Instrument_C  
    Cover_ 100 100 100 100  
    Rhythm_A  
    Cover_ 100 100 100 100  
    Tempo_A  
    Cover_ 100 100 100 100  
    Tempo_C  
    Cover_ 100 100 100 100  
    Timbre_A  
    Cover_ 100 100 100 100  
    Timbre_C  
    RnB Org 100 100 100 100  
    Cover_ 100 100 100 100  
    Arrangement_A  
    Cover_Genre_A 100 100 100 100  
    Cover_ 100 100 100 100  
    Instrument_A  
    Cover_ 100 100 100 100  
    Instrument_C  
    Cover_ 100 100 100 100  
    Rhythm_A  
    Cover_ 100 100 100 100  
    Tempo_A  
    Cover_ 100 100 100 100  
    Tempo_C  
    Cover_ 100 100 100 100  
    Timbre_A  
    Cover_ 100 100 100 100  
    Timbre_C  
    Rock Org 100 100 100 100  
    Cover_ 100 100 100 100  
    Arrangement_A  
    Cover_Genre_A 100 100 100 100  
    Cover_ 100 100 100 100  
    Instrument_A  
    Cover_ 100 100 100 100  
    Instrument_C  
    Cover_ 100 100 100 100  
    Rhythm_A  
    Cover_ 100 100 100 100  
    Tempo_A  
    Cover_ 100 100 100 100  
    Tempo_C  
    Cover_ 100 100 100 100  
    Timbre_A  
    Cover_ 100 100 100 100  
    Timbre_C  
    Trot Org 200 200 200 200  
    Cover_ 200 200 200 200  
    Arrangement_A  
    Cover_Genre_A 200 200 200 200  
    Cover_ 200 200 200 200  
    Instrument_A  
    Cover_ 200 200 200 200  
    Instrument_C  
    Cover_ 200 200 200 200  
    Rhythm_A  
    Cover_ 200 200 200 200  
    Tempo_A  
    Cover_ 200 200 200 200  
    Tempo_C  
    Cover_ 200 200 200 200  
    Timbre_A  
    Cover_ 200 200 200 200  
    Timbre_C  
    총합 20,000 20,000 20,000 20,000  

     

    Regelar, Similar 통틀어서 장르별로 비율은
    Ballade 30%, Dance 20%, Hiphop 10%, RnB 10%, Rock 10%, Trot 20%

    Regular곡의 커버 종류는 1가지
    Similar곡의 커버 종류는 10가지

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1) 음원 분리 모델(Spleeter)
    1.1)모델 학습 
    - pydub을 통해 수집된 악기 음원(Wave)들을 Combine, 채널 통일(Stereo), 각 음원의 길이(Frame)를 동일하게 Slicing하여 전처리 수행
    - 전처리 된 음원 데이터를 Spleeter 모델에 학습하여 음원을 악기별 음원으로 분리시키는 음원 분리 모델을 개발

    모델 학습 
      학습 검증 시험
    개요 Spleeter 학습 학습 도중 모델 성과 평가 및 비교  모델 학습 완료 후 모델 테스트
    SDR 점수
    학습 데이터 800곡 100곡 100곡

    2) 음원 채보 모델(Omnizart)

    음원 채보 모델(Omnizart) 모델 학습
    1.1)모델 학습
    - PrettyMIDI를 통해 수집된 악보(MIDI)에서 Pitch Label(.pv) 및 Rhythm 트랙(MIDI)을 추출하여 전처리 수행
    - 전처리 된 Pitch Label, Rhythm 트랙과 음원(Wave) 데이터를 Omnizart 모델에 학습하여 악기별 음원을 채보하는 음원 채보 모델을 개발

     

    모델 학습
    음원 채보 모델(Omnizart)
      학습 검증 시험
    개요 Omnizart 학습 학습 도중 모델 성과 평가 및 비교  모델 학습 완료 후 모델 테스트
    F1-Score 점수
    학습 데이터 15,920곡 3,080곡 2,000곡

     

     

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 자동 채보 Estimation Omnizart F1-Score 0.6 0.758
    2 유사성 판별 (MelodyShape) Estimation MelodyShape F1-Score 0.58 0.915
    3 유사성 판별 (GrooveToolBox) Estimation GrroveToolBox F1-Score 0.58 0.835
    4 음원 분리 Speech Separation Spleeter SDR 5 단위없음 5.44 단위없음

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ●데이터 구성
    - 원시데이터 및 원천데이터 : Wave(PCM) 데이터 포맷
    - 음성 전사 데이터 : JSON 포맷
    - 메타 데이터 : MIDI, MusicXML 포맷
    MIDI : 원시/원천 데이터로부터 AI 모델로 채보된 바이너리 악보(MIDI)
    MusicXML : MIDI 데이터를 XML 형식으로 변환한 악보(MusicXML)

    ●데이터 포맷
    1)원시 데이터 및 원천 데이터 포맷


    - 표본추출률(sampling rate): 44.1kHz
    - 양자화(quantisation): 16bit
    - 채널: stereo

    데이터 포맷
    1차 경로  2차 경로 3차 경로 4차 경로 파일 포맷 사전검증 최종제출 수량
    수량
    Similar Ballade 곡번호 Org .wav 85 300
    Cover_Arrangement .wav 85 300
    Cover_Rhythm .wav 85 300
    Cover_Genre .wav 85 300
    Cover_Instrument .wav 170 600
    Cover_Timbre .wav 170 600
    Cover_Tempo .wav 170 600
    Dance 곡번호 Org .wav 34 200
    Cover_Arrangement .wav 34 200
    Cover_Rhythm .wav 34 200
    Cover_Genre .wav 34 200
    Cover_Instrument .wav 68 400
    Cover_Timbre .wav 68 400
    Cover_Tempo .wav 68 400
    Hiphop 곡번호 Org .wav 3 100
    Cover_Arrangement .wav 3 100
    Cover_Rhythm .wav 3 100
    Cover_Genre .wav 3 100
    Cover_Instrument .wav 6 200
    Cover_Timbre .wav 6 200
    Cover_Tempo .wav 6 200
    Trot 곡번호 Org .wav 0 200
    Cover_Arrangement .wav 0 200
    Cover_Rhythm .wav 0 200
    Cover_Genre .wav 0 200
    Cover_Instrument .wav 0 400
    Cover_Timbre .wav 0 400
    Cover_Tempo .wav 0 400
    Rock 곡번호 Org .wav 18 100
    Cover_Arrangement .wav 18 100
    Cover_Rhythm .wav 18 100
    Cover_Genre .wav 18 100
    Cover_Instrument .wav 36 200
    Cover_Timbre .wav 36 200
    Cover_Tempo .wav 36 200
    RnB 곡번호 Org .wav 10 100
    Cover_Arrangement .wav 10 100
    Cover_Rhythm .wav 10 100
    Cover_Genre .wav 10 100
    Cover_Instrument .wav 20 200
    Cover_Timbre .wav 20 200
    Cover_Tempo .wav 20 200
    Regular Ballade 곡번호 Org .wav 424 3000
    Dance 곡번호 Org .wav 300 2000
    Hiphop 곡번호 Org .wav 172 1000
    Trot 곡번호 Org .wav 315 2000
    Rock 곡번호 Org .wav 161 1000
    RnB 곡번호 Org .wav 128 1000
    총 수량 3,000 20,000

     

    2) 원천 데이터 구성 및 구분 정보

    원천 데이터 구성 및 구분 정보
    경로 구분 정보 구분자 정보
    1차 경로 음원 종류 구분 Similar: 원곡+ 커버곡
    Regular: 원곡
    2차 경로 음악 장르 구분 Ballade: 발라드 장르
    Dance: 댄스 장르
    HipPop: 힙합 장르
    Trot: 트로트 장르
    RnB: 알엔비 장르
    Rock: 락 장르
    3차 경로 곡번호 구분 5자리 곡번호
    4차 경로 원곡, 커버곡 종류 구분 Org: 원곡
    Cover_Arrangement: 악기편곡
    Cover_Rhythm: 리듬변경
    Cover_Genre: 장르변경
    Cover_Instrument: 악기변경
    Cover_Timbre: 음색변경
    Cover_Tempo: 템포변경

     

    원천 데이터 구성 및 구분 정보
    파일명 접미어 커버 범위 정보 사전검증수량 최종제출 수량
    *_Cover_Arrangement_A.* 3개 악기를 원곡 구간의 60%~70% 편곡 150 500
    *_Cover_Arrangement_B.* 2개 악기를 원곡 구간의 70%~80% 편곡 0 400
    *_Cover_Arrangement_C.* 2개 악기를 원곡 구간의 80%~100% 편곡 0 100
    *_Cover_Timbre_A.* 5개 악기 음색을 원곡 구간의 100% 변경 100 500
    *_Cover_Timbre_B.* 4개 악기 음색을 원곡 구간의 100% 변경 50 500
    *_Cover_Timbre_C.* 3개 악기 음색을 원곡 구간의 100% 변경 100 500
    *_Cover_Timbre_D.* 2개 악기 음색을 원곡 구간의 100% 변경 50 500
    *_Cover_Rhythm_A.* 원곡 구간의 60%~70%의 리듬을 변경 150 250
    *_Cover_Rhythm_B.* 원곡 구간의 70%~80%의 리듬을 변경 0 250
    *_Cover_Rhythm_C.* 원곡 구간의 80%~90%의 리듬을 변경 0 250
    *_Cover_Rhythm_D.* 원곡 구간의 90%~100%의 리듬을 변경 0 250
    *_Cover_Instrument_A.* 5개 악기 소스를 원곡 구간의 100% 변경 100 500
    *_Cover_Instrument_B.* 4개 악기 소스를 원곡 구간의 100% 변경 50 500
    *_Cover_Instrument_C.* 3개 악기 소스를 원곡 구간의 100% 변경 100 500
    *_Cover_Instrument_D.* 2개 악기 소스를 원곡 구간의 100% 변경 50 500
    *_Cover_Tempo_A.* 원곡 구간의 60%~70%의 템포를 변경 50 500
    *_Cover_Tempo_B.* 원곡 구간의 70%~80%의 템포를 변경 100 500
    *_Cover_Tempo_C.* 원곡 구간의 80%~90%의 템포를 변경 50 500
    *_Cover_Tempo_D.* 원곡 구간의 90%~100%의 템포를 변경 100 500
    *_Cover_Genre_A.* 원곡 구간의 100% 장르 변경 150 1000
    합계 1,350 9,000

     

     

    원천 데이터 구성 및 구분 정보
    예시 세부 구성 설명
    폴더명 /Similar/Trot/00268/Cover_Rhythm_A/ 음원종류/장르/곡번호/커버종류/
    파일명 Similar_Trot_00268_Cover_Rhythm_A.mid 음원종류_장르_곡번호_커버종류_커버범위.mid

     

     

    원천 데이터 구성 및 구분 정보
    구분 속성명 타입 필수 설명 범위 비고
    여부
    1 version String Y 데이터셋 버전    
    2 date String Y 생성/수정 날짜    
    3 songInfo Object   음원 상세정보    
      3-1 category String Y 원곡, 커버곡, 추가 원곡 분류 [원곡, 추가원곡, 악기편곡, 리듬변경, 장르변경, 악기변경, 음색변경, 템포변경]   
    3-2 coverType String Y 커버 범위 [Org,Arrangement_A,Arrangement_B,Arrangement_C,Rhythm_A,Rhythm_B,Rhythm_C,Rhythm_D,Genre_A,Timbre_A,Timbre_B,Timbre_C,Timbre_D,Instrument_A,Instrument_B,Instrument_C,Instrument_D,Tempo_A,Tempo_B,Tempo_C,Tempo_D] 신규 추가
    3-3 title String Y 곡 제목    
    3-4 composer String Y 작곡가    
    3-5 lyricist String   작사가    
    3-6 arranger String   편곡가    
    3-7 adaptor String   번안가    
    3-8 singer String Y 가수명    
    3-9 country String   제작국가    
    3-10 agency String   기획사/방송사    
    3-11 publicYear String   공표연도    
    3-12 album String   앨범명/프로그램명    
    3-13 songGenre String Y 곡 장르 [Ballade, Dance, Hiphop, RnB, Rock, Trot]  
    3-14 bpm String Y 대표 템포(BPM)    
    3-15 songKey String Y 대표 음조(Key)    
    3-16 lyricText String Y 가사 텍스트    
    3-17 similarityCoefficient String Y 원곡대비 유사계수 [-1.00 ~ 1.00]  
    3-18 melodySimilarity String Y 멜로디 유사도 [0.0~100.0]  
    3-19 rhythmSimilarity String Y 리듬 유사도 [0.0~100.0]  
    3-20 chordSimilarity String Y 화성 유사도 [0.0~100.0]  
    3-21 melodyTrack String Y 멜로디 트랙명    
    3-22 rhythmTrack String   리듬 트랙명    
    3-23 chordTrack String Y 화성 트랙명    
    4 instrumentList List Y 연주 악기 목록    
      4-1 instrumentName String Y 연주 악기 명    
    4-2 playingTime String Y 연주 시간 Second  
    5 melodySameSection List   멜로디 유사구간     
      5-1 startMilliSec number   시작 시각  Millisecond  
    5-2 durationMilliSec number   종료 시각  Millisecond  
    6 rhythmSameSection List   리듬 유사구간     
      6-1 startMilliSec number   시작 시각  Millisecond  
    6-2 durationMilliSec number   종료 시각 Millisecond  
    7 chordSameSection List   화성 유사구간     
      7-1 startMilliSec number   시작 시각  Millisecond  
    7-2 durationMilliSec number   유사 시간 Millisecond  
    8 soundFile Object   음원파일 상세정보    
      8-1 playTime String Y 음원 재생시간 Second  
    8-2 fileType String Y 음원 파일형식    
    8-3 authoringTool String   음원 저작도구    
    8-4 soundPath String Y 음원 파일 경로  

     

     

    8-5 midiPath String Y MIDI 파일 경로  
     

     

     

    Regular
    Regular
    구분 속성명 타입 필수 설명 범위 비고
    여부
    1 version String Y 데이터셋 버전    
    2 date String Y 생성/수정 날짜    
    3 songInfo Object   음원 상세정보    
    3 3-1 category String Y 원곡, 커버곡, 추가 원곡 분류 [원곡, 추가원곡, 악기편곡, 리듬변경, 장르변경, 악기변경, 음색변경, 템포변경]   
    3-2 coverType String Y 커버 범위 [Org,Arrangement_A,Arrangement_B,Arrangement_C,Rhythm_A,Rhythm_B,Rhythm_C,Rhythm_D,Genre_A,Timbre_A,Timbre_B,Timbre_C,Timbre_D,Instrument_A,Instrument_B,Instrument_C,Instrument_D,Tempo_A,Tempo_B,Tempo_C,Tempo_D] 신규 추가
    3-3 title String Y 곡 제목    
    3-4 composer String Y 작곡가    
    3-5 lyricist String   작사가    
    3-6 arranger String   편곡가    
    3-7 adaptor String   번안가    
    3-8 singer String Y 가수명    
    3-9 country String   제작국가    
    3-10 agency String   기획사/방송사    
    3-11 publicYear String   공표연도    
    3-12 album String   앨범명/프로그램명    
    3-13 songGenre String Y 곡 장르 [Ballade, Dance, Hiphop, RnB, Rock, Trot]  
    3-14 bpm String Y 대표 템포(BPM)    
    3-15 songKey String Y 대표 음조(Key)    
    3-16 lyricText String Y 가사 텍스트    
    3-17 similarityCoefficient String N 원곡대비 유사계수 0  
    3-18 melodySimilarity String N 멜로디 유사도 [0.0~100.0]  
    3-19 rhythmSimilarity String N 리듬 유사도 [0.0~100.0]  
    3-20 chordSimilarity String N 화성 유사도 [0.0~100.0]  
    3-21 melodyTrack String Y 멜로디 트랙명    
    3-22 rhythmTrack String N 리듬 트랙명    
    3-23 chordTrack String Y 화성 트랙명    
    4 instrumentList List Y 연주 악기 목록    
      4-1 instrumentName String Y 연주 악기 명    
    4-2 playingTime String Y 연주 시간 Second  
    5 melodySameSection String   멜로디 유사구간     
    6 rhythmSameSection String   리듬 유사구간     
    7 chordSameSection String   화성 유사구간     
    8 soundFile Object   음원파일 상세정보    
      8-1 playTime String Y 음원 재생시간 Second  
    8-2 fileType String Y 음원 파일형식    
    8-3 authoringTool String   음원 저작도구    
    8-4 soundPath String Y 음원 파일 경로    
    8-5 midiPath String Y MIDI 파일 경로    

    4) json 예시
    4.1) Similar json 예시

    json 파일 (Similar_Ballade_00001_Org.json)
    {
        "data_Set": {
            "version": "1.0",
            "date": "2022. 11. 30",
            "songinfo": {
                "category": "원곡",
                "coverType": "Org",
                "title": "아로하",
                "composer": "김태훈",
                "lyricist": "위종수",
                "arranger": "이상훈",
                "singer": "조정석",
                "country": "대한민국",
                "agency": "스튜디오마음C,에그이즈커밍,StoneMusicEntertainment",
                "publicYear": "2020",
                "album": "슬기로운의사생활OSTPart3",
                "songGenre": "Ballade",
                "bpm": "99",
                "songKey": "D",
                "lyricText": "어두운불빛아래 이후 생략...",
                "similarityCoefficient": "",
                "melodySimilarity": "",
                "rhythmSimilarity": "",
                "chordSimilarity": "",
                "melodyTrack": "Melody",
                "rhythmTrack": "Rhythm",
                "chordTrack": "Chord"
            },
            "instrumentList": [
                {
                    "instrumentName": "Acoustic Grand Piano",
                    "playingTime": "214"
                },
                {
                    "instrumentName": "Telephone Ring",
                    "playingTime": "209"
                },
                      이후 생략…
            ],
            "soundFile": {
                "playTime": "233",
                "fileType": "wav",
                "authoringTool": "Cubase 2018",
                "soundPath": "Similar\\Ballade\\00001\\Org\\Similar_Ballade_00001_Org.wav",
                "midiPath": "Similar\\Ballade\\00001\\Org\\Similar_Ballade_00001_Org.mid"
            }
        }
    }
     

    4.1) Regular json 예시

    json 파일 (Regular_Ballade_00001_Org.json)
    {
        "data_Set": {
            "version": "1.0",
            "date": "2022.11.30",
            "songinfo": {
                "category": "추가원곡",
                "coverType": "Org",
                "title": "10년이나버티니",
                "composer": "한상원,이진성",
                "lyricist": "한상원,이진성",
                "arranger": "이도형(AUG)",
                "singer": "김연지",
                "country": "대한민국",
                "agency": "모스트웍스",
                "publicYear": "2019",
                "album": "10년이나버티니",
                "songGenre": "Ballade",
                "bpm": "68",
                "songKey": "C",
                "lyricText": "잠시만눈을감았다떴을땐몇년이흘렀으면좋겠어 이후 생략...",
                "melodyTrack": "Melody",
                "rhythmTrack": "Rhythm",
                "chordTrack": "Chord"
            },
            "instrumentList": [
                {
                    "instrumentName": "Electric Bass (finger)",
                    "playingTime": "49"
                },
                {
                    "instrumentName": "Acoustic Guitar (nylon)",
                    "playingTime": "8"
                },
                {
                    "instrumentName": "Vocal",
                    "playingTime": "41"
                },
               이후 생략...
            ],
            "soundFile": {
                "playTime": "60",
                "fileType": "wav",
                "authoringTool": "Cubase 2018",
                "soundPath": "Regular\\Ballade\\00001\\Org\\Regular_Ballade_00001_Org.wav",
                "midiPath": "Regular\\Ballade\\00001\\Org\\Regular_Ballade_00001_Org.mid"
            }
        }
    }
     

  • 데이터셋 구축 담당자

    수행기관(주관) : 주식회사 투비원솔루션즈
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    박 영 02-2008-1761 young@2beone.net 라벨링, 모델 개발/적용
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    주식회사 클레프 데이터 수집, 정제, 가공
    한국음악콘텐츠협회 품질관리, 품질검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    박 영 02-2008-1761 young@2beone.net
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.