콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #음성

NEW 생성형AI 다양한 소음원에서의 Ground Truth 지식 정보 데이터

다양한 소음원에서의 Ground Truth 지식 정보 데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오
구축년도 : 2023 갱신년월 : 2024-12 조회수 : 2,944 다운로드 : 340 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.2 2024-12-04 서브라벨링 추가 개방
    1.1 2024-10-30 데이터 최종 개방
    1.0 2024-07-05 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-07-05 산출물 공개 Beta Version

    소개

    - 다양한 소음환경에서의 지식기반 목적 지향적 음성 데이터 및 이상소리 감지를 위한 환경 소리 데이터 구축

    구축목적

    - 소음이 발생하는 환경에서 정확한 음성 인식 및 적절한 답변 제공을 위한 지식 기반 답변의 질의 응답 데이터셋 필요
    - 일상생활에서 상황별 이상소리를 감지하여 안전관리 및 비상대처 방향을 제시하기 위한 소리데이터 추출 기술 필요
  • - 데이터 구축 규모

    데이터 구축 규모
    구분 건수 시간
    대화 음성 데이터 41,503 2024.89
    환경 소리 데이터 61,258 509.87
    합계 102,761 2534.75

     

      - 대화 음성 데이터 클래스별 구축 규모

    대화 음성 데이터 클래스별 구축 규모
    No 대화 주제 수량(건) 비율(%)
    1 경제및산업 3,533 8.51
    2 사회및제도 2,369 5.71
    3 문화및라이프 9,377 22.59
    4 게임및과학 7,734 18.63
    5 건강및의학 2,221 5.35
    6 언론및보도 703 1.69
    7 학문및원리 4,052 9.76
    8 역사및지리 6,846 16.50
    9 자연및환경 2162 5.21
    10 종교및정치 2,506 6.04
    합계 41,503 100.00

     

     - 환경 소리 데이터 클래스별 구축 규모

    환경 소리 데이터 클래스별 구축 규모
    No 환경 소리 수량(건) 비율(%)
    1 사람 소리 16,660 27.20
    2 사물 소리 21,023 34.32
    3 기계 소리 16,769 27.37
    4 자연 소리 6,806 11.11
    합계 61,258 100.00

     

    - 데이터 분포
      - 소음 환경 분포 : 주거지역, 공공시설, 교통지역, 산업지역, 상업지역, 여가및관광지역

    데이터 분포 - 소음 환경 분포 : 주거지역, 공공시설, 교통지역, 산업지역, 상업지역, 여가및관광지역
    No 소음 환경 수량(건) 비율(%)
    1 주거지역 19,360 18.84
    2 공공시설 17,803 17.32
    3 교통지역 18,802 18.30
    4 산업지역 19,883 19.35
    5 상업지역 14,260 13.88
    6 여가및관광지역 12,653 12.31
    합계 102,761 100.00

     

     - 화자 성별 분포 : 남성, 여성

    데이터 분포 - 화자 성별 분포 : 남성, 여성
    화자 성별 수량(명) 비율(%)
    남성 142 32.87
    여성 290 67.13
    합계 432 100.00

     

      - 화자 연령대별 분포 : 20대, 30대, 40대, 50대

    데이터 분포 - 화자 연령대별 분포 : 20대, 30대, 40대, 50대
    화자 연령대 수량(명) 비율(%)
    20대 165 38.19
    30대 125 28.94
    40대 74 17.13
    50대 68 15.74
    합계 432 100.00
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 대화 음성 데이터 AI 모델
    다양한 소음원에서의 Ground-Truth 지식 정보 모델은 소음이 포함된 대화에서 질문을 이해하고, 지식 데이터베이스에서 필요한 정보를 검색 및 추출하고, 이를 바탕으로 자연스러운 자연어 답변을 생성함

    대화 음성 데이터 AI 모델 이미지

    대화 음성 데이터 AI 모델
    구분 개요 모델
    음성 인식 소음 환경에서 지식요구 대화 ASR 진행 TSCN, Whisper
    지식 탐지 오류가 포함된 음성인식(ASR) 대화에서 각 질문마다 지식을 요구하는지 탐지 GPT-2
    지식 선택 오류가 포함된 음성인식(ASR) 대화에서 지식을 요구하는 질문이 어떠한 지식을 요구하는지 선택 GPT-2
    응답 생성 지식과 대화를 입력으로 하여 지식을 요구하는 질문에 대한 응답을 생성 GPT-2


      - 데이터 셋 분할

    데이터 셋 분할
    구분 훈련(Train) 검증(Validation) 시험(Test)
    데이터 수량 33,313 4,094 4,096 41,503
    데이터 비율 80% 10% 10% 100%

     

      - 서비스 활용 시나리오
        - 다양한 소음 환경에서 정확한 지식답변이 가능한 지능형 AI 시피커 기반을 마련하여 다양한 산업 분야에 활용
        - 음성인식 및 자연어 이해 기술만으로 각종 기기를 제어하고, 각각의 서비스를 융합하여 이용할 수 있는 서비스(지능형 AI 스피커)

     

    - 환경 소리 데이터 AI 모델
    소리 분류(Sound Classification) 분야의 모델은 일상생활에 초점이 맞추어진 분야로, 청각 장애인을 위한 일상 활동 지원, 안전 및 보안 기능과 스마트 홈 등에 활용할 수 있으며, 도시 환경에서 발견되는 소리의 종류를 분류하여 소음 모니터링 및 관련 작업을 위한 분야임

    환경 소리 데이터 AI 모델 이미지

    환경 소리 데이터 AI 모델
    구분 개요 모델
    소리 분류 소음 환경에서 녹음된 소리의 종류를 분류 ESResNet

     

      - 데이터 셋 분할

    데이터 셋 분할
    구분 훈련(Train) 검증(Validation) 시험(Test)
    데이터 수량 49,008 6,125 6,125 61,258
    데이터 비율 80% 10% 10% 100%

     

      - 서비스 활용 시나리오

        - 안전 관리 및 비상대응 시스템 개발 
           · 보안용 CCTV 자동 방향 제어, 지능형 보안관리 시스템, 산업현장 자동 재해감지 등 시스템 개발
         - 사회적 약자(고령자 및 장애인 등) 비상상황 대처 도우미 개발
           · 사회적 약자의 신속한 상황판단의 어려움 해소 및 삶의 질 향상 가능

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 설명
      - 다양한 소음 환경에서 음성을 정확하게 인식하고 인식된 음성 데이터를 기반으로 자연어 이해를 통해 사용자에게 적절한 답변을 제공하기 위한 다양한 소음환경에서의 Ground Truth  지식 정보 데이터 구축
      - 일상생활에서 다양한 상황에서의 이상소리를 감지하여 능동적이고 선제적으로 대응하는 보안관리 및 안전관리의 방향을 제시하기 위한 소리데이터 구축

     

     - 데이터 형태 및 포맷

    데이터 형태 및 포맷
    구축 공정 데이터 획득/수집 데이터 정제 데이터 가공 데이터 검사
    데이터 구분 원시데이터 원천데이터 라벨링데이터 검사 후 데이터
    데이터 형태 음성 ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 환경정보 파일
    ∙ 전사텍스트 파일
    ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 환경정보→메타정보
    ∙ 전사텍스트
    ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 메타정보
    ∙ 서브라벨링
    ∙ 전사텍스트
    ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 메타정보 파일
    ∙ 서브라벨링
    ∙ 전사텍스트
    소리 ∙ (소음+소리)오디오 파일
    ∙ 환경정보 파일
    ∙ (소음+소리)오디오 파일
    ∙ 환경정보→메타정보
    ∙ (소음+소리)오디오 파일
    ∙ 메타정보
    ∙ (소음+소리)오디오 파일
    ∙ 메타정보 파일
    데이터 포맷 음성 ∙ wav파일(비트뎁스 16bit, 샘플링레이트 44.1kHz)
    ∙ 환경정보(csv)
    ∙ 전사텍스트(txt)
    ∙ (음성).wav
    ∙ (소음+음성).wav
    ∙ 메타정보(csv)
    ∙ 전사텍스트(txt)
    ∙ (음성).wav
    ∙ (소음+음성).wav
    ∙ 메타정보(json)
    ∙ 서브라벨링(json)
    ∙ 전사텍스트(srt)
    ∙ (음성).wav
    ∙ (소음+음성).wav
    ∙ 메타정보(json)
    ∙ 서브라벨링(json)
    ∙ 전사텍스트(srt)
    소리 ∙ wav파일(비트뎁스 16bit, 샘플링레이트 44.1kHz)
    ∙ 환경정보(xls)
    ∙ (소음+소리).wav
    ∙ 메타정보(csv)
    ∙ (소음+소리).wav
    ∙ 메타정보(json)
    ∙ (소음+소리).wav
    ∙ 메타정보(json)

     

     - 대화 음성 데이터 어노테이션 포맷

    대화 음성 데이터 어노테이션 포맷
    No 항목명 타입 필수 구분 항목 설명 예시
    0 DataSet String 필수 데이터셋  
    1 Version String 필수 데이터셋 버전 1
    2 MediaUrl String 필수 녹취된 음원의 URL /05/COL/20230401
    3 Date String 필수 녹취된 날짜 20230401
    4 KnowledgeTopic String 필수 지식주제분류 [클래스] 역사및지리
    5 DialogKeyword String 필수 대화 키워드 이순신, 어린 시절
    6 SpeakerNum String 필수 화자수 2
    7 SpeakerPlace String 필수 화자녹취장소 레코딩룸
    8 Speakers Array 필수 화자  
      8-1 Speaker String 필수 화자 아이디 D302, A402
      8-2 Gender String 필수 화자 성별(남성, 여성) 남성
      8-3 Agegroup String 필수 화자 나이대 20, 30
      8-4 UtterNumber Number 필수 화자 발화수 7
    9 AudioResolution Object 필수 오디오 레졸류션  
      9-1 BitDepth Number 필수 비트뎁스 16
      9-2 SampleRate  Number 필수 샘플레이트 44.1
    10 RecLen Number 필수 전체 녹취시간(초.ms) 170.4
    11 RecDevice String 선택 녹취장비구분 스마트폰
    12 NoiseInfo Object 필수 소음원 데이터 상세 정보  
      12-1 NoiseCategory String 필수 소음원 카테고리 정보 주거지역
      12-2 NoisePlace String 필수 소음원 획득 장소 가정집 거실
      12-3 BgNoisespl String 필수 구간내 소음원 최대 dB 66.3
      12-4 RecSTime String 필수 소음 녹취 시작 시간 18
    13 QATurnNumber Number 필수 지식요구 QA턴 수 1
    14 DialogType String 필수 대화 종류 자유대화/지식대화
    15 DialogWER Number 필수 WER 평균 0.24
    16 Dialogs Array 필수 음성 대화 목록 {}
      16-1 DialogNum Number 필수 대화 순번 1
    16-2 Speaker String 필수 화자 아이디 D302
      16-3 Speakertext String 필수 전사된 텍스트 이순신의 어린시절은 어디에서 보냈나요?
      16-4 StartTime Number 필수 발화 시작 시간(초.ms) 0.879
      16-5 EndTime Number 필수 발화 끝 시간(초.ms) 5.76
      16-6 SpeakTime Number 필수 발화의 길이(초.ms) 4.881
      16-7 SentenceType String 필수 대화구분 [“Normal”,“Question”,“Answer”]
      16-8 ASRDetail Object 선택 ASR 상세정보  
      16-8-1 ASRQuestion String 필수 ASR 질문 이순신의 어린시절은 어땟나요?
      16-8-2 WER Number 필수 ASR 결과 수치 0.25
      16-9 KnowledgeInfo Array 선택 답변 지식DB 정보  
      16-9-1 Domain String 필수 지식DB 문서 도메인 역사및지리
      16-9-2 DomainDetail String 필수 지식DB 문서 세부 도메인 역사인물
      16-9-3 DocumentId String 필수 지식DB 문서 ID 210860
      16-9-4 DocumentUrl String 필수 지식DB 문서 출처(URL) https://ko.wikipedia.org/wiki?curid=210860
      16-9-5 Sentences Object 필수 지식DB 문장  
        16-9-5-1 SentenceId Array 필수 지식DB 문장 ID [S0011]
        16-9-5-2 SentenceText String 필수 지식DB 문장 텍스트 한성 건천동에서 이정(李貞)과 초계 변씨(草溪 卞氏)의 셋째 아들로 태어났다. 어린 시절의 대부분을 건천동에서 보냈고, 외가인 아산에서 소년기를 보냈다. 이정은 자신의 네 아들에게 고대 중국의 성인으로 알려진 복희, 요 임금, 순 임금, 우 임금의 이름자를 붙여 주었고, 셋째 아들이었던 그에게는 순신(舜臣)이라는 이름이 붙었다.
        16-9-5-3 KnowledgeText String 필수 문장 내 지식부분 텍스트 어린 시절의 대부분을 건천동에서 보냈고, 외가인 아산에서 소년기를 보냈다.
        16-9-5-4 SpanStart Number 필수 지식부분 시작(글자수) 45
        16-9-5-5 SpanEnd Number 필수 지식부분 끝(글자수) 86

     

    - 라벨링 데이터 실제 예시

    라벨링 데이터 실제 예시
    {
      "DataSet":"대화음성데이터",
      "Version":"1.0",
      "MediaUrl":"02.사회및제도/02.공공시설/02_02_D010A224_230822_0032_VN.wav",
      "Date":"20230822",
      "KnowledgeTopic":"사회및제도",
      "DialogKeyword":"국가보호경찰, 사회",
      "SpeakerNum":"2",
      "SpeakerPlace":"생활환경",
      "Speakers":[
        {
          "Speaker":"D010",
          "Gender":"남성",
          "Agegroup":"50",
          "UtterNumber":10
        },
        {
          "Speaker":"A224",
          "Gender":"여성",
          "Agegroup":"50",
          "UtterNumber":10
        }
      ],
      "AudioResolution":{
        "BitDepth":16,
        "SampleRate":44.1
      },
      "RecLen":184.854,
      "RecDevice":"스마트폰",
      "NoiseInfo":{
        "NoiseCategory":"공공시설",
        "NoisePlace":"강원대 도서관",
        "BgNoisespl":"56.3",
        "RecSTime":"14"
      },
      "QATurnNumber":1,
      "DialogType":"지식대화",
      "DialogWer":0.21,
      "Dialogs":[
        {
          "DialogNum":1,
          "Speaker":"D010",
          "Speakertext":"있잖아. 나 어제 조금 충격적인 거 봤어. 뭔가 한 대 얻어맞은 기분이 들더라고. ",
          "StartTime":3.88,
          "EndTime":10.84,
          "SpeakTime":6.96,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"있잖아 나 어제 조금 충격적인 거 봤어 뭔가 한 대 얻어맞은 기분이 들더라고",
            "WER":0
          },
          "KnowledgeInfo":null
        },
        {
          "DialogNum":2,
          "Speaker":"A224",
          "Speakertext":"뭐였길래 그래? 너 귀신 나오는 영화나 스릴러 영화 봐도 끄덕없는 애잖아. 어떤 건데 충격을 받았다고 그러는 거야? ",
          "StartTime":11.33,
          "EndTime":20.14,
          "SpeakTime":8.81,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"뭐였길래 그래 너 귀신 나오는 영화나 스릴러 영화 봐도 끄덕없는 애잖아 어떤건데 충격을 받았다고 그러는거야",
            "WER":0.33
          },
          "KnowledgeInfo":null
        },
      - 중  략 -
        {
          "DialogNum":7,
          "Speaker":"D010",
          "Speakertext":"국가 보호 경찰이 뭐야? ",
          "StartTime":60.33,
          "EndTime":63.04,
          "SpeakTime":2.71,
          "SentenceType":"Question",
          "ASRDetail":{
            "ASRQuestion":"국가보호경찰이 뭐야",
            "WER":0.75
          },
          "KnowledgeInfo":null
        },
        {
          "DialogNum":8,
          "Speaker":"A224",
          "Speakertext":"나치 독일의 주 경찰 중 하나인데 질서 경찰의 한 분과에 속해 있었다고 해. 대부분의 도시와 마을에 있었던 제복 경찰 중의 하나야. ",
          "StartTime":64.03,
          "EndTime":75.64,
          "SpeakTime":11.61,
          "SentenceType":"Answer",
          "ASRDetail":{
            "ASRQuestion":"나치 독일의 주 경찰 중 하나인데 질서경찰의 한 분과에 속해 있었다고 해 대부분의 도시와 마을에 있었던 제복 경찰 중 하나야",
            "WER":0.14
          },
          "KnowledgeInfo":[
            {
              "Domain":"사회및제도",
              "DominDetail":"사회",
              "DocumentId":"1311589",
              "DocumentUrl":"https://ko.wikipedia.org/wiki?curid=1311589",
              "Sentences":{
                "SentenceId":"1",
                "SentenceText":"국가보호경찰(독일어:?Schutzpolizei des Reiches)은?나치 독일의 주(State) 경찰 중 하나로?질서경찰의 한 분과에 속했다.?보호경찰(Schutzpolizei)는?독일어로 제복을 입은 경찰을 의미한다.",
                "KnowledgeText":"국가보호경찰(독일어: Schutzpolizei des Reiches)은 나치 독일의 주(State) 경찰 중 하나로 질서경찰의 한 분과에 속했다. 보호경찰(Schutzpolizei)는 독일어로 제복을 입은 경찰을 의미한다.",
                "SpanStart":0,
                "SpanEnd":124
              }
            }
          ]
        },
      - 중  략 -
        {
          "DialogNum":19,
          "Speaker":"D010",
          "Speakertext":"그 정도야? 세상에 그렇게 말하니까 좀 무섭다. ",
          "StartTime":171.83,
          "EndTime":175.89,
          "SpeakTime":4.06,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"그 정도야 세상에 그렇게 말하니까 좀 무섭다",
            "WER":0
          },
          "KnowledgeInfo":null
        },
        {
          "DialogNum":20,
          "Speaker":"A224",
          "Speakertext":"그니까. 세계 곳곳에서 다들 진짜 무서운 시절을 지나온 것 같아. ",
          "StartTime":176.38,
          "EndTime":181.99,
          "SpeakTime":5.61,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"그러니까 세계 곳곳에서 다들 진짜 무서운 시절을 지나온 것 같아",
            "WER":0.1
          },
          "KnowledgeInfo":null
        }
      ]
    }

     

    o 환경 소리 데이터 어노테이션 포맷

    환경 소리 데이터 어노테이션 포맷
    No 항목명 타입 필수 구분 항목 설명 예시
    0 DataSet String 필수 데이터셋  
    1 Version String 필수 데이터셋 버전 1
    2 MediaUrl String 필수 녹취된 음원의 URL /05/COL/20230401
    3 Date String 필수 녹취된 날짜 20230401
    4 AudioResolution Object 필수 오디오 레졸류션  
      4-1 BitDepth Number 필수 비트뎁스 16
      4-2 SampleRate  Number 필수 샘플레이트 44.1
    5 RecLen Number 필수 전체 녹취시간(초.ms) 20.4
    6 RecDevice String 필수 녹취장비구분(스마트폰, 녹음장치) 스마트폰
    7 Category String 필수 소리 대분류 1
    8 SubCategory String 필수 소리 소분류 1
    9 SoundComment String 필수 소리 상세 정보 비명소리
    10 SoundPlace String 필수 소리 녹취장소 레코딩룸
    11 NoiseInfo Object 필수 소음원데이터 상세 정보  
      11-1 NoiseCategory String 필수 소음원 카테고리 정보 2
      11-2 NoisePlace String 필수 소음원 획득 장소 공사장
      11-3 BgNoisespl String 필수 구간내 소음원 최대 dB 65
      11-4 NoiseLength Number 필수 소리제외 소음시간(초.ms) 100.01
      11-5 RecSTime String 필수 소음 녹취 시간 21
    12 AudioInfo Array 필수 소리 데이터 목록  
      12-1 AudioNumber String 필수 소리 순번 1
      12-2 StartTime Number 필수 소리 시작 시간(분:초.ms) 00:10.5
      12-3 EndTime Number 필수 소리 끝 시간(분:초.ms) 00:11.3
      12-4 SoundLength Number 필수 소리의 길이(초.ms) 0.8

     

    ● 라벨링 데이터 실제 예시

    라벨링 데이터 실제 예시
    {
        "DataSet": "환경소리데이터",
        "Version": "1.0",
        "MediaUrl": "02.사물소리/02.공공시설/02_02_2101_230726_0002.wav",
        "Date": "20230726",
        "AudioResolution": {
            "BitDepth": 16,
            "SampleRate": 44.1
        },
        "RecLen": 30.61,
        "RecDevice": "녹음장치",
        "Category": "사물소리",
        "SubCategory": "파손소리",
        "SoundComment": "자동차 사고 소리",
        "SoundPlace": "레코딩룸",
        "NoiseInfo": {
            "NoiseCategory": "공공시설",
            "NoisePlace": "송파 초등학교 운동장",
            "BgNoisespl": "83.3",
            "NoiseLength": 27.023,
            "RecSTime": "13"
        },
        "AudioInfo": [
            {
                "AudioNumber": 1,
                "StartTime": 9.98,
                "EndTime": 13.567,
                "SoundLength": 3.587
            }
        ]
    }
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜코테크시스템
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김연봉 02-2253-7355 batnaic@kotech.co.kr 품질책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜인사이트정보 데이터 수집, 검수
    ㈜코리아퍼스텍 데이터 정제, 가공, 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정호용 02-568-2035 chy@insightinfo.kr
    박만수 02-828-0300 pmsoo@first2000.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이홍섭 02-2253-7355 shevious@kotech.co.kr
    김연봉 02-2253-7355 batnaic@kotech.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    양재규 02-568-2035 jaekural@insightinfo.kr
    김연봉 02-2253-7355 batnaic@kotech.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.