콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #음성

BETA 다양한 소음원에서의 Ground Truth 지식 정보 데이터

다양한 소음원에서의 Ground Truth 지식 정보 데이터 아이콘 이미지
  • 분야한국어
  • 유형 오디오
구축년도 : 2023 갱신년월 : 2024-07 조회수 : 1,339 다운로드 : 207 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-07-05 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-07-05 산출물 공개 Beta Version

    소개

    - 다양한 소음환경에서의 지식기반 목적 지향적 음성 데이터 및 이상소리 감지를 위한 환경 소리 데이터 구축

    구축목적

    - 소음이 발생하는 환경에서 정확한 음성 인식 및 적절한 답변 제공을 위한 지식 기반 답변의 질의 응답 데이터셋 필요
    - 일상생활에서 상황별 이상소리를 감지하여 안전관리 및 비상대처 방향을 제시하기 위한 소리데이터 추출 기술 필요
  • - 데이터 구축 규모

    구분 건수 시간
    대화 음성 데이터 41,503 2024.89
    환경 소리 데이터 61,258 509.87
    합계 102,761 2534.75

     

      - 대화 음성 데이터 클래스별 구축 규모

    No 대화 주제 수량(건) 비율(%)
    1 경제및산업 3,533 8.51
    2 사회및제도 2,369 5.71
    3 문화및라이프 9,377 22.59
    4 게임및과학 7,734 18.63
    5 건강및의학 2,221 5.35
    6 언론및보도 703 1.69
    7 학문및원리 4,052 9.76
    8 역사및지리 6,846 16.50
    9 자연및환경 2162 5.21
    10 종교및정치 2,506 6.04
    합계 41,503 100.00

     

     - 환경 소리 데이터 클래스별 구축 규모

    No 환경 소리 수량(건) 비율(%)
    1 사람 소리 16,660 27.20
    2 사물 소리 21,023 34.32
    3 기계 소리 16,769 27.37
    4 자연 소리 6,806 11.11
    합계 61,258 100.00

     

    - 데이터 분포
      - 소음 환경 분포 : 주거지역, 공공시설, 교통지역, 산업지역, 상업지역, 여가및관광지역

    No 소음 환경 수량(건) 비율(%)
    1 주거지역 19,360 18.84
    2 공공시설 17,803 17.32
    3 교통지역 18,802 18.30
    4 산업지역 19,883 19.35
    5 상업지역 14,260 13.88
    6 여가및관광지역 12,653 12.31
    합계 102,761 100.00

     

     - 화자 성별 분포 : 남성, 여성

    화자 성별 수량(명) 비율(%)
    남성 142 32.87
    여성 290 67.13
    합계 432 100.00

     

      - 화자 연령대별 분포 : 20대, 30대, 40대, 50대

    화자 연령대 수량(명) 비율(%)
    20대 165 38.19
    30대 125 28.94
    40대 74 17.13
    50대 68 15.74
    합계 432 100.00
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 대화 음성 데이터 AI 모델
    다양한 소음원에서의 Ground-Truth 지식 정보 모델은 소음이 포함된 대화에서 질문을 이해하고, 지식 데이터베이스에서 필요한 정보를 검색 및 추출하고, 이를 바탕으로 자연스러운 자연어 답변을 생성함

    대화 음성 데이터 AI 모델 이미지

    구분 개요 모델
    음성 인식 소음 환경에서 지식요구 대화 ASR 진행 TSCN, Whisper
    지식 탐지 오류가 포함된 음성인식(ASR) 대화에서 각 질문마다 지식을 요구하는지 탐지 GPT-2
    지식 선택 오류가 포함된 음성인식(ASR) 대화에서 지식을 요구하는 질문이 어떠한 지식을 요구하는지 선택 GPT-2
    응답 생성 지식과 대화를 입력으로 하여 지식을 요구하는 질문에 대한 응답을 생성 GPT-2


      - 데이터 셋 분할

    구분 훈련(Train) 검증(Validation) 시험(Test)
    데이터 수량 33,313 4,094 4,096 41,503
    데이터 비율 80% 10% 10% 100%

     

      - 서비스 활용 시나리오
        - 다양한 소음 환경에서 정확한 지식답변이 가능한 지능형 AI 시피커 기반을 마련하여 다양한 산업 분야에 활용
        - 음성인식 및 자연어 이해 기술만으로 각종 기기를 제어하고, 각각의 서비스를 융합하여 이용할 수 있는 서비스(지능형 AI 스피커)

     

    - 환경 소리 데이터 AI 모델
    소리 분류(Sound Classification) 분야의 모델은 일상생활에 초점이 맞추어진 분야로, 청각 장애인을 위한 일상 활동 지원, 안전 및 보안 기능과 스마트 홈 등에 활용할 수 있으며, 도시 환경에서 발견되는 소리의 종류를 분류하여 소음 모니터링 및 관련 작업을 위한 분야임

    환경 소리 데이터 AI 모델 이미지

    구분 개요 모델
    소리 분류 소음 환경에서 녹음된 소리의 종류를 분류 ESResNet

     

      - 데이터 셋 분할

    구분 훈련(Train) 검증(Validation) 시험(Test)
    데이터 수량 49,008 6,125 6,125 61,258
    데이터 비율 80% 10% 10% 100%

     

      - 서비스 활용 시나리오

        - 안전 관리 및 비상대응 시스템 개발 
           · 보안용 CCTV 자동 방향 제어, 지능형 보안관리 시스템, 산업현장 자동 재해감지 등 시스템 개발
         - 사회적 약자(고령자 및 장애인 등) 비상상황 대처 도우미 개발
           · 사회적 약자의 신속한 상황판단의 어려움 해소 및 삶의 질 향상 가능

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 설명
      - 다양한 소음 환경에서 음성을 정확하게 인식하고 인식된 음성 데이터를 기반으로 자연어 이해를 통해 사용자에게 적절한 답변을 제공하기 위한 다양한 소음환경에서의 Ground Truth  지식 정보 데이터 구축
      - 일상생활에서 다양한 상황에서의 이상소리를 감지하여 능동적이고 선제적으로 대응하는 보안관리 및 안전관리의 방향을 제시하기 위한 소리데이터 구축

     

     - 데이터 형태 및 포맷

    구축 공정 데이터 획득/수집 데이터 정제 데이터 가공 데이터 검사
    데이터 구분 원시데이터 원천데이터 라벨링데이터 검사 후 데이터
    데이터 형태 음성 ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 환경정보 파일
    ∙ 전사텍스트 파일
    ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 환경정보→메타정보
    ∙ 전사텍스트
    ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 메타정보
    ∙ 서브라벨링
    ∙ 전사텍스트
    ∙ (음성)오디오 파일
    ∙ (소음+음성)오디오 파일
    ∙ 메타정보 파일
    ∙ 서브라벨링
    ∙ 전사텍스트
    소리 ∙ (소음+소리)오디오 파일
    ∙ 환경정보 파일
    ∙ (소음+소리)오디오 파일
    ∙ 환경정보→메타정보
    ∙ (소음+소리)오디오 파일
    ∙ 메타정보
    ∙ (소음+소리)오디오 파일
    ∙ 메타정보 파일
    데이터 포맷 음성 ∙ wav파일(비트뎁스 16bit, 샘플링레이트 44.1kHz)
    ∙ 환경정보(csv)
    ∙ 전사텍스트(txt)
    ∙ (음성).wav
    ∙ (소음+음성).wav
    ∙ 메타정보(csv)
    ∙ 전사텍스트(txt)
    ∙ (음성).wav
    ∙ (소음+음성).wav
    ∙ 메타정보(json)
    ∙ 서브라벨링(json)
    ∙ 전사텍스트(srt)
    ∙ (음성).wav
    ∙ (소음+음성).wav
    ∙ 메타정보(json)
    ∙ 서브라벨링(json)
    ∙ 전사텍스트(srt)
    소리 ∙ wav파일(비트뎁스 16bit, 샘플링레이트 44.1kHz)
    ∙ 환경정보(xls)
    ∙ (소음+소리).wav
    ∙ 메타정보(csv)
    ∙ (소음+소리).wav
    ∙ 메타정보(json)
    ∙ (소음+소리).wav
    ∙ 메타정보(json)

     

     - 대화 음성 데이터 어노테이션 포맷

    No 항목명 타입 필수 구분 항목 설명 예시
    0 DataSet String 필수 데이터셋  
    1 Version String 필수 데이터셋 버전 1
    2 MediaUrl String 필수 녹취된 음원의 URL /05/COL/20230401
    3 Date String 필수 녹취된 날짜 20230401
    4 KnowledgeTopic String 필수 지식주제분류 [클래스] 역사및지리
    5 DialogKeyword String 필수 대화 키워드 이순신, 어린 시절
    6 SpeakerNum String 필수 화자수 2
    7 SpeakerPlace String 필수 화자녹취장소 레코딩룸
    8 Speakers Array 필수 화자  
      8-1 Speaker String 필수 화자 아이디 D302, A402
      8-2 Gender String 필수 화자 성별(남성, 여성) 남성
      8-3 Agegroup String 필수 화자 나이대 20, 30
      8-4 UtterNumber Number 필수 화자 발화수 7
    9 AudioResolution Object 필수 오디오 레졸류션  
      9-1 BitDepth Number 필수 비트뎁스 16
      9-2 SampleRate  Number 필수 샘플레이트 44.1
    10 RecLen Number 필수 전체 녹취시간(초.ms) 170.4
    11 RecDevice String 선택 녹취장비구분 스마트폰
    12 NoiseInfo Object 필수 소음원 데이터 상세 정보  
      12-1 NoiseCategory String 필수 소음원 카테고리 정보 주거지역
      12-2 NoisePlace String 필수 소음원 획득 장소 가정집 거실
      12-3 BgNoisespl String 필수 구간내 소음원 최대 dB 66.3
      12-4 RecSTime String 필수 소음 녹취 시작 시간 18
    13 QATurnNumber Number 필수 지식요구 QA턴 수 1
    14 DialogType String 필수 대화 종류 자유대화/지식대화
    15 DialogWER Number 필수 WER 평균 0.24
    16 Dialogs Array 필수 음성 대화 목록 {}
      16-1 DialogNum Number 필수 대화 순번 1
    16-2 Speaker String 필수 화자 아이디 D302
      16-3 Speakertext String 필수 전사된 텍스트 이순신의 어린시절은 어디에서 보냈나요?
      16-4 StartTime Number 필수 발화 시작 시간(초.ms) 0.879
      16-5 EndTime Number 필수 발화 끝 시간(초.ms) 5.76
      16-6 SpeakTime Number 필수 발화의 길이(초.ms) 4.881
      16-7 SentenceType String 필수 대화구분 [“Normal”,“Question”,“Answer”]
      16-8 ASRDetail Object 선택 ASR 상세정보  
      16-8-1 ASRQuestion String 필수 ASR 질문 이순신의 어린시절은 어땟나요?
      16-8-2 WER Number 필수 ASR 결과 수치 0.25
      16-9 KnowledgeInfo Array 선택 답변 지식DB 정보  
      16-9-1 Domain String 필수 지식DB 문서 도메인 역사및지리
      16-9-2 DomainDetail String 필수 지식DB 문서 세부 도메인 역사인물
      16-9-3 DocumentId String 필수 지식DB 문서 ID 210860
      16-9-4 DocumentUrl String 필수 지식DB 문서 출처(URL) https://ko.wikipedia.org/wiki?curid=210860
      16-9-5 Sentences Object 필수 지식DB 문장  
        16-9-5-1 SentenceId Array 필수 지식DB 문장 ID [S0011]
        16-9-5-2 SentenceText String 필수 지식DB 문장 텍스트 한성 건천동에서 이정(李貞)과 초계 변씨(草溪 卞氏)의 셋째 아들로 태어났다. 어린 시절의 대부분을 건천동에서 보냈고, 외가인 아산에서 소년기를 보냈다. 이정은 자신의 네 아들에게 고대 중국의 성인으로 알려진 복희, 요 임금, 순 임금, 우 임금의 이름자를 붙여 주었고, 셋째 아들이었던 그에게는 순신(舜臣)이라는 이름이 붙었다.
        16-9-5-3 KnowledgeText String 필수 문장 내 지식부분 텍스트 어린 시절의 대부분을 건천동에서 보냈고, 외가인 아산에서 소년기를 보냈다.
        16-9-5-4 SpanStart Number 필수 지식부분 시작(글자수) 45
        16-9-5-5 SpanEnd Number 필수 지식부분 끝(글자수) 86

     

    - 라벨링 데이터 실제 예시

    {
      "DataSet":"대화음성데이터",
      "Version":"1.0",
      "MediaUrl":"02.사회및제도/02.공공시설/02_02_D010A224_230822_0032_VN.wav",
      "Date":"20230822",
      "KnowledgeTopic":"사회및제도",
      "DialogKeyword":"국가보호경찰, 사회",
      "SpeakerNum":"2",
      "SpeakerPlace":"생활환경",
      "Speakers":[
        {
          "Speaker":"D010",
          "Gender":"남성",
          "Agegroup":"50",
          "UtterNumber":10
        },
        {
          "Speaker":"A224",
          "Gender":"여성",
          "Agegroup":"50",
          "UtterNumber":10
        }
      ],
      "AudioResolution":{
        "BitDepth":16,
        "SampleRate":44.1
      },
      "RecLen":184.854,
      "RecDevice":"스마트폰",
      "NoiseInfo":{
        "NoiseCategory":"공공시설",
        "NoisePlace":"강원대 도서관",
        "BgNoisespl":"56.3",
        "RecSTime":"14"
      },
      "QATurnNumber":1,
      "DialogType":"지식대화",
      "DialogWer":0.21,
      "Dialogs":[
        {
          "DialogNum":1,
          "Speaker":"D010",
          "Speakertext":"있잖아. 나 어제 조금 충격적인 거 봤어. 뭔가 한 대 얻어맞은 기분이 들더라고. ",
          "StartTime":3.88,
          "EndTime":10.84,
          "SpeakTime":6.96,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"있잖아 나 어제 조금 충격적인 거 봤어 뭔가 한 대 얻어맞은 기분이 들더라고",
            "WER":0
          },
          "KnowledgeInfo":null
        },
        {
          "DialogNum":2,
          "Speaker":"A224",
          "Speakertext":"뭐였길래 그래? 너 귀신 나오는 영화나 스릴러 영화 봐도 끄덕없는 애잖아. 어떤 건데 충격을 받았다고 그러는 거야? ",
          "StartTime":11.33,
          "EndTime":20.14,
          "SpeakTime":8.81,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"뭐였길래 그래 너 귀신 나오는 영화나 스릴러 영화 봐도 끄덕없는 애잖아 어떤건데 충격을 받았다고 그러는거야",
            "WER":0.33
          },
          "KnowledgeInfo":null
        },
      - 중  략 -
        {
          "DialogNum":7,
          "Speaker":"D010",
          "Speakertext":"국가 보호 경찰이 뭐야? ",
          "StartTime":60.33,
          "EndTime":63.04,
          "SpeakTime":2.71,
          "SentenceType":"Question",
          "ASRDetail":{
            "ASRQuestion":"국가보호경찰이 뭐야",
            "WER":0.75
          },
          "KnowledgeInfo":null
        },
        {
          "DialogNum":8,
          "Speaker":"A224",
          "Speakertext":"나치 독일의 주 경찰 중 하나인데 질서 경찰의 한 분과에 속해 있었다고 해. 대부분의 도시와 마을에 있었던 제복 경찰 중의 하나야. ",
          "StartTime":64.03,
          "EndTime":75.64,
          "SpeakTime":11.61,
          "SentenceType":"Answer",
          "ASRDetail":{
            "ASRQuestion":"나치 독일의 주 경찰 중 하나인데 질서경찰의 한 분과에 속해 있었다고 해 대부분의 도시와 마을에 있었던 제복 경찰 중 하나야",
            "WER":0.14
          },
          "KnowledgeInfo":[
            {
              "Domain":"사회및제도",
              "DominDetail":"사회",
              "DocumentId":"1311589",
              "DocumentUrl":"https://ko.wikipedia.org/wiki?curid=1311589",
              "Sentences":{
                "SentenceId":"1",
                "SentenceText":"국가보호경찰(독일어:?Schutzpolizei des Reiches)은?나치 독일의 주(State) 경찰 중 하나로?질서경찰의 한 분과에 속했다.?보호경찰(Schutzpolizei)는?독일어로 제복을 입은 경찰을 의미한다.",
                "KnowledgeText":"국가보호경찰(독일어: Schutzpolizei des Reiches)은 나치 독일의 주(State) 경찰 중 하나로 질서경찰의 한 분과에 속했다. 보호경찰(Schutzpolizei)는 독일어로 제복을 입은 경찰을 의미한다.",
                "SpanStart":0,
                "SpanEnd":124
              }
            }
          ]
        },
      - 중  략 -
        {
          "DialogNum":19,
          "Speaker":"D010",
          "Speakertext":"그 정도야? 세상에 그렇게 말하니까 좀 무섭다. ",
          "StartTime":171.83,
          "EndTime":175.89,
          "SpeakTime":4.06,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"그 정도야 세상에 그렇게 말하니까 좀 무섭다",
            "WER":0
          },
          "KnowledgeInfo":null
        },
        {
          "DialogNum":20,
          "Speaker":"A224",
          "Speakertext":"그니까. 세계 곳곳에서 다들 진짜 무서운 시절을 지나온 것 같아. ",
          "StartTime":176.38,
          "EndTime":181.99,
          "SpeakTime":5.61,
          "SentenceType":"Normal",
          "ASRDetail":{
            "ASRQuestion":"그러니까 세계 곳곳에서 다들 진짜 무서운 시절을 지나온 것 같아",
            "WER":0.1
          },
          "KnowledgeInfo":null
        }
      ]
    }

     

    o 환경 소리 데이터 어노테이션 포맷

    No 항목명 타입 필수 구분 항목 설명 예시
    0 DataSet String 필수 데이터셋  
    1 Version String 필수 데이터셋 버전 1
    2 MediaUrl String 필수 녹취된 음원의 URL /05/COL/20230401
    3 Date String 필수 녹취된 날짜 20230401
    4 AudioResolution Object 필수 오디오 레졸류션  
      4-1 BitDepth Number 필수 비트뎁스 16
      4-2 SampleRate  Number 필수 샘플레이트 44.1
    5 RecLen Number 필수 전체 녹취시간(초.ms) 20.4
    6 RecDevice String 필수 녹취장비구분(스마트폰, 녹음장치) 스마트폰
    7 Category String 필수 소리 대분류 1
    8 SubCategory String 필수 소리 소분류 1
    9 SoundComment String 필수 소리 상세 정보 비명소리
    10 SoundPlace String 필수 소리 녹취장소 레코딩룸
    11 NoiseInfo Object 필수 소음원데이터 상세 정보  
      11-1 NoiseCategory String 필수 소음원 카테고리 정보 2
      11-2 NoisePlace String 필수 소음원 획득 장소 공사장
      11-3 BgNoisespl String 필수 구간내 소음원 최대 dB 65
      11-4 NoiseLength Number 필수 소리제외 소음시간(초.ms) 100.01
      11-5 RecSTime String 필수 소음 녹취 시간 21
    12 AudioInfo Array 필수 소리 데이터 목록  
      12-1 AudioNumber String 필수 소리 순번 1
      12-2 StartTime Number 필수 소리 시작 시간(분:초.ms) 00:10.5
      12-3 EndTime Number 필수 소리 끝 시간(분:초.ms) 00:11.3
      12-4 SoundLength Number 필수 소리의 길이(초.ms) 0.8

     

    ● 라벨링 데이터 실제 예시

    {
        "DataSet": "환경소리데이터",
        "Version": "1.0",
        "MediaUrl": "02.사물소리/02.공공시설/02_02_2101_230726_0002.wav",
        "Date": "20230726",
        "AudioResolution": {
            "BitDepth": 16,
            "SampleRate": 44.1
        },
        "RecLen": 30.61,
        "RecDevice": "녹음장치",
        "Category": "사물소리",
        "SubCategory": "파손소리",
        "SoundComment": "자동차 사고 소리",
        "SoundPlace": "레코딩룸",
        "NoiseInfo": {
            "NoiseCategory": "공공시설",
            "NoisePlace": "송파 초등학교 운동장",
            "BgNoisespl": "83.3",
            "NoiseLength": 27.023,
            "RecSTime": "13"
        },
        "AudioInfo": [
            {
                "AudioNumber": 1,
                "StartTime": 9.98,
                "EndTime": 13.567,
                "SoundLength": 3.587
            }
        ]
    }
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜코테크시스템
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김연봉 02-2253-7355 batnaic@kotech.co.kr 품질책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜인사이트정보 데이터 수집, 검수
    ㈜코리아퍼스텍 데이터 정제, 가공, 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정호용 02-568-2035 chy@insightinfo.kr
    박만수 02-828-0300 pmsoo@first2000.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이홍섭 02-2253-7355 shevious@kotech.co.kr
    김연봉 02-2253-7355 batnaic@kotech.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    양재규 02-568-2035 jaekural@insightinfo.kr
    김연봉 02-2253-7355 batnaic@kotech.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.