콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#말뭉치 # 초거대AI # 캄보디아 # 크메르어 # 서비스진출 # Instruction Q/A 데이터셋 # 문화 # 규범 # 관습 # 예절 #자연어 #문화

BETA 캄보디아(크메르어) 규범 문화 말뭉치 데이터

캄보디아(크메르어) 규범 문화 말뭉치 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 112 다운로드 : 4 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-16 데이터 개방 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-16 산출물 전체 공개

    소개

    초거대AI에 적합한 캄보디아 문화·규범·문화·관습·예절 관련 학습데이터 구축 과제로서
    - 크메르어 말뭉치 학습데이터 1억 어절 이상 (영어, 한국어 번역본도 구축)
    - 크메르어 InstructionQ/A, AI성능평가 데이터 구축

    구축목적

    - 비영어권 국가와의 협력 및 해외진출을 위해 캄보디아의 규범·문화·관습·예절 등을 학습할 수 있는 데이터 구축
    - 캄보디아 문화,규범,관습을 담은 말뭉치데이터와 LLM개발을 통하여 캄보디아의 AI모델 성능 향상과 기술 발전에 기여
  • ○ 데이터 구축 규모

    ○ 데이터 구축 규모
    구분 건수 어절
    말뭉치데이터 287,528 124,530,017
    InstructionQA 데이터 5,000 -
    성능평가데이터 2,000 -
    합계 294,528 124,530,017

    ● 주제 대분류별 구축 규모

    ○ 데이터 구축 규모 ● 주제 대분류별 구축 규모
    No 구분 수량(건) 비율(%)
    1 문화 72,645 25.27
    2 규범 191,201 66.5
    3 관습 10,332 3.59
    4 예절 13,350 4.64
    합계 287,528 100.00

    ● 주제 중분류별 구축 규모

    ○ 데이터 구축 규모 ● 주제 중분류별 구축 규모
    No 구분 수량(건) 비율(%)
    1 문화/예술/교육 31,656 11.01
    2 역사/지리/관광 15,870 5.52
    3 스포츠/기타 25,119 8.74
    4 사회/산업 107,847 37.51
    5 정치/경제 51,172 17.8
    6 과학/의학 32,182 11.19
    7 관습/의례 10,332 3.59
    8 일상생활/음식 13,350 4.64
    합계 287,528 100.00

     

    ○ 데이터 분포
    ● 자료 유형별 분포: 저서, 논문, 기사, 문서, 직접작성, 기타

    ○ 데이터 분포 ● 자료 유형별 분포: 저서, 논문, 기사, 문서, 직접작성, 기타
    No 구분 수량(건) 비율(%)
    1 저서 0 0
    2 논문 0 0
    3 기사 287,243 99.9
    4 문서 260 0.09
    5 직접작성 0 0
    6 기타 25 0.01
    합계 287,528 100.00

    ● 크메르어 어절 수 분포

    ○ 데이터 분포 ● 크메르어 어절 수 분포
    No 구분 수량(건) 비율(%)
    1 100이하 288 0.1
    2 101~200 36,675 12.76
    3 201~300 59,236 20.6
    4 301~400 59,066 20.54
    5 401~500 47,627 16.56
    6 501~600 32,354 11.25
    7 601~700 20,304 7.06
    8 701~800 12,167 4.23
    9 801~900 7,341 2.55
    10 901~1000 4,288 1.49
    11 1000초과 8,182 2.85
    합계 287,528 100.00

    ● 한국어 어절 수 분포

    ○ 데이터 분포 ● 한국어 어절 수 분포
    No 구분 수량(건) 비율(%)
    1 100이하 46,766 18.16
    2 101~200 126,607 49.16
    3 201~300 74,588 28.96
    4 301~400 26,100 10.13
    5 401~500 8,213 3.19
    6 501~600 2,826 1.1
    7 601~700 1,191 0.46
    8 701~800 532 0.21
    9 801~900 251 0.1
    10 901~1000 132 0.05
    11 1000초과 322 0.13
    합계 287,528 100.00

    ● 영어 어절 수 분포

    ○ 데이터 분포 ● 영어 어절 수 분포
    No 구분 수량(건) 비율(%)
    1 100이하 9,812 3.41
    2 101~200 73,722 25.64
    3 201~300 81,994 28.52
    4 301~400 59,704 20.76
    5 401~500 32,104 11.17
    6 501~600 15,445 5.37
    7 601~700 7,046 2.45
    8 701~800 3,426 1.19
    9 801~900 1,684 0.59
    10 901~1000 936 0.33
    11 1000초과 1,655 0.58
    합계 287,528 100.00

    ● 질의응답 어절 수 분포(instruction)

    ○ 데이터 분포 ● 질의응답 어절 수 분포(instruction)
    No 구분 수량(건) 비율(%)
    1 10이하 36 0.72
    2 11~20 1,402 28.04
    3 21~30 2,640 52.8
    4 31~40 769 15.38
    5 41~50 128 2.56
    6 50초과 25 0.5
    합계 5,000 100.00

    ● 질의응답 어절 수 분포(input)

    ○ 데이터 분포 ● 질의응답 어절 수 분포(input)
    No 소음 환경 수량(건) 비율(%)
    1 100이하 4,899 97.98
    2 101~200 20 0.4
    3 201~300 29 0.58
    4 301~400 16 0.32
    5 401~500 16 0.32
    6 500초과 20 0.4
    합계 5,000 100.00

    ● 질의응답 어절 수 분포(ouput)

    ○ 데이터 분포 ● 질의응답 어절 수 분포(ouput)
    No 구분 수량(건) 비율(%)
    1 100이하 4,959 99.18
    2 101~200 35 0.7
    3 201~300 6 0.12
    4 301~400 - -
    5 401~500 - -
    6 500초과 - -
    합계 5,000 100.00

    ● 질의응답 유형 분포: 선택형, 요약형, 질문답변형

    ○ 데이터 분포 ● 질의응답 유형 분포: 선택형, 요약형, 질문답변형
    No 구분 수량(건) 비율(%)
    1 선택형 4,807 96.14
    2 요약형 97 1.94
    3 질문답변형 96 1.92
    합계 5,000 100.00

    ● 성능 평가 데이터 어절 수 분포(MMLU)

    ○ 데이터 분포 ● 성능 평가 데이터 어절 수 분포(MMLU)
    No 구분 수량(건) 비율(%)
    1 10이하 1,536 54.83
    2 11~20 932 33.29
    3 21~30 266 9.5
    4 31~40 54 1.93
    5 41~50 11 0.39
    6 50초과 1 0.04
    합계 2,800 100.00

    ● 성능 평가 데이터 어절 수 분포(HellaSwag)

    ○ 데이터 분포 ● 성능 평가 데이터 어절 수 분포(HellaSwag)
    No 구분 수량(건) 비율(%)
    1 10이하 600 50
    2 11~20 - -
    3 21~30 40 3.33
    4 31~40 244 20.33
    5 41~50 206 17.17
    6 50초과 110 9.17
    합계 1,200 100.00
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    <모델학습>
    ● 모델은 GPT-3를 베이스로 하는 Llama-3 8B를 사용하였으며 질문 답변, 번역, 대화, 작문 등 자연어처리 임무에서 높은 품질의 텍스트를 생성 할 수 있는 언어모델로 구축하였다. 모델 학습을 위한 데이터는 전체 1억 어절에 해당하며 주제별로 분류되어 있으며 (문화/예술/교육, 사회/산업, 정치/경제, 종교, 과학/의학, 역사/지리/관광, 일상생활/음식, 스포츠/기타)으로 구성하였고 인스트럭션튜닝을 하도록 각 5,000건의 Instruction Q/A데이터 구축 및 AI 성능평가데이터 각 2,000건을 구축
    ● 전체 데이터로 사전학습을 수행하였고 Instruction Q/A데이터로 파인튜닝을 하여 크메르어에 적합한 LLM언어모델로 개발함

    데이터 수집 후 데이터 정제-가공하고 LLM모델 Training 이후 테스트/성능측정● LLM모델 AI 성능평가

    ● LLM모델 AI 성능평가
    구분 개요 평가 데이터 / 건수
    언어 이해 크메르어 언어 이해 성능평가 MMLU / 1,400건
    상식 추론 크메르어 상식 추론 성능평가 HellaSwag / 600건

    ● 데이터 셋 분할

    ● 데이터 셋 분할
    구분 훈련(Train) 검증(Validation) 시험(Test)
    말뭉치데이터 230,024 28,752 28,752 287,528
    데이터 비율 80% 10% 10% 100%
    InstructionQA데이터 5,000 - - 5,000
    성능평가 데이터 - - 2,000 2,000

     

    <서비스 활용 시나리오>
    ● 크메르어 말뭉치 데이터를 활용하여 인공지능 챗봇 및 대화 시스템의 개발과 향상에 활용할 수 있으며, 학습 완료된 AI 모델의 캄보디아 정부 및 국내기업 대상으로 AI 모델 상품 수출 추진 가능
    ● 산업 및 물류 분야에서 스와힐리어, 크메르어 데이터를 기반으로 한 기술 수요를 충족시킬 수 있고, 풍부한 캄보디아 관련 정보의 제공을 통해, 한국 기업의 현지 시장 진출과 빠른 현지화를 지원함
    ● 크메르어 초거대 AI 말뭉치 데이터를 구축하고 모델을 학습함으로써 크메르어를 이해하는 능력을 향상시킬 수 있게 되고 이를 활용하여 문화 교류 및 관광 분야에서 캄보디아의 문화적 특성, 관용어 및 자연스러운 표현 방식 등에 대한 AI LLM모델의 이해의 수준을 높일 수 있음

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ○ 데이터 설명
    -  크메르어에 대한 대규모 말뭉치 구축 (1억 어절 이상)
    -  캄보디아의 문화, 규범, 관습, 예절에 대한 구조화된 데이터 구축
    -  한국어, 영어, 크메르어 언어를 포함한 3개 국가 언어로 구축
    -  Instruction tuning방식으로 LLM모델의 성능을 높이기 위한 Instruction QA 데이터 구축
    -  문화적 맥락을 고려한 대화 생성 능력 평가를 위한 성능평가 데이터 구축

     

    ○ 데이터 형태 및 포맷

    ○ 데이터 형태 및 포맷
    구축 공정 전처리/데이터 수집 데이터 정제 데이터 가공 데이터 검사
    데이터 구분 원시데이터 원천데이터 라벨링데이터 검사 후 데이터
    데이터 형태 • 크메르어 말뭉치 텍스트 파일
    • 속성정보 파일
    • 크메르어 말뭉치 텍스트 파일
    • 메타정보(csv)
    • 크메르어 말뭉치 텍스트 파일
    • 메타정보(json)
    • Instruction Q/A 데이터
    • AI성능평가 데이터
    • 크메르어 말뭉치 텍스트 파일
    • 메타정보(json)
    • Instruction Q/A 데이터
    • AI성능평가 데이터
    데이터 포맷 텍스트(txt)
    속성정보(csv)
    텍스트(txt)
    메타정보(csv)
    텍스트(txt)
    메타정보(json)
    텍스트(txt)
    메타정보(json)

     

    ○ 라벨링 데이터 어노테이션 명세

    ○ 라벨링 데이터 어노테이션 명세
    어노테이션 방법 주요 어노테이션
    속성
    속성 설명 라벨링
    데이터 포맷
    태깅
    (Tagging)
    • data_type • 자료유형(저서, 논문, 기사, 기타 ) JSON
    • data_sources • 자료출처(링크,문서 등)
    • copyrighter_ko • 저작권 소유자(한글)
    • copyrighter_km • 저작권 소유자(크메르어)
    • writer_ko • 저작자(한글)
    • writer_km • 저작자(크메르어)
    • word_count • 어절수
    분류
    (Class Labeling)
    • topic_km • 원본 번역 자료의 주제 (크메르어 표기)
    • topic_ko • 원본 번역 자료의 주제 (한글표기)
    • topic_en • 원본 번역 자료의 주제 (영어표기)
    번역
    (Machine Translation)
    • title_ko • 원본 번역 자료의 제목 (한글표기)
    • text_ko • 원본 번역 자료의 내용 (한글표기)
    • title_en • 원본 번역 자료의 제목 (영어표기)
    • text_en • 원본 번역 자료의 내용 (영어표기)
    질의/답변
    (Sequence Labeling)
    • instruction • Instruction tuning data 질문(Instruction)
    • input • 질문참조 추가정보(input)
    • output • 답변(output)

     

    ○ 라벨링 데이터 어노테이션 포맷(말뭉치 데이터)

    ○ 라벨링 데이터 어노테이션 포맷(말뭉치 데이터)
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 dataset String 필수 데이터셋 글로벌 문화규범 데이터(크메르어)
    2 version String 필수 데이터셋 버전 1
    3 document_id String 필수 고유식별자 101_03_240822_02451
    4 created_date String 필수 텍스트 생성 일자 20240822
    5 issue_date String 필수 발행 일자 20200705
    6 writer_ko String 선택 저작자(한국어) VOA
    7 writer_km String 선택 저작자(크메르어) ចែករំលែក
    8 copyrighter_ko String 선택 저작권 소유자(한국어) VOA
    9 copyrighter_km String 선택 저작권 소유자(크메르어) ចែករំលែក
    10 origin_extension String 필수 원본 파일 형태 html
    11 data_sources String 필수 데이터 출처 https://khmer.voanews.com/a/villagers-worry-about-compensation-as-g..
    12 data_type String 필수 자료유형 기사
    13 word_count Number 필수 어절수 4000
    14 file_size String 필수 파일 사이즈 40KB
    15 encoding_type String 필수 인코딩 타입 UTF-8
    16 data_km Object 필수 크메르어 데이터  
      16-1 topic_km String 필수 주제 분류(크메르어) សេដ្ឋកិច្ចនយោបាយ
      16-2 keyword_km String 필수 키워드(크메르어) យោបាយ
      16-3 title_km String 필수 텍스트 제목(크메르어) ពលរដ្ឋបារម្ភអំពីសំណងមិនសមរម្យ ខណៈកម្ពុជាពន្លឿនគម្រោងព្រែកជីកហ្វូណន
      16-4 text_km String 필수 텍스트 내용(크메르어) "រដ្ឋាភិបាលកម្ពុជាអះអាងថាគម្រោងព្រែកជី...[중략]
    17 data_ko String 필수 한국어 데이터  
      17-1 topic_ko String 필수 주제 분류(한국어) 정치/경제
      17-2 keyword_ko String 필수 키워드(한국어) 정책
      17-3 title_ko String 필수 텍스트 제목(한국어) 캄보디아 푸난 운하 프로젝트 가속화로 시민들, 부적절한 보상 우려
      17-4 text_ko String 필수 텍스트 내용(한국어) 캄보디아 정부는 운하 프로젝트가...[중략]
    18 data_en String 필수 영어 데이터  
      18-1 topic_en String 필수 주제 분류(영어) medai/article
      18-2 keyword_en String 필수 키워드(영어) police
      18-3 title_en String 필수 텍스트 제목(영어) Citizens Concerned Over...
      18-4 text_en String 필수 텍스트 내용(영어) The Cambodian government ,...[중략]

    ● 라벨링 데이터 예시(말뭉치데이터, JSON)

    {
        "dataset": "글로벌 문화규범 데이터(크메르어)",
        "version": "1.0",
        "document_id": "02_001_240910_00006",
        "worker_id": "001",
        "created_date": "20240910",
        "issue_date": "20240910",
        "writer_ko": "관광부",
        "writer_kh": "ក្រសួងទេសចរណ៍",
        "copyrighter_ko": "관광부",
        "copyrighter_sw": "ក្រសួងទេសចរណ៍",
        "origin_extension": "HTML",
        "data_sources": "https://tourismcambodia.org/blog/about-cambodia/geography-1546847541",
        "data_type": "문서",
        "word_count": "469",
        "file_size": "5.05kb",
        "encoding_type": "UTF-8",
        "data_kh": {
            "topic_kh": " ប្រវត្តិសាស្រ្ត/ភូមិសាស្ត្រ/ទេសចរណ៍",
            "keyword_kh": "ភូមិសាស្ត្រ, ប្រវត្តិសាស្រ្ត",
            "title_kh": "ភូមិសាស្ត្រ",
            "text_kh": "ព្រះរាជាណាចក្រ  កម្ពុជា អតីតកម្ពុជា គឺជាប្រជាជាតិអាស៊ីអាគ្នេយ៍ ដែលមានព្រំប្រទល់ជាប់ប្រទេសថៃ ឡាវ វៀតណាម និងឈូងសមុទ្រថៃ។ រាជធានីគឺ ភ្នំពេញ។ ផែនទី ប្រទេសកម្ពុជា ស្ថិតនៅភាគនិរតីនៃឧបទ្វីបឥណ្ឌូចិន ប្រទេសកម្ពុជាមានផ្ទៃដីសរុប ១៨១.០៣៥ គីឡូម៉ែត្រក្រឡា និងមានព្រំប្រទល់ជាប់ប្រទេសថៃ ខាងលិច និងពាយ័ព្យ លាវ ឦសាន វៀតណាម ខាងកើតឈូងសមុទ្រថៃ ខាងលិចនិរតី។ កូអរដោនេភូមិសាស្ត្ររបស់ប្រទេសកម្ពុជាគឺ 13 00 N, 105 00 E. ផ្ទៃដីប្រទេសកម្ពុជាភាគច្រើនជាវាលទំនាប មានភ្នំនៅភាគនិរតី និងខាងជើង។ លក្ខណៈរូបវន្តសំខាន់ពីររបស់ប្រទេសកម្ពុជា គឺទន្លេមេគង្គដែលហូរពីខាងជើងទៅខាងត្បូងនៃប្រទេស និងបឹងទន្លេសាប។ ធនធានធម្មជាតិរួមមាន ប្រេង និងឧស្ម័ន ឈើ ត្បូង រ៉ែដែក ម៉ង់ហ្គាណែស ផូស្វាត សក្តានុពលវារីអគ្គីសនី។ ចំនួនប្រជាជន ប្រជាជនកម្ពុជាមានប្រមាណ ១៦ លាននាក់។ កៅសិបភាគរយនៃអ្នកស្រុកជាជនជាតិខ្មែរ។ នៅសល់គឺចាម (ខ្មែរឥស្លាម), ចិន, វៀតណាម, ឥណ្ឌា, ថៃ, ព្នង, កួយ, ស្ទៀង, តាមីល ។ល។ ដង់ស៊ីតេប្រជាជនគឺ 78/km2 ។ អាកាសធាតុ ដូចតំបន់អាស៊ីអាគ្នេយ៍ភាគច្រើនដែរ អាកាសធាតុរបស់ប្រទេសកម្ពុជាគឺក្តៅ និងកក់ក្តៅស្ទើរតែពេញមួយឆ្នាំ។ អាកាសធាតុត្រូវបានគ្របដណ្តប់ដោយវដ្តរដូវវស្សាប្រចាំឆ្នាំនៃរដូវវស្សា និងប្រាំង។ រដូវវស្សាមានរយៈពេលពីខែឧសភាដល់ខែតុលា ហើយរដូវប្រាំងចាប់ពីខែវិច្ឆិកាដល់ខែមេសា។ ខែធ្នូ ដល់ខែមករា គឺជាខែដែលត្រជាក់បំផុត ចំណែកខែដែលក្តៅបំផុតគឺនៅខែមេសា។ សីតុណ្ហភាពជាមធ្យមគឺប្រហែល ២៧-២៨ អង្សាសេ។ ទង់ជាតិ ទង់ជាតិកម្ពុជាតំណាងឱ្យពាក្យស្លោករបស់ប្រទេសជាតិ សាសនា ព្រះមហាក្សត្រ។ ឆ្នូត​ពណ៌​ខៀវ​ធំ​ពីរ​តំណាង​ឱ្យ​រាជវង្ស ហើយ​ឆ្នូត​ក្រហម​កណ្តាល​តំណាង​ឱ្យ​ជាតិ ។ រូបភាពនៃប្រាសាទពណ៌សតំណាងឱ្យសាសនារបស់ប្រទេសជាតិ។ ផ្កាជាតិ ផ្ការំដួល​តូច​ពណ៌​លឿង ជា​ផ្កា​ជាតិ​នៃ​ព្រះរាជាណាចក្រ​កម្ពុជា។ តាំងពីបុរាណកាលមក ស្ត្រីខ្មែរតែងតែត្រូវបានគេប្រៀបធៀបទៅនឹងផ្ការំដួល ដោយសារតែក្លិនក្រអូបទាក់ទាញ។ ក្លិនក្រអូបពិសេសដែលលេចធ្លោនៅពេលរសៀល ហើយអាចធ្វើដំណើរបានឆ្ងាយជាមួយនឹងខ្យល់។ ជាមួយនឹងដើមដ៏រឹងមាំរបស់វាដែលមានប្រវែងរហូតដល់ 30 សង់ទីម៉ែត្រ ដើមរំដួលអាចលូតលាស់ដល់កម្ពស់ 12 ម៉ែត្រ។ រុក្ខជាតិទាំងនេះកំពុងត្រូវបានដាំដើម្បីបង្កើនសួនសាធារណៈ។"
        },
        "data_ko": {
            "topic_ko":"역사/지리/관광",
            "keyword_ko": "지리, 역사",
            "title_ko":"지리학",
            "text_ko":"캄보디아 왕국은 고대 캄보디아로, 태국, 라오스, 베트남과 접경하며 태국만에 인접한 동남아시아 국가입니다. 수도는 프놈펜입니다. 캄보디아의 지도는 인도차이나 반도의 북부에 위치해 있으며, 총 면적은 181,035 평방킬로미터입니다. 캄보디아는 서쪽으로 태국과 접하고, 동쪽으로는 라오스와 베트남, 남쪽으로는 태국만에 인접해 있습니다. 캄보디아의 지리적 좌표는 13°00′N, 105°00′E입니다. 캄보디아의 대부분은 저지대이며, 북부와 북동부에는 산지가 있습니다. 캄보디아의 주요 지형적 특징은 메콩강이 북쪽에서 남쪽으로 흐르고, 톤레삽 호수가 있습니다. 자원으로는 석유와 천연가스, 목재, 고무, 철광석, 망간, 인산염, 수력 발전 잠재력이 있습니다. 인구 캄보디아의 인구는 약 1600만 명입니다. 주민의 대부분은 캄보디아 민족인 크메르족이며, 나머지는 이슬람 크메르족, 중국인, 베트남인, 인도인, 태국인 등입니다. 인구 밀도는 78명/평방킬로미터입니다. 기후 대부분의 동남아시아 지역과 마찬가지로, 캄보디아의 기후는 덥고 고온다습하며 거의 전년 내내 그러합니다. 기후는 매년 우기와 건기로 나뉘어 있습니다. 우기는 5월부터 10월까지 지속되며, 건기는 11월부터 4월까지입니다. 12월과 1월은 가장 추운 달이며, 4월은 가장 더운 달입니다. 평균 기온은 약 27-28도입니다. 국기 캄보디아 국기는 국가의 슬로건과 종교, 왕권을 상징합니다. 두 개의 큰 파란색 띠는 왕조를, 중앙의 빨간 띠는 국가를 상징합니다. 백색의 앙코르 와트 이미지는 국가의 종교를 상징합니다. 국화 캄보디아의 국화는 노란색의 롯나우 꽃입니다. 고대부터 캄보디아 여성들은 롯나우 꽃에 비유되어 왔으며, 그 향기가 매혹적입니다. 이 특별한 향기는 오후에 더욱 두드러지며 바람을 타고 멀리 퍼질 수 있습니다. 강한 줄기를 가진 이 식물은 최대 30센티미터까지 자라며, 높이는 12미터에 이를 수 있습니다. 이 식물들은 공공 정원을 위해 재배되고 있습니다."
        },
        "data_en": {
            "topic_en":" History/Geography/Tourism",
            "keyword_en": "Geography, History",
            "title_en":"Geography",
            "text_en":"The Kingdom of Cambodia, formerly known as Ancient Cambodia, is a Southeast Asian nation bordered by Thailand, Laos, Vietnam, and the Gulf of Thailand. The capital is Phnom Penh. The country of Cambodia is located in the northern part of the Indochina Peninsula, covering a total area of 181,035 square kilometers. It shares borders with Thailand to the west and northwest, Laos to the north, and Vietnam to the east and south. The geographical coordinates of Cambodia are 13°00′N, 105°00′E. The terrain of Cambodia consists mainly of lowland plains, with mountains in the northwest and north. Two significant geographical features of Cambodia are the Mekong River, which flows from north to south through the country, and the Tonle Sap Lake. Natural resources include oil and natural gas, timber, rubber, iron ore, manganese, phosphate, and hydroelectric potential. Population The population of Cambodia is approximately 16 million people. The majority are of Khmer ethnicity, while the rest include Cham (Muslim Khmer), Chinese, Vietnamese, Indian, Thai, Phnong, Kuy, Stieng, and Tamils. The population density is 78 people per square kilometer. Climate Like most of Southeast Asia, Cambodia's climate is hot and humid almost year-round. The weather is characterized by a yearly cycle of monsoon and dry seasons. The monsoon season lasts from May to October, while the dry season runs from November to April. December and January are the coldest months, while April is the hottest. The average temperature is about 27-28 degrees Celsius. National Flag The national flag of Cambodia represents the motto of the nation, religion, and monarchy. The two large blue stripes symbolize the royal family, while the central red stripe represents the nation. The image of the white temple symbolizes the country's religion. National Flower The yellow rattan flower is the national flower of the Kingdom of Cambodia. Since ancient times, Khmer women have often been compared to the rattan flower due to its attractive fragrance. This special scent becomes prominent in the afternoon and can travel far with the wind. With a sturdy stem that can grow up to 30 centimeters, the rattan can reach heights of 12 meters. These plants are being cultivated to enhance public gardens."
        }
    }

     

    ○ 라벨링 데이터 어노테이션 포맷(InstructionQA 데이터)

    ○ 라벨링 데이터 어노테이션 포맷(InstructionQA 데이터)
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 document_id String 필수 고유식별자 101_03_240813_01084
    2 topic_km String 필수 주제 분류(크메르어) វប្បធម៌/សិល្បៈ/ការអប់រំ
    3 topic_ko String 필수 주제 분류(한국어) 문화/예술/교육
    4 qa_type String 필수 질의응답 유형(한국어) 선택형
    5 instruction String 필수 질문 តើប៉ែន រ៉ន ជានរណា?
    6 input String 선택 참조하거나 사용해야 할 추가적인 정보 -
    7 output String 필수 답변 លោកគឺជាសិល្បករកម្ពុជាដែលមានប្រជាប្រិយភាពបំផុតទីពីរនៃទសវត្សរ៍ឆ្នាំ ១៩៦០ បន្ទាប់ពីរស់ សេរីសុទ្ធា

    ● 라벨링 데이터 예시(InstructionQA 데이터, JSON)

        "document_id": "02_001_240910_00006",
        "topic_sw": "ប្រវត្តិសាស្រ្ត/ភូមិសាស្ត្រ/ទេសចរណ៍",
        "topic_ko": "역사/지리/관광",
        "instruction": "តើក្រុមជនជាតិមួយណាដែលមានចំនួន 90% នៃប្រជាជនកម្ពុជា?",
        "input": "ជនជាតិខ្មែរ, ជនជាតិតាមិល, ជនជាតិព្នង, ជនជាតិគួយ",
        "output": "ជនជាតិខ្មែរ"

     

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(MMLU))

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(MMLU))
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 dataset String 필수 데이터셋 크메르어 규범 문화 데이터
    2 version String 필수 데이터셋 버전 1
    3 text_url String 필수 텍스트파일의 URL MMLU/05.과학/의학
    4 task String 필수 태스크명 MMLU
    5 document_id String 필수 고유식별자 205_03_240830_00541
    6 question_id String 필수 언어 이해력 ID MLU_KM_00135
    7 question String 필수 질문 "តើលោហធាតុខាងក្រោមមួយណាជាលោហធាតុអាល់កាឡាំងផែនដី?
    8 options String 필수 선택항목 [“Al”,”Mg”,”Cu”,”Fe”]
    9 answer String 필수 답변 B
    10 answer_index String 필수 답변 인덱스 1
    11 cot_content String 필수 답변에 대한 설명 ផ្អែកលើព័ត៌មានពីប្រភពស្រាវជ្រាវ លោហធាតុអាល់កាឡាំងផែនដីរួមមានៈ Mg (ម៉ាញ៉េស្យូម)

    ● 라벨링 데이터 예시(성능평가 데이터(MMLU), JSON)

       "dataset": "크메르어 규범 문화 데이터",
       "version": "1.0",
       "text_url": "MMLU/02.역사및지리및관광",
       "task": "MMLU",
       "document_id": ["02_001_240910_00006"],
       "question_id": "MLU_KM_00113",
       "question": "តើរបស់មួយណាដែលមិនមែនជានិមិត្តរូបនៃទង់ជាតិកម្ពុជា?",
       "options": ["ប្រទេស","សាសនា","ស្តេច","ប្រជាជន"],
       "answer": "D",
       "answer_index": 4,
       "cot_content": “ទង់ជាតិកម្ពុជាតំណាងឱ្យពាក្យស្លោករបស់ប្រទេសជាតិ សាសនា ព្រះមហាក្សត្រ។ ឆ្នូត​ពណ៌​ខៀវ​ធំ​ពីរ​តំណាង​ឱ្យ​រាជវង្ស ហើយ​ឆ្នូត​ក្រហម​កណ្តាល​តំណាង​ឱ្យ​ជាតិ ។ រូបភាពនៃប្រាសាទពណ៌សតំណាងឱ្យសាសនារបស់ប្រទេសជាតិ។"

     

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(HellaSwag))

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(HellaSwag))
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 dataset String 필수 데이터셋 크메르어 규범 문화 데이터
    2 version String 필수 데이터셋 버전 1
    3 text_url String 필수 텍스트파일의 URL HellaSwag/07.관습/의례
    4 task String 필수 태스크명 HellaSwag
    5 document_id String 필수 고유식별자 307_03_240910_00341
    6 question_id String 필수 언어 이해력 ID HLS_KM_01408
    7 activity String 필수 행동설명 ដុតនំខូឃី
    8 question_a String 필수 질문 문장 ចុងភៅស្រីក្នុងឯកសណ្ឋានពណ៌ស ណែនាំខ្ទះដុតនំដាក់ជង់ក្នុងផ្ទះបាយធំមួយ។
    9 question_b String 필수 답변 시작 정보 ពង្រីក
    10 question String 선택 질문 ចុងភៅស្រីក្នុងឯកសណ្ឋានពណ៌ស ណែនាំខ្ទះដុតនំដាក”…[중략]]
    11 options Array 필수 선택항목 [“វាមានស៊ុត”…[중략]]
    12 answer String 필수 답변 C
    13 answer_index Number 필수 답변 인덱스 2

    ● 라벨링 데이터 예시(성능평가 데이터(HellaSwag), JSON)

       "dataset": "크메르어 규범 문화 데이터",
       "version": "1.0",
       "text_url": "HellaSwag/02.역사및지리및관광",
       "task": "HellaSwag",
       "document_id": ["02_001_240910_00006"],
       "question_id": "HLS_KM_00110",
       "activity": "ការប្រៀបធៀបផ្កាតំណាងជាតិខ្មែរ",
       "question_a": "ផ្ការំដួល​ជា​ផ្កា​តូច​ពណ៌​លឿង ដែល​ជា​ផ្កាតំណាង​ជាតិ​នៃ​ព្រះរាជាណាចក្រ​កម្ពុជា។ តាំងពីបុរាណកាលមក ស្ត្រីខ្មែរតែងតែត្រូវបានគេប្រៀបធៀបទៅនឹងផ្ការំដួល។",
       "question_b": "មូលហេតុនោះគឺ",
       "question": "ផ្ការំដួល​ជា​ផ្កា​តូច​ពណ៌​លឿង ដែល​ជា​ផ្កា​ជាតិ​នៃ​ព្រះរាជាណាចក្រ​កម្ពុជា។ តាំងពីបុរាណកាលមក ស្ត្រីខ្មែរតែងតែត្រូវបានគេប្រៀបធៀបទៅនឹងផ្ការំដួល។ មូលហេតុនោះគឺ",
       "options": ["ដោយសារ​បុរស​ខ្មែរ​រឹងមាំ។","ដោយសារ​តែ​ខ្មែរ​ស្អប់​ផ្កា។","ដោយសារតែក្លិនដ៏ទាក់ទាញនៃផ្កា។","​ដោយសារ​តែ​ផ្កា​នេះ​ត្រូវ​បាន​គេ​យក​មក​ធ្វើ​ជា​តែ​យកមកទទួលទាន។"],
       "answer": "C",
       "answer_index": 3

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜딥로딩
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    오승묵 02-568-2035 smoh@deeploading.com 품질책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜인사이트정보 데이터 수집, 정제, 가공, 검수
    (주)아시안허브 데이터 수집, 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    양재규 02-568-2035 jaekural@insightinfo.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    오승묵 02-568-2035 smoh@deeploading.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    양재규 02-568-2035 jaekural@insightinfo.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.