콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#말뭉치 # 초거대AI # 탄자니아 # 스와힐리어 # 서비스진출 # Instruction Q/A 데이터셋 # 문화 # 규범 # 관습 # 예절 #자연어 #문화

BETA 탄자니아(스와힐리어) 규범 문화 말뭉치 데이터

탄자니아(스와힐리어) 규범 문화 말뭉치 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 98 다운로드 : 4 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-16 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-16 산출물 전체 공개

    소개

    초거대AI에 적합한 탄자니아 문화·규범·문화·관습·예절 관련 학습데이터 구축 과제로서
    - 스와힐리어 말뭉치 학습데이터 1억 어절 이상 (영어, 한국어 번역본도 구축)
    - 스와힐리어 InstructionQ/A, AI성능평가 데이터 구축

    구축목적

    - 비영어권 국가와의 협력 및 해외진출을 위해 탄자니아의 규범·문화·관습·예절 등을 학습할 수 있는 데이터 구축
    - 탄자니아 문화,규범,관습을 담은 말뭉치데이터와 LLM개발을 통하여 탄자니아의 AI모델 성능 향상과 기술 발전에 기여
  • ○ 데이터 구축 규모

    ○ 데이터 구축 규모
    구분 건수 어절
    말뭉치데이터 247,490 105,312,248
    InstructionQA 데이터 5,000 -
    성능평가데이터 2,000 -
    합계 254,490 105,312,248

    ● 주제 대분류별 구축 규모

    ○ 데이터 구축 규모 ● 주제 대분류별 구축 규모
    No 구분 수량(건) 비율(%)
    1 문화 64,384 26.01
    2 규범 175,433 70.88
    3 관습 1,808 0.73
    4 예절 5,865 2.37
    합계 247,490 100.00

    ● 주제 중분류별 구축 규모

    ○ 데이터 구축 규모 ● 주제 중분류별 구축 규모
    No 구분 수량(건) 비율(%)
    1 문화/예술/교육 31,069 12.55
    2 역사/지리/관광 9,500 3.84
    3 스포츠/기타 23,815 9.62
    4 사회/산업 80,886 32.68
    5 정치/경제 70,731 28.58
    6 과학/의학 23,816 9.62
    7 관습/의례 1,808 0.73
    8 일상생활/음식 5,865 2.37
    합계 247,490 100.00

     

    ○ 데이터 분포
    ● 자료 유형별 분포: 저서, 논문, 기사, 문서, 직접작성, 기타

    ○ 데이터 분포 ● 자료 유형별 분포: 저서, 논문, 기사, 문서, 직접작성, 기타
    No 구분 수량(건) 비율(%)
    1 저서 1,422 0.57
    2 논문 103 0.04
    3 기사 233,362 94.29
    4 문서 6,752 2.73
    5 직접작성 3,094 1.25
    6 기타 2,757 1.11
    합계 247,490 100.00

    ● 스와힐리어 어절 수 분포

    ○ 데이터 분포 ● 스와힐리어 어절 수 분포
    No 구분 수량(건) 비율(%)
    1 100이하 2,947 1.19
    2 101~200 42,556 17.20
    3 201~300 54,649 22.08
    4 301~400 46,582 18.82
    5 401~500 31,592 12.76
    6 501~600 21,630 8.74
    7 601~700 14,196 5.74
    8 701~800 9,965 4.03
    9 801~900 6,906 2.79
    10 901~1000 4,990 2.02
    11 1000초과 11,477 4.64
    합계 247,490 100.00

    ● 한국어 어절 수 분포

    ○ 데이터 분포 ● 한국어 어절 수 분포
    No 구분 수량(건) 비율(%)
    1 100이하 17,717 7.16
    2 101~200 72,462 29.28
    3 201~300 64,242 25.96
    4 301~400 37,333 15.08
    5 401~500 21,031 8.5
    6 501~600 13,231 5.35
    7 601~700 8,024 3.24
    8 701~800 4,893 1.98
    9 801~900 3,042 1.23
    10 901~1000 1,852 0.75
    11 1000초과 3,663 1.48
    합계 247,490 100.00

    ● 영어 어절 수 분포

    ○ 데이터 분포 ● 영어 어절 수 분포
    No 구분 수량(건) 비율(%)
    1 100이하 2,577 1.04
    2 101~200 35,242 14.24
    3 201~300 51,100 20.65
    4 301~400 47,671 19.26
    5 401~500 32,718 13.22
    6 501~600 22,704 9.17
    7 601~700 15,391 6.22
    8 701~800 11,250 4.55
    9 801~900 7,915 3.2
    10 901~1000 5,663 2.29
    11 1000초과 15,259 6.17
    합계 247,490 100.00

    ● 질의응답 어절 수 분포(instruction)

    ○ 데이터 분포 ● 질의응답 어절 수 분포(instruction)
    No 구분 수량(건) 비율(%)
    1 10이하 116 2.32
    2 11~20 963 19.26
    3 21~30 2,685 53.7
    4 31~40 1,162 23.24
    5 41~50 72 1.44
    6 50초과 2 0.04
    합계 5,000 100.00

    ● 질의응답 어절 수 분포(input)

    ○ 데이터 분포 ● 질의응답 어절 수 분포(input)
    No 소음 환경 수량(건) 비율(%)
    1 100이하 4,907 98.14
    2 101~200 25 0.5
    3 201~300 14 0.28
    4 301~400 14 0.28
    5 401~500 14 0.28
    6 500초과 26 0.52
    합계 5,000 100.00

    ● 질의응답 어절 수 분포(ouput)

    ○ 데이터 분포 ● 질의응답 어절 수 분포(ouput)
    No 구분 수량(건) 비율(%)
    1 100이하 4,884 97.68
    2 101~200 89 1.78
    3 201~300 17 0.34
    4 301~400 8 0.16
    5 401~500 1 0.02
    6 500초과 1 0.02
    합계 5,000 100.00

    ● 질의응답 유형 분포: 선택형, 요약형, 질문답변형

    ○ 데이터 분포 ● 질의응답 유형 분포: 선택형, 요약형, 질문답변형
    No 구분 수량(건) 비율(%)
    1 선택형 4,798 95.96
    2 요약형 107 2.14
    3 질문답변형 95 1.9
    합계 5,000 100.00

    ● 성능 평가 데이터 어절 수 분포(MMLU)

    ○ 데이터 분포 ● 성능 평가 데이터 어절 수 분포(MMLU)
    No 구분 수량(건) 비율(%)
    1 10이하 1,823 65.11
    2 11~20 880 31.43
    3 21~30 92 3.29
    4 31~40 5 0.18
    5 41~50 - -
    6 50초과 - -
    합계 2,800 100.00

    ● 성능 평가 데이터 어절 수 분포(HellaSwag)

    ○ 데이터 분포 ● 성능 평가 데이터 어절 수 분포(HellaSwag)
    No 구분 수량(건) 비율(%)
    1 10이하 600 50
    2 11~20 1 0.08
    3 21~30 97 8.08
    4 31~40 257 21.42
    5 41~50 156 13
    6 50초과 89 7.42
    합계 1,200 100.00
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    <모델학습>
    ● 모델은 GPT-3를 베이스로 하는 Llama-3 8B를 사용하였으며 질문 답변, 번역, 대화, 작문 등 자연어처리 임무에서 높은 품질의 텍스트를 생성 할 수 있는 언어모델로 구축하였다. 모델 학습을 위한 데이터는 전체 1억 어절에 해당하며 주제별로 분류되어 있으며 (문화/예술/교육, 사회/산업, 정치/경제, 종교, 과학/의학, 역사/지리/관광, 일상생활/음식, 스포츠/기타)으로 구성하였고 인스트럭션튜닝을 하도록 각 5,000건의 Instruction Q/A데이터 구축 및 AI 성능평가데이터 각 2,000건을 구축
    ● 전체 데이터로 사전학습을 수행하였고 Instruction Q/A데이터로 파인튜닝을 하여 스와힐리에 적합한 LLM언어모델로 개발함

    데이터 수집 후 데이터 정제-가공하고 LLM모델 Training 이후 테스트/성능측정

    ● LLM모델 AI 성능평가

    ● LLM모델 AI 성능평가
    구분 개요 평가 데이터 / 건수
    언어 이해 스와힐리어 언어 이해 성능평가 MMLU / 1,400건
    상식 추론 스와힐리어 상식 추론 성능평가 HellaSwag / 600건

    ● 데이터셋 분할

    ● 데이터셋 분할
    구분 훈련(Train) 검증(Validation) 시험(Test)
    말뭉치데이터 197,990 24,750 24,750 247,490
    데이터 비율 80% 10% 10% 100%
    InstructionQA데이터 5,000 - - 5,000
    성능평가 데이터 - - 2,000 2,000

     

    <서비스 활용 시나리오>
    ● 아프리카 농촌지도 서비스
      - 아프리카 우간다에서 사용하기 위한 AI 농촌지도서비스 개발
      - 우간다 관계부처, 기관, 대학 대상 사업추진계획 설명 함
      - 농업축산수산부 관계자 면담과 국립농업연구기구 관계자 면담으로 농촌관련 기존 구축한 e-service 업그레이드 및 scale-up을 AI로 제공하는것에 대한 협의 진행 함
      - 마케렐레 대학 총장, 부총장과 협의 회의 및 협조 공문 받음
      - 우간다 월드뱅크 농업 경제 담당자 협의 함

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ○ 데이터 설명
    -  스와힐리어에 대한 대규모 말뭉치 구축 (1억 어절 이상)
    -  탄자니아의 문화, 규범, 관습, 예절에 대한 구조화된 데이터 구축
    -  한국어, 영어, 스와힐리어 언어를 포함한 3개 국가 언어로 구축
    -  Instruction tuning방식으로 LLM모델의 성능을 높이기 위한 Instruction QA 데이터 구축
    -  문화적 맥락을 고려한 대화 생성 능력 평가를 위한 성능평가 데이터 구축

     

    ○ 데이터 형태 및 포맷

    ○ 데이터 형태 및 포맷
    구축 공정 전처리/데이터 수집 데이터 정제 데이터 가공 데이터 검사
    데이터 구분 원시데이터 원천데이터 라벨링데이터 검사 후 데이터
    데이터 형태 • 스와힐리어 말뭉치 텍스트 파일
    • 속성정보 파일
    • 스와힐리어 말뭉치 텍스트 파일
    • 메타정보(csv)
    • 스와힐리어 말뭉치 텍스트 파일
    •  메타정보(json)
    • Instruction Q/A 데이터
    • AI성능평가 데이터
    • 스와힐리어 말뭉치 텍스트 파일
    •  메타정보(json)
    • Instruction Q/A 데이터
    • AI성능평가 데이터
    데이터 포맷 텍스트(txt)
    속성정보(csv)
    텍스트(txt)
    메타정보(csv)
    텍스트(txt)
    메타정보(json)
    텍스트(txt)
    메타정보(json)

     

    ○ 라벨링 데이터 어노테이션 명세

    ○ 라벨링 데이터 어노테이션 명세
    어노테이션 방법 주요 어노테이션
    속성
    속성 설명 라벨링
    데이터 포맷
    태깅
    (Tagging)
    • data_type • 자료유형(저서, 논문, 기사, 기타 ) JSON
    • data_sources • 자료출처(링크,문서 등)
    • copyrighter_ko • 저작권 소유자(한글)
    • copyrighter_sw • 저작권 소유자(스와힐리어)
    • writer_ko • 저작자(한글)
    • writer_sw • 저작자(스와힐리어)
    • word_count • 어절수
    분류
    (Class Labeling)
    • topic_sw • 원본 번역 자료의 주제 (스와힐리어 표기)
    • topic_ko • 원본 번역 자료의 주제 (한글표기)
    • topic_en • 원본 번역 자료의 주제 (영어표기)
    번역
    (Machine Translation)
    • title_ko • 원본 번역 자료의 제목 (한글표기)
    • text_ko • 원본 번역 자료의 내용 (한글표기)
    • title_en • 원본 번역 자료의 제목 (영어표기)
    • text_en • 원본 번역 자료의 내용 (영어표기)
    질의/답변
    (Sequence Labeling)
    • instruction • Instruction tuning data 질문(Instruction)
    • input • 질문참조 추가정보(input)
    • output • 답변(output)

     

    ○ 라벨링 데이터 어노테이션 포맷(말뭉치 데이터)

    ○ 라벨링 데이터 어노테이션 포맷(말뭉치 데이터)
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 dataset String 필수 데이터셋 글로벌 문화규범 데이터(스와힐리어)
    2 version String 필수 데이터셋 버전 1
    3 document_id String 필수 고유식별자 101_03_240820_00001
    4 created_date String 필수 텍스트 생성 일자 20230428
    5 issue_date String 필수 발행 일자 20200705
    6 writer_ko String 선택 저작자(한국어) 한국아프리카학회
    7 writer_sw String 선택 저작자(스와힐리어) Jumuiya ya Kiafrika ya Korea
    8 copyrighter_ko String 선택 저작권 소유자(한국어) 한국아프리카학회
    9 copyrighter_sw String 선택 저작권 소유자(스와힐리어) Jumuiya ya Kiafrika ya Korea
    10 origin_extension String 필수 원본 파일 형태 PDF
    11 data_sources String 필수 데이터 출처 학회보유텍스트
    12 data_type String 필수 자료유형 기사
    13 word_count Number 필수 어절수 4000
    14 file_size String 필수 파일 사이즈 40KB
    15 encoding_type String 필수 인코딩 타입 UTF-8
    16 data_sw Object 필수 스와힐리어 데이터  
      16-1 topic_sw String 필수 주제 분류(스와힐리어) burudani/burudani
      16-2 keyword_sw String 필수 키워드(스와힐리어) mtindo
      16-3 title_sw String 필수 텍스트 제목(스와힐리어) MWANAMITINDO
      16-4 text_sw String 필수 텍스트 내용(스와힐리어) MWANAMITINDO mwenye...[중략]
    17 data_ko Object 필수 한국어 데이터  
      17-1 topic_ko String 필수 주제 분류(한국어) 엔터/오락
      17-2 keyword_ko String 필수 키워드(한국어) 패션
      17-3 title_ko String 필수 텍스트 제목(한국어) MWANAMITINDO
      17-4 text_ko String 필수 텍스트 내용(한국어) 케냐의 유명 모델 Annabel Onyango...[중략]
    18 data_en Object 필수 영어 데이터  
      18-1 topic_en String 필수 주제 분류(영어) entertainment/entertainment
      18-2 keyword_en String 필수 키워드(영어) fashion
      18-3 title_en String 필수 텍스트 제목(영어) MWANAMITINDO
      18-4 text_en String 필수 텍스트 내용(영어) A big-name model in Kenya,...[중략]

    ● 라벨링 데이터 예시(말뭉치데이터, JSON)

    {
        "dataset": "글로벌 문화규범 데이터(스와힐리어)",
        "version": "1.0",
        "document_id": "02_001_240909_00001",
        "created_date": "20240909",
        "issue_date": "20240909",
        "writer_ko": "탄자니아 도도마 지역 본부",
        "writer_sw": "Mkoa wa Dodoma",
        "copyrighter_ko": "탄자니아 도도마 지역 본부",
        "copyrighter_sw": "Mkoa wa Dodoma, Tanzania",
        "origin_extension": "HTML",
        "data_sources": "https://dodoma.go.tz/kongwa",
        "data_type": "문서",
        "word_count": "499",
        "file_size": "2.71kb",
        "encoding_type": "UTF-8",
        "data_sw": {
            "topic_sw": "Historia/Jiografia/Utalii",
            "keyword_sw": "Eneo, Historia, Jiografia",
            "title_sw": "Historia ya Kongwa",
            "text_sw": "Utangulizi:Halmashauriya Wilaya ya Kongwa ni miongoni mwa wilaya saba (7) za mkoa wa Dodoma, ilianzishwa mwaka1996 chini ya sheria  ya Serikali za Mitaa ya mwaka 1982 kifungu Na. 8 naNa. 9. Wilaya ina ukubwa wa eneo la kilometa za mraba 4,041 ambapo eneo linalofaa kwa kilimo naufugaji ni hekta 363,690.Wilaya ina Tarafa 3 za Kongwa, Mlali na Zoissa, Kata 22, Vijiji 87,Vitongoji 383 naMamlaka za miji midogo miwili ya Kongwa na Kibaigwa. Wilaya imepakana na Wilayaya Chamwino upande wa Magharibi; Wilaya ya Gairo (Mkoa wa Morogoro), upande waMashariki; Wilaya ya Mpwapwa upande wa Kusini na kwa upande wa Kaskazini kuna Wilaya ya Kiteto (Mkoa wa Manyara). Kwa mujibu wasensa ya Watu na Makazi ya mwaka 2012 Wilayaina ongezeko la watu laasilimia 2.4; Hivyokwa mwaka 2015 wilayaya Kongwa inakadiriwa kuwa na jumla ya  watu 332,831 ambapowanaume ni 160,225 na wanawake ni 172,606. Aidha,Idadi ya kaya zilizopo kwa sasa ni 61,994. Kaya zinazojihusisha na shughuli za kilimo pamoja na ufugaji ni 55,573 sawa na  90%. Wenyeji wa Wilaya hii ni Wagogo, Wakaguru, na Warangi. Pia kuna makabila mengine ambayo yalihamia toka sehemu mbambali za Tanzania kama vile Wabena, Wanguu, Wakamba na Wamasai ambao walikuja kwa ajili ya shughuli za kilimo na mifugo. Shughuli kuu za kiuchumu zinazofanywa na wakazi wa Wilaya ya Kongwa ni ufugaji wanyama (ng’ombe, mbuzi, kondoo, na punda). Punda hutumika zaidi katika usafirishaji wa mazao. Pia shughuli za kilimo cha mazao ya chakula na biashara mfano mahindi, mtama, uwele, karanga na alizeti. Kujulikana kwa Kongwa: Wilaya ya Kongwa lianza kujulikana katika ramani ya Dunia mwaka 1913 ambapo Shirika la Kidini kutoka Canada ambalo lilijulikana kama Church Missionary Society walipoanza ujenzi wa Chuo cha Ualimu na Theolojia mwaka 1909 katika kijiji cha Mlanga. Lakini kutokana na Vita Kuu ya Kwanza ya Dunia, ujenzi huo ulichukua muda mrefu hivyo kukamilika mwaka 1927. Vifaa vilivyotumika katika kujengea Chuo hicho ni mawe na chokaa iliyochomwa. Chuo kilifundisha taaluma ya Uchungaji (Theolojia), Ualimu na Uuguzi. Wanafunzi waliosoma katika Chuo hicho walitoka sehemu mbalimbali za Tanganyika na Kenya. Miongoni mwa wanafunzi wa kwanza waliosoma katika Chuo hicho ni Mzee Musa Fungo na Yohana Malecela. Wakati wa vita ya Wakoloni baina ya Waingereza na Wajerumani mwaka 1914 – 1918, wanafunzi 12 walisoma katika Chuo hicho walikamatwa na Wajerumani na kupelekwa Zanzibar kuhifadhiwa na vita ilipoisha walirudishwa. Wakazi wengi walioishi katika eneo la Mlanga, wengi wao ni wahamiaji toka sehemu za Berege (Morogoro), Tanga na Iringa na Kiongozi wao kwa kipindi hicho alikuwa anaitwa Chifu Mahinyila. Katika eneo la Mlanga karibu na mlima kuna alama za miguu ya Farasi ambao walipitishwa katika njia hiyo na Wakoloni wakati wa vita."
        },
        "data_ko": {
            "topic_ko":"역사/지리/관광",
            "keyword_ko": "지역, 역사, 지리",
            "title_ko":"고대사",
            "text_ko":"소개: 콩가 지방 자치 단체는 도도마 지역의 7개 지구 중 하나로, 1982년 지방 정부 법 8조 및 9조에 따라 1996년에 설립되었습니다. 이 지구는 4,041제곱킬로미터의 면적을 가지고 있으며 그 중 363,690헥타르는 농업 및 목축에 적합합니다. 이 지구는 콩가, 믈랄리, 조이사 3개의 군, 22개의 구, 87개의 마을, 383개의 햄릿 그리고 콩가와 키바이가와 두 개의 소도시 자치 단체를 포함합니다. 이 지구는 서쪽으로 참위노 지구, 동쪽으로 모로고로 지역의 가이로 지구, 남쪽으로 음파파와 지구, 북쪽으로 마냐라 지역의 키테토 지구와 접하고 있습니다. 2012년 인구 및 주택 센서스에 따르면, 이 지구는 2.4%의 인구 증가율을 보였으며, 이에 따라 2015년에는 콩가 지구의 총 인구가 332,831명으로 추정되며, 그 중 남성은 160,225명, 여성은 172,606명입니다. 현재 61,994가구가 있습니다. 농업 및 축산 활동에 관여하는 가구는 55,573가구로, 90%에 해당합니다. 이 지구의 원주민은 고고족, 카구루족, 랑기족입니다. 또한 베나족, 왕구족, 캄바족, 마사이족 등 탄자니아의 다양한 지역에서 이주해 온 다른 부족들도 있으며, 이들은 농업 및 축산 활동을 위해 이주했습니다. 콩가 지구 주민들의 주요 경제 활동은 가축 사육(소, 염소, 양, 당나귀)입니다. 당나귀는 주로 농작물 운송에 사용됩니다. 또한 옥수수, 수수, 기장, 땅콩, 해바라기 등 식량 및 상업 작물 재배 활동도 이루어집니다. 콩가 지구가 세계 지도에 알려지기 시작한 것은 1913년으로, 캐나다의 교회 선교 협회가 1909년 뭘랑가 마을에 교육 및 신학 대학 건설을 시작했기 때문입니다. 그러나 제1차 세계 대전으로 인해 건설이 오래 걸려 1927년에 완공되었습니다. 이 대학 건설에 사용된 재료는 돌과 태운 석회였습니다. 이 대학은 신학, 교육, 간호를 가르쳤으며, 이 대학에서 공부한 학생들은 탕가니카와 케냐의 다양한 지역에서 왔습니다. 최초의 학생들 중에는 무사 풍고와 요하나 말레셀라가 있습니다. 1914년에서 1918년 사이에 영국과 독일 간의 식민지 전쟁 동안 이 대학에서 공부하던 12명의 학생이 독일군에게 잡혀 잔지바르로 끌려갔다가 전쟁이 끝난 후 돌아왔습니다. 뭘랑가 지역에 거주하는 대부분의 주민들은 베레게(모로고로), 탕가, 이링가 등 다른 지역에서 이주해 온 이민자들이었으며, 당시 그들의 지도자는 치푸 마히닐라로 불렸습니다. 뭘랑가 지역의 산 근처에는 전쟁 당시 식민자들이 사용한 말 발자국이 남아 있습니다."
        },
        "data_en": {
            "topic_en":"History/Geography/Tourism",
            "keyword_en": "Region, History, Geography",
            "title_en":"Ancient history",
            "text_en":"Introduction: Kongwa District Council is among the seven (7) districts of the Dodoma region, established in 1996 under the Local Government Act of 1982, sections 8 and 9. The district covers an area of 4,041 square kilometers, of which 363,690 hectares are suitable for agriculture and livestock. The district comprises three divisions: Kongwa, Mlali, and Zoissa, 22 wards, 87 villages, 383 hamlets, and two small town councils of Kongwa and Kibaigwa. It is bordered by Chamwino District to the West; Gairo District (Morogoro Region) to the East; Mpwapwa District to the South, and Kiteto District (Manyara Region) to the North. According to the 2012 Population and Housing Census, the district had a population growth rate of 2.4%; thus, by 2015, Kongwa District is estimated to have a total of 332,831 people, with 160,225 males and 172,606 females. Currently, there are 61,994 households. Households involved in agricultural and livestock activities number 55,573, which is 90%. The natives of this district are the Gogo, Kaguru, and Rangi people. There are also other tribes that have migrated from various parts of Tanzania, such as the Bena, Wanguu, Kamba, and Maasai, who came for farming and livestock activities. The main economic activities of the residents of Kongwa District are livestock farming (cattle, goats, sheep, and donkeys). Donkeys are mainly used in the transportation of crops. Additionally, farming activities include the cultivation of food and commercial crops such as maize, sorghum, millet, peanuts, and sunflower. Kongwa became known on the world map in 1913 when the Church Missionary Society from Canada began constructing a College of Teaching and Theology in 1909 in the village of Mlanga. However, due to World War I, the construction took a long time to complete, finishing in 1927. The materials used in the construction of the college were stone and lime that was burnt. The college offered training in Theology, Teaching, and Nursing. Students who studied at this college came from different parts of Tanganyika and Kenya. Among the first students were Musa Fungo and Yohana Malecela. During the colonial war between the British and the Germans from 1914 to 1918, twelve students studying at the college were captured by the Germans and taken to Zanzibar for safekeeping, and were returned after the war ended. Most residents living in the Mlanga area were immigrants from Berege (Morogoro), Tanga, and Iringa, and their leader at that time was called Chief Mahinyila. Near the mountain in the Mlanga area, there are footprints of horses that were used by the colonials during the war."
        }
    }

     

    ○ 라벨링 데이터 어노테이션 포맷(InstructionQA 데이터)

    ○ 라벨링 데이터 어노테이션 포맷(InstructionQA 데이터)
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 document_id String 필수 고유식별자 101_03_240820_00001
    2 topic_sw String 필수 주제 분류(스와힐리어) Utamaduni,Sanaa,Elimu
    3 topic_ko String 필수 주제 분류(한국어) 문화/예술/교육
    4 qa_type String 필수 질의응답 유형(한국어) 선택형
    5 instruction String 필수 질문 Nini asili ya neno Afande?
    6 input String 선택 참조하거나 사용해야 할 추가적인 정보 -
    7 output String 필수 답변 Asili ya neno 'afande' ni cheo cha effendi kilichokuwa cheo cha maafisa katika jeshi la Uturuki

    ● 라벨링 데이터 예시(InstructionQA 데이터, JSON)

        "document_id": "02_001_240909_00001",
        "topic_sw": "Historia/Jiografia/Utalii",
        "topic_ko": "역사/지리/관광",
        "qa_type": "선택형",
        "instruction": "Je, 90% ya wakazi wa Wilaya ya Kongwa wanafanya shughuli gani za kiuchumi?",
        "input": "1.Kilimo, 2.Uvuvi, 3.Madini, 4.Sekta nyepesi",
        "output": "1.Kilimo"

     

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(MMLU))

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(MMLU))
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 dataset String 필수 데이터셋 스와힐리어 규범 문화 데이터
    2 version String 필수 데이터셋 버전 1
    3 text_url String 필수 텍스트파일의 URL MMLU/05.과학/의학
    4 task String 필수 태스크명 MMLU
    5 document_id String 필수 고유식별자 205_03_240830_00541
    6 question_id String 필수 언어 이해력 ID MLU_SW_00135
    7 question String 필수 질문 Je, ni metali ip…[중략]
    8 options String 필수 선택항목 [“Al”,”Mg”,”Cu”,”Fe”]
    9 answer String 필수 답변 B
    10 answer_index String 필수 답변 인덱스 1
    11 cot_content String 필수 답변에 대한 설명 Kulingana na Habari…[중략]

    ● 라벨링 데이터 예시(성능평가 데이터(MMLU), JSON)

       "dataset": "스와힐리어 규범 문화 데이터",
       "version": "1.0",
       "text_url": "MMLU/02.역사및지리및관광",
       "task": "MMLU",
       "document_id": ["02_001_240909_00001"],
       "question_id": "MLU_SW_00035",
       "question": “Hii ilitoa fursa kwa mkoa wa Kongwa nchini Tanzania kujulikana duniani kote. Shirika la wamisionari ni la taifa gani?",
       "options": ["Uingereza","Ujerumani","Kanada","Amerika"],
       "answer": "C",
       "answer_index": 3,
       "cot_content": "Wilaya ya Kongwa lianza kujulikana katika ramani ya Dunia mwaka 1913 ambapo Shirika la Kidini kutoka Canada ambalo lilijulikana kama Church Missionary Society walipoanza ujenzi wa Chuo cha Ualimu na Theolojia mwaka 1909 katika kijiji cha Mlanga. Lakini kutokana na Vita Kuu ya Kwanza ya Dunia, ujenzi huo ulichukua muda mrefu hivyo kukamilika mwaka 1927. Vifaa vilivyotumika katika kujengea Chuo hicho ni mawe na chokaa iliyochomwa."

     

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(HellaSwag))

    ○ 라벨링 데이터 어노테이션 포맷(성능평가 데이터(HellaSwag))
    No. 항목명 타입 필수 구분 항목 설명 예시
    1 dataset String 필수 데이터셋 스와힐리어 규범 문화 데이터
    2 version String 필수 데이터셋 버전 1
    3 text_url String 필수 텍스트파일의 URL HellaSwag/07.관습/의례
    4 task String 필수 태스크명 HellaSwag
    5 document_id String 필수 고유식별자 307_03_240910_00341
    6 question_id String 필수 언어 이해력 ID HLS_SW_01408
    7 activity String 필수 행동설명 Vidakuzi vya kuoka
    8 question_a String 필수 질문 문장 Mpishi wa kike…[중략]
    9 question_b String 필수 답변 시작 정보 Panua
    10 question String 선택 질문 Mpishi wa kike…[중략]
    11 options Array 필수 선택항목 [“Ina yolk ya yai na soda”…[중략]]
    12 answer String 필수 답변 C
    13 answer_index Number 필수 답변 인덱스 2

    ● 라벨링 데이터 예시(성능평가 데이터(HellaSwag), JSON)

       "dataset": "스와힐리어 규범 문화 데이터",
       "version": "1.0",
       "text_url": "HellaSwag/02.역사및지리및관광",
       "task": "HellaSwag",
       "document_id": ["02_001_240909_00001"],
       "question_id": "HLS_SW_00105",
       "activity": "Utangulizi wa shughuli za kiuchumi za wakazi wa Wilaya ya Kongwa",
       "question_a": "Shughuli kuu za kiuchumi za wakazi wa Wilaya ya Kongwa ni ufugaji wa mifugo (ng’ombe, mbuzi, kondoo na punda) na kulima mazao ya chakula na biashara kama mahindi, mtama, mtama, karanga na alizeti.",
       "question_b": "Punda hasa",
       "question": "Shughuli kuu za kiuchumi za wakazi wa Wilaya ya Kongwa ni ufugaji wa mifugo (ng’ombe, mbuzi, kondoo na punda) na kulima mazao ya chakula na biashara kama mahindi, mtama, mtama, karanga na alizeti. Punda hasa",
       "options": ["hushindana katika mbio za punda.","hutumiwa kusafirisha mazao.","hutumiwa kwa kujenga nyumba.","hutumiwa kama kiungo cha kutengeneza mkate."],
       "answer": "B",
       "answer_index": 2

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜딥로딩
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    오승묵 02-568-2035 smoh@deeploading.com 품질책임자
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜인사이트정보 데이터 수집, 정제, 가공, 검수
    (사)한국아프리카학회 데이터 수집, 검수
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    양재규 02-568-2035 jaekural@insightinfo.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    오승묵 02-568-2035 smoh@deeploading.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    양재규 02-568-2035 jaekural@insightinfo.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.