BETA 동남아시아 고품질 OCR 데이터
- 분야지식재산
- 유형 이미지
- 생성 방식LMM
※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-06-05 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-06-05 산출물 최종 공개 소개
태국어와 캄보디아어(크메르어)의 복잡한 문자 구조를 정밀하게 인식할 수 있도록 구축된 고품질 OCR 데이터는 저자원 언어 환경에서 문서 디지털화와 병기 번역, LLM 학습까지 가능한 핵심적인 역할을 하도록 구축함.
구축목적
ㅇ 초거대 AI 시대, 동남아 언어 데이터 확보 ㅇ 동남아 손글씨 자료 AI 활용 기반 마련
-
메타데이터 구조표 데이터 영역 지식재산 데이터 유형 이미지 데이터 형식 png 데이터 출처 자체수집 라벨링 유형 바운딩박스(이미지) 라벨링 형식 json 데이터 활용 서비스 ㅇ 교육 분야 - 태국어·캄보디아어 학습 자료의 디지털화 및 전자 교재 개발 - OCR 기반 언어 학습 지원 시스템 구축 - 다국어 교육 플랫폼에서 학습자 맞춤형 콘텐츠 제공 ㅇ 연구 분야 - 저자원 언어 OCR 성능 검증 및 알고리즘 개선 연구 - 자동 번역 모델 및 Cross-lingual QA 태스크 고도화 - LMM(Language Model with Multimodal capabilities) 언어 이해·추론·생성 능력 강화 연구 ㅇ 산업 분야 - 행정·금융·물류 문서 자동 처리 및 전자화 서비스 - 전자상거래 플랫폼 내 상품 정보·영수증 자동 인식 - 핀테크 및 모바일 서비스에서 디지털 신원 확인 및 보안 강화 ㅇ 글로벌 분야 - 국제 협력 연구 및 다국어 AI 서비스 확장 - 글로벌 번역·검색·정보 접근성 향상 - 동남아시아 시장 진출 기업의 현지화 서비스 지원 데이터 구축년도/
데이터 구축량2025년/ㅇ 원천데이터 321,210건 26-31 동남아시아 고품질 OCR 데이터 321,210장 (태국어 : 162,220장, 캄보디아어 : 158,990장) ㅇ 라벨링 데이터 321,210건 26-31 동남아시아 고품질 OCR 데이터 321,210장 (태국어 : 162,220장, 캄보디아어 : 158,990장) -
▶ 데이터 구축 규모
▶ 데이터 구축 규모 RFP 제시량 원시데이터 수량 원천데이터 수량 라벨링 데이터 수량 비율 : 100% 비율 : 200% 비율 : 160% 비율 : 160% . 손글씨 이미지 20만 장 이상
. 텍스트 라벨링 20만 건 이상
. QA셋 1만 개 이상. 손글씨 이미지 40만 장 이상 . 전처리 이미지 32만장 이상
(321,210장). 라벨링 텍스트32만장 이상 (321,210장)
. QA셋 1.6만 개▶ 데이터 분포
▶ 데이터 분포 항목 세부 분류 비율(%) 연령대 초등학생 (10~12세) 25.20% 중·고등학생 (13~18세) 29.74% 성인1 (19~29세) 20.30% 성인2 (30~49세) 24.76% 직업군 학생군 54.94% 일반 사무직 및 교직자 25.12% 판매/서비스/생산직 19.93% 수기 도구
(필기 도구)연필 34.96% 볼펜 35.06% 싸인펜/형광펜 등 굵은 필기구 10.02% 디지털펜 19.95% 종이 유형 줄노트 39.97% 무지 30.02% A4 문서 양식 30.01% 수집 방식 스캔 80.05% 디지털펜 19.95% 문장길이 단문(20~30단어) 43.13% 중문(31~40단어) 39.50% 장문(41단어 이상) 17.37% 주제별 가족 관계 표현 4.90% 감정 표현 4.94% 건강/병원 관련 5.75% 시간/날짜 표현 5.09% 실생활 장소 표현 4.84% 공공 안내문 표현 4.45% 쇼핑/가격 관련 4.96% 음식/요리 표현 5.63% 명령문 표현 5.73% 의문문 표현 8.21% (SNS포함) 고유명사/지명 표현 0.00% 교육/학습 표현 4.59% 교육기관 표현 4.69% 교통/이동 표현 3.93% 전화/통신 표현 4.29% 정부/제도 표현 4.60% 직업/노동 표현 4.38% 여행/관광 표현 4.79% 날씨/계절 표현 5.14% 취미/자기소개 표현 4.85% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 손-글씨 OCR 인식
○ 임무 정의
- 손-글씨 OCR 인식
ㅇ 태국어/캄보디아어 손글씨 OCR 인식(Recongnition)○ 임무 선정 사유
- 모델의 OCR 인식 텍스트와 정답 전사(GT)를 문자 단위로 정렬해 CER (Character Error Rate)을 산출하여 인식 성능을 검증○ 학습 모델 개발 환경
- 학습 환경: Amazon Linux, Python, Pytorch, GPU
- 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
- 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
- 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정○ 최종 선정 모델
- Qwen3-VL-8B-Instruct
- Hugging Face 사이트로부터 다운로드 가능
[ Qwen/Qwen3-VL-8B-Instruct 모델 ]
○ 학습 데이터 생성
- 학습 데이터 분할(8:1:1 로 분할)
* train – 전처리 이미지, 라벨링json
* valid – 전처리 이미지, 라벨링json
* test - 전처리 이미지, 라벨링.json○ AI 모델 성능
○ AI 모델 성능 AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과 총 구축량 학습(80%) 평가(10%) 손-글씨 OCR 인식-태국어 Qwen3-VL-8B-Instruct 손-글씨 이미지 154,220 건
캡션기준 154,220 건캡션기준
123,376 건캡션기준
15,422 건CER 17% 이하 7.74% 손-글씨 OCR 인식-캄보디아어 Qwen3-VL-8B-Instruct 손-글씨 이미지 150,991 건
캡션기준 150,991 건캡션기준
120,793 건캡션기준
15,100 건CER 17% 이하 3.43% 2. - 손-글씨 기반 질의응답
○ 임무 정의
- 손-글씨 기반 질의응답
ㅇ 손글씨 작성 문서 기반 질의응답
ㅇ 이미지 포함 현지어 손글씨 문서 기반 질의응답○ 임무 선정 사유
- 평가용 테스트셋을 4지선다형(MCQA)으로 구성하고, 모델이 생성한 응답을 보기 4개와 비교해 가장 높은 유사도를 갖는 선택지를 최종 답으로 선택하여 최종 선택지의 정오 여부를 기반으로 F1-score를 산출○ 학습 모델 개발 환경
- 학습 환경: Amazon Linux, Python, Pytorch, GPU
- 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
- 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
- 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정○ 최종 선정 모델
- Qwen3-8B
- Hugging Face 사이트로부터 다운로드 가능
[ Qwen/Qwen3-8B 모델 ]
○ 학습 데이터 생성
- 학습 데이터 분할(8:1:1 로 분할)
* train – 전처리 이미지, 라벨링json
* valid – 전처리 이미지, 라벨링json
* test - 전처리 이미지, 라벨링.json○ AI 모델 성능
○ AI 모델 성능 AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과 총 구축량 학습(80%) 평가(10%) 손-글씨 기반 질의응답-태국어 Qwen3-VL-8B-Instruct 손-글씨 이미지 8,000 건
캡션기준 8,000 건캡션기준
6,400 건캡션기준
800 건F1 Score 75% 이상 77.78% 손-글씨 기반 질의응답-캄보디아어 Qwen3-VL-8B-Instruct 손-글씨 이미지 150,991 건
캡션기준 150,991 건캡션기준
6,400 건캡션기준
800 건F1 Score 60% 이상 66.18% 3. 손-글씨 자동번역
○ 임무 정의
- 손-글씨 자동번역
ㅇ 태국어/캄보디아어 손글씨 자동 번역(현지어 -> 한국어)○ 임무 선정 사유
- 생성된 번역문과 정답 번역문을 문장 단위로 비교한 뒤, SentencePiece 기반 서브워드 토크나이저를 적용하여 토큰화하고, spBLEU 지표를 사용해 토큰 기반 유사도를 정량적으로 산출○ 학습 모델 개발 환경
- 학습 환경: Amazon Linux, Python, Pytorch, GPU
- 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
- 모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
- 성능 지표 결과를 통해 가장 성능이 우수한 모델로 최종 선정○ 최종 선정 모델
- Qwen3-8B
- Hugging Face 사이트로부터 다운로드 가능
[ Qwen/Qwen3-8B 모델 ]
○ 학습 데이터 생성
- 학습 데이터 분할(8:1:1 로 분할)
* train – 전처리 텍스트, 라벨링json
* valid – 전처리 텍스트, 라벨링json
* test - 전처리 텍스트, 라벨링.json○ AI 모델 성능
○ AI 모델 성능 AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과 총 구축량 학습(80%) 평가(10%) 손-글씨 자동번역-태국어 Qwen3-8B 텍스트 25,134 건 캡션기준 캡션기준 spBLEU 35 이상 58.01 캡션기준 25,134 건 20,107 건 2,514 건 손-글씨 자동번역-캄보디아어 Qwen3-8B 텍스트 28,629 건 캡션기준 캡션기준 spBLEU 30 이상 53.18 캡션기준 28,629 건 28,629 건 2,864 건 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드▶ 데이터 구성
▶ 데이터 구성 구분 획득/수집 단계 정제 단계 가공 단계 데이터 구분 원시데이터 원천데이터 라벨링데이터 데이터 형태 이미지 정제 이미지 바운딩 박스(이미지) ▶ 어노테이션 포맷
○ 일반 라벨링 데이터(QA 제외)▶ 어노테이션 포맷 ○ 일반 라벨링 데이터(QA 제외) 구분 속성명 타입 필수
여부설명 범위 비고 1 basic_info object Y 기본정보 1.1 image_id string Y 이미지 고유 식별자 1.2 language string Y 데이터 언어 "TH", "KH" 1.3 full_text_korean string Y 병기될 한국어 번역문 1.4 full_text_local string Y 라벨링된 태국어 원문 1.5 subject string Y 문장 주제 "가족 관계", "감정", "건강/병원", "시간/ 날짜", "실생활 장소", "공공 안내문", "쇼핑 /가격", "음식/요리", "명령문", "의문문", "고유명사/지명", "교육/학습", "교육기관", "교통/이동", "전화 /통신", "정부/제도", "직업/노동", "여행/관광", "날씨/계절", "취미/자기소개" 2 metadata object Y 메타데이터 2.1 writer_info object Y 작성자 정보 2.1.1 age_group string Y 작성자 연령대 "A1","A2","A3","A4" 2.1.2 gender string Y 작성자 성별 "남성", "여성" 2.1.3 job_group string Y 작성자 직업군 "학생군", "사무직", "현장직" 2.2 environment_info object 작성환경 2.2.1 writing_tool string Y 사용 필기구 "연필", "볼펜", "싸인펜", "디지털펜" 2.2.2 paper_type string Y 사용 종이 유형 "줄노트", "무지", "A4 문서 양식" 2.3 source_info 수집방식 2.3.1 collection_method string Y 데이터 수집 방식 "스캔", "디지털펜" 2.3.2 image_resolution string Y 이미지 해상도 스캔: 300dpi 이상, 디지털펜: "1587*2245" 2.3.3 capture_date string N 원본 수집 일자 3 annotations object Y 어노테이션 3.1 bbox object Y BBox 정보 3.1.1 sentence_text string Y 문장 전체 텍스트 3.1.2 sentence_box array Y 문장 바운딩 박스 [x1, y1, x2, y2] 3.1.3 words array Y 단어 단위 라벨링 3.1.3.1 word_text string Y 단어 텍스트 3.1.3.2 word_box array Y 단어 바운딩 박스 [x1, y1, x2, y2] ○ QA 라벨링 데이터
▶ 어노테이션 포맷 ○ QA 라벨링 데이터 구분 속성명 타입 필수 여부 설명 범위 비고 1 basic_info object Y 기본정보 1.1 image_id string Y 이미지 고유 식별자 1.2 language string Y 데이터 언어 "TH", "KH" 1.3 full_text_korean string Y 병기될 한국어 번역문 1.4 full_text_local string Y 라벨링된 태국어 원문 1.5 subject string Y 문장 주제 "가족 관계", "감정", "건강/병원", "시간/ 날짜", "실생활 장소", "공공 안내문", "쇼핑 /가격", "음식/요리", "명령문", "의문문", "고유명사/지명", "교육/학습", "교육기관", "교통/이동", "전화 /통신", "정부/제도", "직업/노동", "여행/관광", "날씨/계절", "취미/자기소개" 2 metadata object Y 메타데이터 2.1 writer_info object Y 작성자 정보 2.1.1 age_group string Y 작성자 연령대 "A1","A2","A3","A4" 2.1.2 gender string Y 작성자 성별 "남성", "여성" 2.1.3 job_group string Y 작성자 직업군 "학생군", "사무직", "현장직" 2.2 environment_info object 작성환경 2.2.1 writing_tool string Y 사용 필기구 "연필", "볼펜", "싸인펜", "디지털펜" 2.2.2 paper_type string Y 사용 종이 유형 "줄노트", "무지", "A4 문서 양식" 2.3 source_info 수집방식 2.3.1 collection_method string Y 데이터 수집 방식 "스캔", "디지털펜" 2.3.2 image_resolution string Y 이미지 해상도 스캔: 300dpi 이상, 디지털펜: "1587*2245" 2.3.3 capture_date string N 원본 수집 일자 3 annotations object Y 어노테이션 3.1 bbox object Y BBox 정보 3.1.1 sentence_text string Y 문장 전체 텍스트 3.1.2 sentence_box array Y 문장 바운딩 박스 [x1, y1, x2, y2] 3.1.3 words array Y 단어 단위 라벨링 3.1.3.1 word_text string Y 단어 텍스트 3.1.3.2 word_box array Y 단어 바운딩 박스 [x1, y1, x2, y2] 4 qa_set object Y QA셋 정보 4.1 turn_type string Y 질의응답 유형 “none”, "single-turn", "multi-turn" 4.2 raw_data object Y 인풋 데이터 정보 4.2.1 story_local string Y 현지어 입력값 4.2.2 story_korean string Y 한국어 번역 4.3 first_turn object Y 첫 번째 턴 정보 4.3.1 turn_id number Y 턴ID 4.3.2 questions object Y 질문 정보 4.3.2.1 input_text string Y 질문 (현지어) 4.3.2.2 input_text_korean string Y 질문 (한국어) 4.3.3 answers object Y 대답 정보 4.3.3.1 span_start number Y 4.3.3.2 span_end number Y 4.3.3.3 span_text string Y 4.3.3.4 input_text array Y 대답 (현지어) 배열 4.3.3.5 input_text_korean array Y 대답 (한국어) 배열 4.4 second_turn object N 두 번째 턴 정보 4.4.1 turn_id number N 턴ID 4.4.2 questions object N 질문 정보 4.4.2.1 input_text string N 질문 (현지어) 4.4.2.2 input_text_korean string N 질문 (한국어) 4.4.3 answers object N 대답 정보 4.4.3.1 span_start number N 4.4.3.2 span_end number N 4.4.3.3 span_text string N 4.4.3.4 input_text array N 대답 (현지어) 배열 4.4.3.5 input_text_korean array N 대답 (현지어) 텍스트 ▶ 데이터 포맷
▶ 데이터 포맷 원시데이터 원천데이터 라벨링데이터 .png .png .json ▶ 실제 예시
○ 원시데이터 예시
○ 원천데이터 예시

<원천데이터 예시1_태국어>

<원천데이터 예시2_캄보디아어>
○ 라벨링데이터 예시(.json)
{ "basic_info": {
"image_id": "KH_D_A1_00007.png",
"language": "KH",
"full_text_korean": "많은 사람들이 일상생활에서 가고 싶어하는 곳은 학교입니다. 왜냐하면 학교에서 새로운 지식을 얻고 지적 능력을 향상시킬 수 있기 때문입니다.",
"full_text_local": "កន្លែងដែលមនុស្សច្រើនចូលចិត្តទៅក្នុងជីវិតប្រចាំថ្ងៃគឺសាលារៀន ព្រោះនៅទីនោះពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួនបាន។",
"subject": "실생활 장소"
},
"metadata": {
"writer_info": {
"age_group": "A1",
"gender": "여성",
"job_group": "학생군"
},
"environment_info": {
"writing_tool": "디지털펜",
"paper_type": "줄노트"
},
"source_info": {
"collection_method": "디지털펜",
"image_resolution": "300dpi",
"capture_date": "2025-08-12"
}
},
"annotations": {
"bbox": {
"sentence_text": "កន្លែងដែលមនុស្សច្រើនចូលចិត្តទៅក្នុងជីវិតប្រចាំថ្ងៃគឺសាលារៀន ព្រោះនៅទីនោះពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួនបាន។",
"sentence_box": [
44.10042936960856,
21.13645494249132,
2346.963762702942,
627.153121609158
],
"words": [
{
"word_text": "កន្លែង",
"word_box": [
[
56.53154048071967,
55.32201049804687,
305.1537627029419,
251.11201049804686
]
]
},
...
]
}
},
"qa_set": {
"turn_type": "multi_turn",
"raw_data": {
"story_local": "កន្លែងដែលមនុស្សច្រើនចូលចិត្តទៅក្នុងជីវិតប្រចាំថ្ងៃគឺសាលារៀន ព្រោះនៅទីនោះពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួនបាន។",
"story_korean": "많은 사람들이 일상생활에서 가고 싶어하는 곳은 학교입니다. 왜냐하면 학교에서 새로운 지식을 얻고 지적 능력을 향상시킬 수 있기 때문입니다."
},
"first_turn": {
"turn_id": 1,
"questions": {
"input_text": "មនុស្សច្រើនចូលចិត្តទៅកន្លែងណា?",
"input_text_korean": "많은 사람들이 가고 싶어하는 곳은 어디인가요?"
},
"answer": {
"span_start": 0,
"span_end": 40,
"span_text": "សាលារៀន",
"input_text": [
"សាលារៀន",
"សាលារៀន"
],
"input_text_korean": [
"학교",
"학교"
]
}
},
"second_turn": {
"turn_id": 2,
"questions": {
"input_text": "តើហេតុអ្វីបានជាសាលារៀនគឺកន្លែងដែលមនុស្សច្រើនចូលចិត្ត?",
"input_text_korean": "왜 학교가 많은 사람들이 좋아하는 곳인가요?"
},
"answer": {
"span_start": 41,
"span_end": 99,
"span_text": "ទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញា",
"input_text": [
"ពួកគេអាចទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញារបស់ខ្លួន",
"ទទួលបានចំណេះដឹងថ្មីៗ និងបង្កើនសមត្ថភាពបញ្ញា"
],
"input_text_korean": [
"새로운 지식을 얻고 지적 능력을 향상시킬 수 있기 때문입니다.",
"새로운 지식을 습득하고 지적 역량을 키우다"
]
}
}
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜유핏
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김희곤 1544-9730 koscokim@ufits.co.kr 사업총괄 관리, 데이터 수집, 가공, 검수, 저작도구 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜피씨엔 데이터 정제 ㈜도스트11 AI학습모델 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 ㈜유핏 안동철 070-4012-1836 ceo@ufits.co.kr ㈜유핏 김희곤 070-4012-1836 koscokim@ufits.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 ㈜도스트11 양효걸 070-4012-1836 amadeus@mbc.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 ㈜유핏 안동철 070-4012-1836 ceo@ufits.co.kr ㈜유핏 김희곤 070-4012-1836 koscokim@ufits.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의