※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다.
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
글쓰기 자동 평가 및 피드백 모델 개발을 위한 데이터 구축을 통해 교육 개혁에 따른 창의력 및 문제해결력 중심의 평가 혁신을 위한 주제별 평가의 효율적 수행 기반 체계 확보
구축목적
ㅇ 자동화된 평가 및 피드백 서비스 제공 ㅇ 맞춤형 학습 플랫폼 개발 및 서비스
-
메타데이터 구조표 데이터 영역 교육 데이터 유형 텍스트 데이터 형식 txt 데이터 출처 자체수집 라벨링 유형 글쓰기 채점, 피드백 라벨링 형식 json 데이터 활용 서비스 글쓰기 자동 평가 및 피드백 할 수 있는 기술개발에 활용 데이터 구축년도/
데이터 구축량2024년/ㅇ 원천데이터 20,000건 14-027 주제별 글쓰기 평가 20,000건 ㅇ 라벨링 데이터 20,000건 14-027 주제별 글쓰기 평가 20,000건 -
▶ 데이터 구축 규모
▶ 데이터 구축 규모 데이터명 RFP 제시량 원천데이터 수량 라벨링 데이터
수량RFP
대비14-027
주제별 글쓰기
- 대중 수요가 높은 글쓰기 주제별 작문 데이터 1만 건 이상
- 2인 이상의 전문가가 평가한 데이터 1만 건 이상- 글쓰기 데이터 20,000건
- 평가한 데이터 40,000건
- 피드백 데이터 20,000건20,000건 200% ▶ 데이터 분포
-학년(나이)별 데이터 수와 작성자 비율▶ 데이터 분포-학년(나이)별 데이터 수와 작성자 비율 구분 학년(나이) 데이터 수 비중 14-027
주제별 글쓰기성인 20~40대 10,000 50% 성인 40대 이상 10,000 50% 총계 20,000 100% - 교과 주제별 난이도별 수량
▶ 데이터 분포- 교과 주제별 난이도별 수량 데이터셋 학년 교과주제 난이도 합계 상 중 하 14-027
주제별 글쓰기구분 인문 사회 역사 과학 문화 계 설명 500 500 500 1,000 500 3,000 설득 2,000 3,000 3,000 2,000 3,000 13,000 친교및정서 1,500 500 500 500 1,000 4,000 계 4,000 4,000 4,000 3,500 4,500 20,000 소계 20% 20% 20% 17.50% 22.50% 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드▶ AI학습모델 개요
▶ AI학습모델 개요 AI모델 task AI모델 성능 지표 및 목표값 Data I/O 채점 평가 Llama 3.1 f1 score 0.6 Input data : 질문, 답변, 평가지표 output data : 평가점수 그림 4 Llama 3.1 Model Architecture
※ 이미지 출처 : https://gradientflow.com/llama-3-1-open-weights-ai- Llama 3.1은 Llama 계열 중 최근에 발표된 모델로 오픈소스 모델이며 좋은 성능을 보여주고 있습니다. - Llama 3.1은 표준 디코더 전용 트랜스포머 모델을 기반으로 하되, 학습 안정성을 극대화하기 위해 일부 수정을 가했습니다. 특히 전문가 혼합(Mixture of Experts) 모델 대신 단일 모델 구조를 채택하여 학습의 안정성을 높였습니다. - 사전 학습 및 후처리 과정에서 데이터의 양과 질을 모두 개선했습니다. 더 신중한 전처리 파이프라인과 엄격한 품질 보증 과정을 거쳐 고품질의 데이터만을 사용했습니다. - 지도 학습 미세 조정(Supervised Fine-Tuning)과 직접 선호도 최적화(Direct Preference Optimization)를 반복적으로 적용하는 후처리 기법을 도입했습니다. 이를 통해 각 능력의 성능을 점진적으로 향상시켰습니다. - 해당 모델의 인코더만을 사용한 후 뒤에 헤더를 붙여 채점 모델로 사용합니다. AI모델 task AI모델 성능 지표 및 목표값 Data I/O 피드백 생성 Llama 3.1 Perplexity 학습 전후 10%이상감소 Input data : 질문, 답변, 평가지표 output data : 피드백 그림 5 Llama 3.1 Model Architecture
※ 이미지 출처 : https://gradientflow.com/llama-3-1-open-weights-ai- Llama 3.1은 Llama 계열 중 최근에 발표된 모델로 오픈소스 모델이며 좋은 성능을 보여주고 있습니다. - Llama 3.1은 표준 디코더 전용 트랜스포머 모델을 기반으로 하되, 학습 안정성을 극대화하기 위해 일부 수정을 가했습니다. 특히 전문가 혼합(Mixture of Experts) 모델 대신 단일 모델 구조를 채택하여 학습의 안정성을 높였습니다. - 사전 학습 및 후처리 과정에서 데이터의 양과 질을 모두 개선했습니다. 더 신중한 전처리 파이프라인과 엄격한 품질 보증 과정을 거쳐 고품질의 데이터만을 사용했습니다. - 지도 학습 미세 조정(Supervised Fine-Tuning)과 직접 선호도 최적화(Direct Preference Optimization)를 반복적으로 적용하는 후처리 기법을 도입했습니다. 이를 통해 각 능력의 성능을 점진적으로 향상시켰습니다. - 해당 모델의 디코더를 이용하여 피드백 생성을 진행합니다. ▶ AI모델 평가 결과 지표
▶ AI모델 평가 결과 지표 클래스 구분 평가지표 목표 검증 결과 14-027 주제별글쓰기 채점 평가 f1 score 0.6 이상 0.95 / 달성 피드백 생성 perplexity 학습 전후 10% 이상 감소 19.67% 감소 / 달성 ▶ 유효성 검증 모델의 학습 미 검증 조건
▶ 유효성 검증 모델의 학습 미 검증 조건 유효성 검증 모델 학습 및 검증 조건 CPU Intel® Xeon® Gold 6226R Processor Memory 256GB GPU NVIDIA A100 80GB PCIe * 2 Storage 1TB OS Ubuntu 20.04 개발언어 Python 3.8.10 프레임워크 CUDA 12.2, Pytorch 2.5.1 학습알고리즘 transformer 학습조건 epoch = 60, batch_size = 1, optimizer = AdamW 파일 형식 원천 데이터셋 텍스트 (CSV) 라벨링 데이터셋 텍스트 (JSON) 전체 구축 데이터 대비 모델에 적용 비율 14-027 주제별 글쓰기 평가 데이터 총 수량: 20,003건 (100%) 모델 학습 과정별 데이터 분류 및 비율 정보 14-027 주제별 글쓰기 평가 데이터 - Training Set: 16,001건 (80%) - Validation Set: 2,000건 (10%) - Test Set: 2,002건 (10%) -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드▶ 데이터 구성
▶ 데이터 구성 구분 획득/수집 단계 정제 단계 가공 단계 데이터 구분 원시데이터 원천데이터 라벨링데이터 데이터 형태 이미지 파일,TXT파일 CSV JSON ▶ 어노테이션 포맷
14-027 주제별 글쓰기 평가 데이터▶ 어노테이션 포맷 14-027 주제별 글쓰기 평가 데이터 색상 표기 색상 표기 내용 AI 학습용 입력 데이터 정량 평가용 AI 학습 정답 데이터 정성 평가용 AI 학습 정답 데이터 메타 데이터 ▶ 어노테이션 포맷 14-027 주제별 글쓰기 평가 데이터 구분 속성명 타입 필수여부 설명 범위 비고 1 essay_question object Y 에세이 지시문 정보 - 1.1 id string Y 지시문의 아이디 A01 1.2 type string Y 지시문의 유형 주제별 글쓰기 1.3 subject string Y 주제 인문,사회,역사, 과학, 문화 1.4 purpose string Y 에세이의 목적 설명, 설득, 친교 및 정서 1.5 level string Y 지시문의 난이도 상, 중, 하 1.6 grade string Y 대상 연령 20~30대, 40대 이상 1.7 prompt string Y 지시문 한글의 우수성 ... 1.8 len_syllable int Y 지시문의 음절수 143 1.9 len_word int Y 지시문의 어절수 36 1.1 essay_answer object Y 에세이 답변 정보 - 2 id string Y 답변 아이디 S01 2.1 region string Y 지역 경기도 수원시... 2.2 gender string Y 답변자 성별 남, 여 2.3 reference string Y 답변 수집 출처 온라인 경진대회 2.4 text string Y 답변 야민정음은... 2.5 len_syllable int Y 답변의 음절수 1500자 이상 132 2.6 len_word int Y 답변의 어절수 30 2.7 feature dictionary Y 채점 자질 {문장수:4, 형용사:3, ...} 2.8 feature dictionary Y 채점 자질 {문장수:4, 형용사:3, ...} 가공 데이터 명세(공통)
▶ 어노테이션 포맷 가공 데이터 명세(공통) 구분 속성명 타입 필수 여부 설명 범위 비고 3 expert object Y 전문가 정보 - 3.1 score object Y 점수 측정 전문가 - 3.1.1 votes_1 object Y 전문가 1 - 3.1.1.1 id string Y 전문가 1 아이디 V01 3.1.1.2 gender string Y 전문가 1 성별 남, 여 3.1.1.3 age int Y 전문가 1 나이 46 3.1.1.4 career int Y 전문가 1 경력 2 3.1.2 votes_2 object Y 전문가 2 - 3.1.2.1 id string Y 전문가 2 아이디 V02 3.1.2.2 gender string Y 전문가 2 성별 남, 여 3.1.2.3 age int Y 전문가 2 나이 36 3.1.2.4 career int Y 전문가 2 경력 2 3.2 feedback object Y 피드백 전문가 - 3.2.1 votes_1 object Y 피드백 전문가 1 - 3.2.1.1 id string Y 아이디 V03 3.2.1.2 gender string Y 성별 남, 여 3.2.1.3 age int Y 나이 49 3.2.1.4 career int Y 경력 2 4 score object Y 평가 - 4.1 personal object Y 전문가 평가 - 4.1.1 holistic object Y 전문가 총체적 평가 - 4.1.1.1 score array Y 정량적 평가 1, 2, 3, 4, 5 [1, 4] 4.1.1.2 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.1.3 len_syllable int Y 피드백 음절수 70 4.1.1.4 len_word int Y 피드백 어절수 13 4.1.1.5 min_syllable int Y 피드백 최소 음절수 37 4.1.1.6 total_word int Y 피드백 어절수 합산 130 4.1.2 analytic object Y 전문가 분석적 평가 - 4.1.2.1 task_1 object Y 과제 토픽 1 - 4.1.2.1.1 score array Y 정량적 평가 [1, 4] 4.1.2.1.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.1.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.1.4 len_syllable int Y 피드백 음절수 70 4.1.2.1.5 len_word int Y 피드백 어절수 13 4.1.2.2 content_1 object Y 내용 토픽 1 - 4.1.2.2.1 score array Y 정량적 평가 [1, 4] 4.1.2.2.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.2.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.2.4 len_syllable int Y 피드백 음절수 70 4.1.2.2.5 len_word int Y 피드백 어절수 13 4.1.2.3 content_2 object Y 내용 토픽 2 - 4.1.2.3.1 score array Y 정량적 평가 [1, 4] 4.1.2.3.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.3.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.3.4 len_syllable int Y 피드백 음절수 70 4.1.2.3.5 len_word int Y 피드백 어절수 13 4.1.2.4 content_3 object Y 내용 토픽 3 - 4.1.2.4.1 score array Y 정량적 평가 [1, 4] 4.1.2.4.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.4.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.4.4 len_syllable int Y 피드백 음절수 70 4.1.2.4.5 len_word int Y 피드백 어절수 13 4.1.2.5 organization_1 object Y 조직 토픽 1 - 4.1.2.5.1 score array Y 정량적 평가 [1, 4] 4.1.2.5.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.5.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.5.4 len_syllable int Y 피드백 음절수 70 4.1.2.5.5 len_word int Y 피드백 어절수 13 4.1.2.6 organization_2 object Y 조직 토픽 2 - 4.1.2.6.1 score array Y 정량적 평가 [1, 4] 4.1.2.6.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.6.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.6.4 len_syllable int Y 피드백 음절수 70 4.1.2.6.5 len_word int Y 피드백 어절수 13 4.1.2.7 expression_1 object Y 표현 토픽 1 - 4.1.2.7.1 score array Y 정량적 평가 [1, 4] 4.1.2.7.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.7.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.7.4 len_syllable int Y 피드백 음절수 70 4.1.2.7.5 len_word int Y 피드백 어절수 13 4.1.2.8 expression_2 object Y 표현 토픽 2 - 4.1.2.8.1 score array Y 정량적 평가 [1, 4] 4.1.2.8.2 rubric_key string Y 관련 루브릭 키 A-00Z-1A-2A 4.1.2.8.3 feedback string Y 정성적 평가 글을 체계적으로.. 4.1.2.8.4 len_syllable int Y 피드백 음절수 70 4.1.2.8.5 len_word int Y 피드백 어절수 13 5 rubric object Y 루브릭 - 5.1 type string Y 루브릭 타입 서술형, 논술형... 5.2 purpose string Y 루브릭 목적 정보전달, 친교... 5.3 achievement string Y 해당 성취 기준 해당 성취 기준 5.4 analytic object Y 분석적 루브릭 - 5.4.1 task_1 object Y 과제 토픽 1 - 5.4.1.1 name string Y 과제 토픽 1 과제수행의 충실성 5.4.1.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.1.3 evaluation_1 string Y 1점 평가 기준 5.4.1.4 evaluation_2 string Y 2점 평가 기준 5.4.1.5 evaluation_3 string Y 3점 평가 기준 5.4.1.6 evaluation_4 string Y 4점 평가 기준 5.4.1.7 evaluation_5 string Y 5점 평가 기준 5.4.2 content_1 object Y 내용 토픽 1 - 5.4.2.1 name string Y 내용 토픽 1 설명의 명료성 5.4.2.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.2.3 evaluation_1 string Y 1점 평가 기준 5.4.2.4 evaluation_2 string Y 2점 평가 기준 5.4.2.5 evaluation_3 string Y 3점 평가 기준 5.4.2.6 evaluation_4 string Y 4점 평가 기준 5.4.2.7 evaluation_5 string Y 5점 평가 기준 5.4.3 content_2 object Y 내용 토픽 2 - 5.4.3.1 name string Y 내용 토픽 2 설명의 구체성 5.4.3.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.3.3 evaluation_1 string Y 1점 평가 기준 5.4.3.4 evaluation_2 string Y 2점 평가 기준 5.4.3.5 evaluation_3 string Y 3점 평가 기준 5.4.3.6 evaluation_4 string Y 4점 평가 기준 5.4.3.7 evaluation_5 string Y 5점 평가 기준 5.4.4 content_3 object Y 내용 토픽 3 - 5.4.4.1 name string Y 내용 토픽 3 설명의 적절성 5.4.4.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.4.3 evaluation_1 string Y 1점 평가 기준 5.4.4.4 evaluation_2 string Y 2점 평가 기준 5.4.4.5 evaluation_3 string Y 3점 평가 기준 5.4.4.6 evaluation_4 string Y 4점 평가 기준 5.4.4.7 evaluation_5 string Y 5점 평가 기준 5.4.5 organization_1 object Y 조직 토픽 1 - 5.4.5.1 name string Y 조직 토픽 1 문장의 연결성 5.4.5.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.5.3 evaluation_1 string Y 1점 평가 기준 5.4.5.4 evaluation_2 string Y 2점 평가 기준 5.4.5.5 evaluation_3 string Y 3점 평가 기준 5.4.5.6 evaluation_4 string Y 4점 평가 기준 5.4.5.7 evaluation_5 string Y 5점 평가 기준 5.4.6 organization_2 object Y 조직 토픽 2 - 5.4.6.1 name string Y 조직 토픽 2 글의 통일성 5.4.6.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.6.3 evaluation_1 string Y 1점 평가 기준 5.4.6.4 evaluation_2 string Y 2점 평가 기준 5.4.6.5 evaluation_3 string Y 3점 평가 기준 5.4.6.6 evaluation_4 string Y 4점 평가 기준 5.4.6.7 evaluation_5 string Y 5점 평가 기준 5.4.7 expression_1 object Y 표현 토픽 1 - 5.4.7.1 name string Y 표현 토픽 1 어휘의 적절성 5.4.7.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.7.3 evaluation_1 string Y 1점 평가 기준 5.4.7.4 evaluation_2 string Y 2점 평가 기준 5.4.7.5 evaluation_3 string Y 3점 평가 기준 5.4.7.6 evaluation_4 string Y 4점 평가 기준 5.4.7.7 evaluation_5 string Y 5점 평가 기준 5.4.8 expression_2 object Y 표현 토픽 2 - 5.4.8.1 name string Y 표현 토픽 2 어법의 정확성 5.4.8.2 rubric_key string Y 루브릭 키 A-00Z-1A-2A 5.4.8.3 evaluation_1 string Y 1점 평가 기준 5.4.8.4 evaluation_2 string Y 2점 평가 기준 5.4.8.5 evaluation_3 string Y 3점 평가 기준 5.4.8.6 evaluation_4 string Y 4점 평가 기준 5.4.8.7 evaluation_5 string Y 5점 평가 기준 ▶ 데이터 포맷
▶ 데이터 포맷 원시데이터 원천데이터 라벨링데이터 글쓰기 원고 (txt) 글쓰기 정제 데이터 (CSV) JSON 메타 데이터 (xls) 메타 데이터 (CSV) ▶ 실제예시
- 원시데이터 예시그림 1 원시데이터 예시
- 원천데이터 예시
▶ 실제예시- 원천데이터 예시 글쓰기 지시문 과학의 발전이 사회적 불평등을 해소할 수 있을까요? 글쓴이 정보 나이: 20~40대 / 지역: 서울 / 성별: 남 / 출처: 리딩엠 지시문 정보 1,500자 이상 / 글쓴이 답변 과학의 발전이 사회적 불평등을 해소할 수 있을지에 대해 생각해보았습니다. 과학이란 우리의 질문에 대한 답을 찾는 도구입니다. 어떻게 보면 끊임없이 발전하는 과학은 우리가 과거에 상상조차 하지 못했던 방식으로 삶을 변화시켜왔죠. 그중에서도 기술의 발전은 사람들이 생활하는 데 있어 많은 편리함을 가져다주기도 했고, 동시에 새로운 고민거리를 만들어내기도 했습니다. 과학의 발전은 무조건적인 선인지, 또는 그저 도구인지, 이에 대한 해답은 매우 복잡합니다. 물론, 과학은 우리에게 여러 가지 혜택을 가져다주었습니다. 우리는 병을 덜어내고, 더 건강하게 살 수 있게 되었습니다. 우리는 지식을 넓힐 수 있게 되었고, 그 지식을 바탕으로 사회를 더욱 발전 시킬 수 있게 되었습니다. 하지만, 과학의 발전이 반드시 사회적 불평등을 해소하는데 도움이 될까요. 일부분에서는 그럴 수 있지만, 전체적으로 보았을 때는 반드시 그렇지 않습니다. 과학기술 발전이 양극화를 가속화 하는 경향이 있습니다. 고기술력을 활용할 수 있는 자본가나 기업들은 더욱 더 비싼 가치를 창출해내고, 이는 경제적 불평등을 가중시키는 결과를 초래합니다. 또한, 과학기술 발전이 주요 도시나 개발도상국에 집중되는 경향이 있습니다. 이로 인해 도시와 지방, 발전국과 개발도상국 간의 차이는 점점 커지고 있습니다. 이런 불평등이 복잡하고 상호연관된 구조 속에서 발생하므로, 단순히 과학의 발전을 이용해 해결할 수 있는 문제는 아닙니다. 과학의 발전만으로는 사회적 불평등을 완전히 해소하기는 어렵습니다. 사람들이 더 나은 삶을 살 수 있도록 돕는 것은 과학의 발전뿐만 아니라, 사회적, 경제적, 정치적 요인들이 복합적으로 작용하여 이루어져야 하는 일입니다. 그렇다면, 우리는 과학의 발전을 어떻게 사회에 도입할 것인지, 그 과정에서 불평등을 최소화하는 방안을 어떻게 마련할 것인지에 대해 깊이 생각해볼 필요가 있습니다. 사회적 불평등 해소의 중요한 부분은 과학기술의 발전이 사회 전반에 공정하게 퍼져나가도록 하는 것이라고 생각합니다. 이는 우리 모두의 과제일 것입니다 . 과학의 발전이 사회적 불평등을 해소할 수 있을지에 대한 의문은 오래된 주제입니다. 왜냐하면 과학과 기술의 발전이 항상 복지 증진과 공평성 보장, 그리고 사회적 불평등 감소에 긍정적인 영향을 끼쳤다고 보기는 어렵기 때문입니다. 과학적 전문가들, 기술의 힘을 통해 문제를 해결하려는 사람들, 그리고 사회 변혁을 추구하는 사람들 모두가 이 주제에 대해 다양한 견해를 가지고 있습니다. 과학의 발전이 만약 사회적 불평등을 해소할 수 있다면, 그 이유는 어떤 것일까요. 우리는 이를 이해하기 위해 일단 기본적인 사항부터 시작해야 합니다. 과학은 사회를 변화시키는 중요한 도구입니다. 그리고 이 도구는 올바르게 사용될 경우, 질병을 치료하고, 더 나은 삶을 위한 기회를 제공하며, 인류를 위한 새로운 경로를 개척할 수 있습니다. 이런 면에서 볼 때, 과학과 기술의 발전은 분명히 사회적 불평등을 줄일 수 있는 능력을 갖고 있다고 할 수 있습니다. 그러나, 과학의 발전이 언제나 사회적 불평등을 해결하는 것은 아닙니다. 사실, 때로는 과학과 기술의 발전이 불평등을 더욱 심화시키기도 합니다. 인공 지능나 자동화 기술의 발전은 일부 사람들에게는 큰 도움이 될 수 있지만, 다른 사람들에게는 일자리를 잃게 만드는 원인이 될 수 있습니다. 따라서 과학의 발전이 사회적 불평등을 해소할 수 있다는 주장은 복잡한 문제입니다. 과학이 제공하는 혜택은 모두에게 평등하게 분배되지 않기 때문입니다. 과학과 기술의 발전이 사회의 모든 면에서 공평성을 보장하거나 불평등을 해소하리라는 보장은 없습니다. 물론, 과학의 발전이 사회적 불평등을 해결하는 방안으로 간주될 수는 있습니다. 그러나 이를 가능하게 하려면, 과학 기술의 이익이 사회 전반에 공평하게 분배되는 방식을 찾아야 합니다. 이는 과학자들, 정치가들, 그리고 일반 시민들이 함께 노력해야 이루어질 수 있는 일입니다. 과학과 기술이 사회적 불평등을 해결하는 도구가 될 수 있으려면, 그 이익을 모두가 공유하는 사회를 만들어야 할 것입니다. 이는 우리 모두가 함께 도전하고, 그 방법을 찾아가는 과정에서 우리 모두의 필요한 역량이며, 이를 위해 과학과 사회, 그리고 우리 모두가 함께 노력하고 나아가야 할 길입니다 . - 라벨링데이터 예시(json)
그림 2 라벨링데이터 예시 1
그림 3 라벨링데이터 예시 2
-
데이터셋 구축 담당자
수행기관(주관) : ㈜유핏
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김희곤 1544-9730 koscokim@ufits.co.kr 사업총괄 관리, 데이터 가공, 검수, 저작도구 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜리딩엠 글쓰기 데이터 획득/수집 메가스터디교육(주) AI학습모델 밸류웨이(주) 데이터 정제 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 ㈜유핏 안동철 070-4012-1836 ceo@ufits.co.kr ㈜유핏 김희곤 070-4012-1836 koscokim@ufits.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 메가스터디교육(주) 최의진 02-3489-8619 hoiuijin1125@megastudy.net 메가스터디교육(주) 손동협 02-3489-8619 acer@megastudy.net 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 ㈜유핏 안동철 070-4012-1836 ceo@ufits.co.kr ㈜유핏 김희곤 070-4012-1836 koscokim@ufits.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.