※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-16 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-16 산출물 전체 공개 소개
전문 리서처가 구축한, 저작권이 확보된, 적합성이 검증된 키워드 기반의 설문 구성으로 비리서치 전문가도 편리하게 활용 가능한 한국어용 설문 생성 인공지능 학습용 데이터셋
구축목적
본 과제를 통해 전문가가 구축한, 저작권 문제가 해결된 한국어 데이터셋을 기반한 설문 자동 생성 기술 발전을 지원하고, 리서치 산업의 인공지능 신기술 융합 및 적용에 기여하기 위함
-
메타데이터 구조표 데이터 영역 한국어 데이터 유형 텍스트 데이터 형식 json 데이터 출처 ㈜ 코리아리서치인터내셔널 라벨링 유형 Entity, Relation(자연어) 라벨링 형식 json 데이터 활용 서비스 - AI Hub 페이지에 공개하여 누구나 쉽게 데이터를 활용할 수 있는 환경을 마련 - 코리아리서치인터내셔널의 자체 플랫폼인 키위서베이와 PCN의 자체 플랫폼인 앤서니를 활용하여 시범서비스를 배포하여 홍보 진행 예정 데이터 구축년도/
데이터 구축량2024년/원천 데이터: 11,372건, 라벨링 데이터: 97,957건 -
1) 데이터 구축 규모
- 원천 데이터: 11,372건
- 라벨링 데이터: 97,957건2) 데이터 분포
데이터 분포 항목명 결과 설문자 성별 분포 설문자 성별 수량 비율 남 1,327 1.35% 무관 91,751 93.66% 여 4,879 4.98% 합계 97,957 100.00% 설문자 나이 분포 설문자 나이 수량 비율 10대 36,008 8.29% 20대 88,405 20.34% 30대 92,825 21.36% 40대 86,769 19.97% 50대 75,045 17.27% 60대 이상 53,992 12.42% Null 1,560 0.36% 합계 434,604 100.00% 산업 분야 분포 산업 분야 수량 비율 내구재 8,469 8.65% 서비스 51,793 52.87% 소비재 26,013 26.56% 헬스케어 11,682 11.93% 합계 97,957 100.00% 설문 질문 문항 어절 수 어절 수 수량 비율 5 3,561 3.64% 6 4,684 4.78% 7 5,682 5.80% ... ... 76 1 0.00% 합계 97,957 100.00% 설문 주제별 분포 주제 수량 결과 구성비 기업평가 6,305 6.44% 매체/브랜드 7,002 7.15% 사회 및 공공 조사 27,818 28.40% 소비자 만족도 13,494 13.78% 소비자 이해 27,757 28.34% 제품 개발 7,756 7.92% 학술 7,825 7.99% 합계 97,957 100.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드데이터 전처리
● 서베이 문항 생성 데이터의 학습 모델은 설문 목적과 이전 질문 내용을 기반으로 다음 질문을 생성하는 모델임
● 질문 생성의 기반이 되는 ‘기존 질문(context)’과 생성 답변의 예시로 사용되는 ‘다음 질문(next_q_context)’이 존재해야 모델 학습이 가능하므로, 설문지의 마지막 문항 등 ‘다음 질문’이 존재하지 않는 경우 학습 및 평가에 사용 불가함
● ‘다음 질문’이 포함된 ‘연결 문항(logic)’이 존재하지 않는 데이터는 전처리를 통해 해당 모델의 학습/검증/평가에서 제외
● 또한 하나의 질문에 ‘연결 문항’이 2개 이상 존재하는 경우 동일 Input에 다른 ‘연결 문항 조건(next_condition)’을 가진 Output으로 판단, ‘연결 문항’ 수에 맞추어 분할한 뒤 학습/검증/평가에 사용함데이터 전처리 연결 문항 개수 개수(개) 비율(%) 없음 11,637 11.9 1개 82,693 84.4 2개 이상 3,627 3.7 ● 학습/검증/평가를 위해 8:1:1로 나눈 데이터셋에서 역시 연결 문항 개수가 동일 비율로 나타나는 것으로 확인되어 데이터의 이동 없이 학습 및 평가를 진행함
데이터 전처리 연결문항 개수 없음 1개 2개 이상 데이터셋 구분 개수(개) 비율(%) 개수(개) 비율(%) 개수(개) 비율(%) 학습 데이터셋 9,292 11.9 66,157 84.4 2,909 3.7 검증 데이터셋 1,171 11.9 8,288 84.2 378 3.8 평가 데이터셋 1,174 12 8,248 84.5 340 3.5 데이터 구성 요소
● 기본적인 ‘설문 정보(survey_info)’와 이전 질문에 대한 정보인 ‘질문 정보 (question_info)’, 다음 질문을 생성하기 위한 정보인 ‘연결 문항(logic)’을 Input으로 사용하였으며, ‘다음 질문(next_q_context)’과 ‘다음 선택지(next_choices)’를 Output으로 사용함
● 라벨링 데이터 내용 중 학습에 영향이 없다고 판단되는 ‘설문지 내 질문 개수 (ques_num)’, ‘질문 번호(q_num)’, ‘질문 고유값(id)’, ‘데이터 출처(source)’, 포함 요소가 전부 null 값을 가지는 ‘데이터 평가값(q_result)’, 범위가 너무 넓어 특정지을 수 없다고 판단된 ‘설문 대상 정보(target_info)’ 등은 학습 데이터에서 제외함
● ‘연결 문항’의 ‘연결 문항 조건’이 flow인 경우 ‘설문 정보’에 기반하여 ‘기존 질문’과 연관된 다음 질문을 생성하며, ‘연결 문항’의 ‘연결 문항 조건’에 ‘기존 선택지 (choices)’의 요소가 포함된 경우 ‘기존 질문’과 ‘연결 문항 조건’에 연관된 ‘다음 질문’을 생성하도록 학습 prompt를 구성함Input 예시
Output 예시활용 모델
● 본 사업에서 필요로 하는 LLM의 조건은 ‘한국어 데이터를 이해’해서 ‘한국어 문장 생성’이 가능한 ‘Text-to-Text Generation 능력’으로 볼 수 있음
● 위 조건을 종합적으로 고려해 komt-mistral-7b-v1, SOLAR-10.7B-Instruct, Long-ke-T5와 OpenSource 모델 중 성능이 좋은 LLaMa3를 학습 모델 후보군으로 선정하여 비교함
● 동일한 입력값으로 후보 모델 간 생성 결과를 비교한 결과 komt-mistral-7b-v1 모델이 본 사업 조건에 적합하다고 판단되어 Base model로 선정함활용모델 후보군 모델 후보군 모델 출력 결과 komt-Mistral-7B-v1 SOLAR-10.7B LLaMa3 Long-ke-T5 모델 성능 지표
모델 성능 지표 성능 지표 내용 G-Eval * Evaluation Text Generation with GPT-4(이하 G-Eval)은 자연어 처리(NLP)모델의 성능을 평가하기 위해 개발된 종합지표임 * 모델이 생성한 텍스트의 여러 측면을 분석하여 모델의 전반적인 성능을 측정함 * 단순한 정량적 성능 평가를 넘어, 모델 임무에 맞는 적절한 세부 평가 항목을 직접 설정하여 모델이 생성한 텍스트가 실제 수요에 얼마나 부합하는지를 중점적으로 평가함 * 성능 평가 지표로 최근 활용되고 있는 LLM 기반 평가지표 조사 및 자체 테스트를 한 결과, 정확도, 비용, 한국어 지원 등 종합적인 측면에서 높은 성능과 생성 속도가 효율적인 GPT-4o 모델 기반 G-Eval을 선정함 * G-Eval 평가지표의 세부 평가 항목으로 문법 정확성, 문맥적 적합성을 평가하기 위한 Contextual Accuracy, 일관성을 평가하기 위한 Question Similarity를 설정함 * Contextual Accuracy 항목은 AI 모델로 생성된 문장의 문법 정확성, 문맥적 적합성을 평가하여 AI 모델의 문장 생성 능력을 평가함 * Question Similarity 항목은 생성된 문장과 참조 문장의 유사도를 평가하여 AI 모델의 적합한 데이터 생성 능력을 평가함 * 테스트 데이터셋 기반 파인튜닝 모델과 상용 LLM 모델을 활용하여 5회 교차검증 진행함 * 본 사업에서는 G-Eval 3.5 이상을 목표로 함 BLEU * BLEU는 AI 모델의 출력값과 실제값 간의 유사성을 n-gram의 정밀도 기반으로 측정한 방법론 * 생성된 문장과 참조 문장 간 키워드 유사도를 평가하는 전통 지표 * 본 사업에서는 BLEU 0.1 이상을 목표로 함 ROUGE * ROUGE은 실제값과 AI 모델 출력값 간의 유사성을 n-gram의 재현율 기반으로 측정한 방법론 * 생성된 문장과 참조 문장 간 키워드 유사도를 평가하는 전통 지표 * 본 사업에서는 ROUGE 0.1 이상을 목표로 함 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드<데이터 어노테이션 포맷 및 형식>
데이터 어노테이션 포멧 및 형식 항목 속성명 타입 필수 여부 항목 설명 범위 1 survey_info object Y 설문 정보 1 id string Y 설문 식별자 2 survey_purpose string Y 설문지 목적 3 method string N 설문 방법 온라인 서베이, 1:1 대면 서베이, 갱 서베이, 전화 서베이, 그 외 4 industry string Y 산업 분야 소비재, 내구재, 헬스케어, 서비스 5 topic object Y 주제 정보 1 topic string Y 설문 주제 소비자 이해, 소비자 만족도, 매체/브랜드, 제품 개발, 기업평가, 사회 및 공공, 학술 2 topic_detailed string Y 세부 설문 주제 라이프 스타일, U&A(이용행태), 구매행태, 고객 만족도, 광고효과, 브랜드 인지/진단, 사용성UX, 컨셉/제품테스트, 기업평판, 직원 만족도, 사회현안, 정책평가, 행정서비스 평가, 정책수요, 심리 사회과학, 의학 6 keyword array Y 설문지 키워드 7 title string Y 설문지 제목 8 source string N 설문지 출처 9 ques_num string Y 설문 문항 개수 10 q_result string N (학술)척도 정보 1 calculation string N 척도 채점 방법 2 cutoff string N 척도 해석 기준 3 credibility double N 척도 신뢰도 4 validity string N 척도 타당도 11 target_info string N 조사 대상자 1 gender string N 조사 대상자 성별 남, 여, 무관 2 age array N 조사 대상자 나이 10대, 20대, 30대, 40대, 50대, 60대 이상 3 location string N 조사 대상자 지역 2 question_info array Y 문항별 정보 1 q_num string Y 문항 번호 2 context string Y 설문 문항 내용 3 q_part string Y 설문 문항 파트 4 q_purpose string Y 설문 문항 목적 5 answer object Y 답변 1 type string Y 답변 유형 single, rank, multi, open, likert 2 num string N 선택지 개수 3 choices array N 선택지 내용 6 logic array N 문항간 연결 로직 1 next_condition string N 문항 이동 조건 2 next_q_num string N 이동 문항 3 next_q_context string N 이동 문항 내용 4 next_answer object N 이동 문항의 답변 1 next_type string N 이동 문항의 답변 유형 single, rank, multi, open, likert 2 next_num string N 이동 문항의 선택지 개수 3 next_choices array N 이동 문항의 선택지 내용 <가공데이터 라벨링 및 어노테이션 적용 예시>
가공데이터 라벨링 및 어노테이션 적용 예시 항목 속성명 항목 설명 예시 1 survey_info 설문 정보 1 id 설문 식별자 dur_product_000001 2 survey_purpose 설문지 목적 브랜드 전자 드럼 세탁기 기능
/특징 유용성 및 구매 영향도 평가3 method 설문 방법 온라인 4 industry 산업 분야 내구재 5 topic 주제 정보 1 topic 설문 주제 제품 개발 2 topic_detailed 세부 설문 주제 브랜드 인지/진단 6 keyword 설문지 키워드 ["브랜드 전자","드럼 세탁기", "기능/특징", "구매 영향도","유용성"] 7 title 설문지 제목 브랜드 전자 드럼 세탁기 기능
/특징 유용성 및 구매 영향도 평가 설문조사8 source 설문지 출처 비전문가 9 ques_num 설문 문항 개수 “10” 10 q_result (학술)척도 정보 {} 1 calculation 척도 채점 방법 2 cutoff 척도 해석 기준 3 credibility 척도 신뢰도 4 validity 척도 타당도 11 target_info 조사 대상자 1 gender 조사 대상자 성별 2 age 조사 대상자 나이 3 location 조사 대상자 지역 2 question_info 문항별 정보 1 q_num 문항 번호 1 2 context 설문 문항 내용 해당 제품의 기능
/특징이 쓸모 있다고 생각하십니까?3 q_part 설문 문항 파트 기능/특징 4 q_purpose 설문 문항 목적 세탁기 기능 및 특징의 유용성 평가 5 answer 답변 1 type 답변 유형 multi 2 num 선택지 개수 “2” 3 choices 선택지 내용 ["쓸모 있음", "쓸모 없음"] 6 logic 문항간 연결 로직 1 next_condition 문항 이동 조건 다음 질문 2 next_q_num 이동 문항 2 3 next_q_context 이동 문항 내용 4 next_answer 이동 문항의 답변 "기능/특징 목록 구매시 영향도 높은 항목을 선택해 주세요 1 next_type 이동 문항의 답변 유형 single 2 next_num 이동 문항의 선택지 개수 24 3 next_choices 이동 문항의 선택지 내용 ["6모션 세탁 (옷감 손상 감소 / 강력 빨래)",
"이지 서클 컨트롤",
"인공지능 세탁 (무게, 재질, 오염도 센싱)",
"스마트 페어링 (건조기 연동)","5방향 터보샷","트루스팀 알러지케어코스","자동세제함","스테인리스 세탁통","통살균 코스",
"글라스 도어 (내구성 우수)","25kg 대용량 세탁",
"UP가전 (내게 맞춰 업그레이드되는 가전)",
"원격제어/모니터링",
"다운로드 코스(코스 변경 가능)",
"인버터 DD모터",
"모터 10년 보증",
"직렬/병렬 설치 선택 가능",
"공간 인테리어 완성 미니멀 플랫 디자인",
"다양한 색상",
"전면 컬러 교체",
"공간절약",
"분리 위생세탁",
"옷감별 맞춤 코스",
"슬림 인버터 DD모터"]가공데이터 json 파일 실제 예시 -
데이터셋 구축 담당자
수행기관(주관) : ㈜코리아리서치인터내셔널
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 채주희 02-3415-5131 joohee@kric.com 총괄책임자 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜피씨엔 AI 모델링 ㈜비투엔 데이터 검수 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 채주희 02-3415-5131 joohee@kric.com 윤치영 02-6009-2759 cyyoon@kric.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 이우성 02-565-7740 wooslee@pcninc.co.kr 이혜원 02-565-7740 hwlee@pcninc.co.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 이우성 02-565-7740 wooslee@pcninc.co.kr 이혜원 02-565-7740 hwlee@pcninc.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.