BETA 승용차 이용자 개별 트립체인 데이터
- 분야교통물류
- 유형 오디오 , 텍스트
- 생성 방식LMM
※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-17 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-17 산출물 전체 공개 소개
승용차 이용자 중심의 개인 맞춤형 교통서비스 제공을 위한 통행패턴 학습용 트립체인 내 음성 및 텍스트 데이터 수집 및 전처리
구축목적
승용차 이용자 중심의 개인 맞춤형 교통서비스 제공을 위하여 시간에 따른 혼잡도 안내 및 이동을 고려한 최적 동선 제시 등 맞춤형 서비스 제공을 위한 인공지능 학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 오디오 , 텍스트 데이터 형식 트립체인 데이터: 원천(텍스트, 형식: JSON)-라벨(JSON) | 음성 데이터: 원천(음성, 형식: MP3)-라벨(JSON) | GPS 데이터: 원천(센서, 형식: CSV) 데이터 출처 자체 수집 라벨링 유형 음성(전사), 문장생성(자연어) 라벨링 형식 json 데이터 활용 서비스 내비게이션 개발 | 네이버, 카카오 등 지도 서비스 | 교통 계획 데이터 구축년도/
데이터 구축량2024년/5,000건 -
■ 데이터 구축 규모
■ 데이터 구축 규모 데이터 종류 데이터 형태 어노테이션 규모 결과물 규모 트립체인 데이터 원천 트립체인 데이터 JSON 5,000건 5,000건 원천 음성 데이터 MP3 5,000건 30,911건 원천 GPS 데이터 CSV 5,000건 5,000건 라벨링 음성전사 데이터 JSON 5,000건 5,000건 라벨링 문장 데이터 JSON 5,000건 5,000건 (5문장, 50어절 이상) ■ 데이터 분포 (출발지-도착지 분포)
■ 데이터 분포 (출발지-도착지 분포) 지역 객체수 비율 경기 – 경기 2,064 41.28% 서울 - 서울 921 18.42% 경기 - 서울 767 15.34% 서울- 경기 726 14.52% 경기 - 인천 167 3.34% 인천 - 경기 150 3.00% 서울 - 인천 77 1.54% 인천 - 서울 70 1.40% 인천 - 인천 58 1.16% 합계 5,000 100% ■ 데이터 분포 (통행 목적별 분포)
■ 데이터 분포 (통행 목적별 분포) 통행 목적 객체수 비율 통근 1745 41.28% 통학 84 18.42% 업무 826 15.34% 쇼핑 217 14.52% 여행 152 3.34% 여가 740 3.00% 사회활동 186 1.54% 기타 1050 1.40% 합계 5,000 100% ■ 데이터 분포 (성별 분포)
■ 데이터 분포 (성별 분포) 성별 객체수 비율 남자 2,072 41.44% 여자 2,928 58.56% 합계 5,000 100% ■ 데이터 분포 (연봉별 분포)
■ 데이터 분포 (연봉별 분포) 연봉 구간 객체수 비율 3000 이하 1482 29.64% 4000 이하 934 18.68% 5000 이하 941 18.82% 6000 이하 650 13.00% 6000 초과 993 19.86% 합계 5,000 100% ■ 데이터 분포 (직업별 분포)
■ 데이터 분포 (직업별 분포) 직업군 객체수 비율 전문직(관리직) 1064 21.28% 사무행정직 1036 20.72% 서비스 판매직 273 5.46% 기술직 및 생산직 549 10.98% 자영업(프리랜서) 804 16.08% 기타 1102 22.04% 없음 172 3.44% 합계 5,000 100% ■ 데이터 분포 (날씨별 분포)
■ 데이터 분포 (날씨별 분포) 날씨 객체수 비율 맑음 4422 88.44% 비 508 10.16% 비/눈 2 0.04% 눈 0 0.00% 빗방울 61 1.22% 빗방울눈날림 7 0.14% 눈날림 0 0.00% 합계 5,000 100% ■ 데이터 분포 (운전경력별 분포)
■ 데이터 분포 (운전경력별 분포) 운전경력 객체수 비율 없음 0 0.00% 1년 미만 230 4.60% 1~3년 416 8.32% 3~5년 433 8.66% 5~10년 631 12.62% 10년 이상 3290 65.80% 합계 5,000 100% ■ 데이터 분포 (중복성 분포)
■ 데이터 분포 (중복성 분포)(1) 중복 횟수 중복 포함 질문 문장수 중복 제거 문장수 비율 0 4728 4733 94.49% 1 84 42 0.84% 2 54 18 0.36% 3 12 3 0.06% 4 20 4 0.08% 5 6 1 0.02% 6 14 2 0.04% 7 8 1 0.02% 8 9 1 0.02% 9 30 3 0.06% 10 11 1 0.02% 12 13 1 0.02% 19 20 1 0.02% 합계 5009 4811 1.56% ■ 데이터 분포 (중복성 분포)(2) 중복 횟수 중복 포함 답변 문장수 중복 제거 문장수 비율 0 25892 25892 0% 합계 25892 25892 0% ■ 데이터 분포 (연령대별 분포)
■ 데이터 분포 (연령대별 분포) 연령 객체수 비율 10대 0 0.00% 20대 324 6.48% 30대 1156 23.12% 40대 1553 31.06% 50대 1211 24.22% 60대 이상 756 15.12% 합계 5,000 100% ■ 데이터 분포 (선호도 분포)
■ 데이터 분포 (선호도 분포) 선호도 객체수 비율 통행자특성 1872 37.44% 출도착지 1476 29.52% 경로정보 1237 24.74% 날씨(메타) 415 8.30% 합계 5,000 100% ■ 데이터 분포 (문장수 분포)
■ 데이터 분포 (문장수 분포) 문장수 객체수 비율 5 4317 86.34% 6 511 10.22% 7 139 2.78% 8 30 0.60% 9 2 0.04% 10 1 0.02% 합계 5,000 100% ■ 데이터 분포 (어절수 분포)
■ 데이터 분포 (어절수 분포) 어절수 기객체수 비율 50 1 0.02% 51 10 0.20% 52 11 0.22% 53 22 0.44% 54 29 0.58% 55 47 0.94% 56 63 1.26% 57 66 1.32% 58 87 1.74% 59 113 2.26% 60 95 1.90% 61 124 2.48% 62 124 2.48% 63 128 2.56% 64 166 3.32% 65 174 3.48% 66 185 3.70% 67 177 3.54% 68 182 3.64% 69 181 3.62% 70 181 3.62% 71 180 3.60% 72 168 3.36% 73 161 3.22% 74 154 3.08% 75 150 3.00% 76 123 2.46% 77 146 2.92% 78 143 2.86% 79 117 2.34% 80 101 2.02% 81 106 2.12% 82 95 1.90% 83 95 1.90% 84 97 1.94% 85 83 1.66% 86 64 1.28% 87 70 1.40% 88 96 1.92% 89 71 1.42% 90 48 0.96% 91 54 1.08% 92 36 0.72% 93 60 1.20% 94 34 0.68% 95 40 0.80% 96 27 0.54% 97 30 0.60% 98 35 0.70% 99 24 0.48% 100 23 0.46% 101 25 0.50% 102 8 0.16% 103 21 0.42% 104 10 0.20% 105 15 0.30% 106 11 0.22% 107 15 0.30% 108 18 0.36% 109 7 0.14% 110 5 0.10% 111 9 0.18% 112 8 0.16% 113 8 0.16% 114 2 0.04% 115 7 0.14% 116 5 0.10% 117 1 0.02% 118 7 0.14% 119 2 0.04% 120 1 0.02% 121 1 0.02% 122 1 0.02% 123 5 0.10% 124 1 0.02% 127 2 0.04% 128 2 0.04% 134 1 0.02% 136 2 0.04% 139 1 0.02% 144 1 0.02% 153 1 0.02% 합계 5,000 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드AI모델 학습
- 구축된 데이터를 AI 모델에 학습에 적용
- 트립체인에 대한 문장형 데이터(최소 5문장)를 EEVE 10.8B 모델 학습에 적용
AI 모델 품질 정보
- 모델 학습 결과 분석하여 지속적으로 모델 성능 개선
- 후보모델군의 비교와 학습 모델에 대한 lora와 같은 파라미터의 효율적인 조정(PEFT) 후 각 성능 비교- Context Precision 및 Cosine Similarity 지표를 통해 자체적으로 모델의 성능 점검 및 학습 데이터 유효성 점검 후 유효성 품질 확보
AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O 질의응답 EEVE 10.8B Context Precision 0.6 이상 Input data : text output data : text AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O Speech-to-text Conformer Whisper Wav2Vec2 CER(10%) Input data : Speech data(float matrix) output data : text (str) ※모델 아키텍쳐 : 음성인식 엔진
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드■ 데이터구성
-트립체인 데이터(원천)■ 데이터구성 -트립체인 데이터(원천) Key Description Type Child Type license 설명 array copyright_holder 저작권 string string info 저작권보유자 array string contributor 일반정보 string date_created 제작사 string description 데이터 생성일 string version 데이터 설명 string trip_car_info 가공버전 array string
numbercar_trip_id 가공 string gender 승용차 트립체인 고유 식별번호 number age 이용자의 성별 number job 이용자의 연령 number salary 이용자의 직업 number drive_training_yn 이용자의 연봉 number drive_experience 이용자의 운전연수여부 number drive_frequency 이용자의 운전경력 number disability 이용자의 주간 승용빈도 number (주간자차이용횟수) companion 이용자의 장애정도 number luggage 동승자 number trip_purpose 소지품 number car_type 이동목적 number fuel_type 차량 종류 number departure_th1 연료 종류 string departure_pty 출발지 기온(℃) number departure_tn1 출발지 강수형태 string start_time 출발지 강수량(mm) string departure 출발 일시 string departure_landmark 출발지 string start_fuel_stat 출발지 주요 시설물 number end_time 출발지 연료량 string destination 도착 일시 string destination_landmark 도착지 string destination_th1 도착지 주변 주요 시설물 string destination_pty 도착지 기온(℃) number destination_tn1 도착지 강수 형태 string gas_station_name 도착지 강수량(mm) string refuel_amount 주유소명 number end_fuel_stat 주유 금액 number tg_yn 도착지 연료량 string tg_fare 톨게이트 통과 유무 number waypoint_id 톨게이트 비용 string waypoint 경유지 ID
(1에서99,999,999,999까지의숫자와공백을포함할수있는텍스트)string waypoint_purpose 경유지 string -GPS데이터(원천)
■ 데이터구성 -GPS데이터(원천) Key Description Type Child Type car_trip_id 승용차 트립체인 고유 식별번호 string gps_id GPS ID number gps_time GPS 일시 string lat 위도 string lng 경도 string speed 속도 string -문장데이터(라벨)
■ 데이터구성 -문장데이터(라벨) Key Description Type Child Type license 저작권 array string copyright_holder 저작권보유자 string info 일반정보 array string contributor 제작사 string date_created 데이터 생성일 string description 데이터 설명 string version 가공버전 string annotations 가공 array string trip_id 트립체인 식별번호 string question_type 질의종류 string question 문장(질문) string answer 문장(답변) string -음성 전사 데이터(라벨)
■ 데이터구성 -음성 전사 데이터(라벨) Key Description Type Child Type license 저작권 array string copyright_holder 저작권보유자 string info 일반정보 array string contributor 제작사 string date_created 데이터 생성일 string description 데이터 설명 string version 가공버전 string id 승용차 음성 전사 ID array string car_trip_id 트립체인 고유 식별번호 string annotations 가공 array string filename 전사 파일명 string labeling 전사 데이터 string ■ 어노테이션 포맷
-트립체인 데이터(원천)■ 어노테이션 포맷 -트립체인 데이터(원천) No 항목 길이 타입 필수여부 비고 영문명 설명 1 license 저작권 array Y 1-1 copyright_holder 저작권보유자 string Y 2 info 일반정보 array Y 2-1 contributor 제작사 string Y 2-2 date_created 데이터 생성일 string Y NNMMDD 2-3 description 데이터 설명 string Y 2-4 version 가공버전 string Y v1.0 3 trip_car_info 가공 array Y 3-1 car_trip_id 승용차 트립체인 고유 식별번호 string Y CAR_TRIPCHAIN_0001 ~ CAR_TRIPCHAIN_9999 형식의 값 3-2 gender 이용자의 성별 number Y 1:여성 2:남성 3-3 age 이용자의 연령 number Y 1:10대
2:20대
3:30대
4:40대
5:50대
6:60대이상3-4 job 이용자의 직업 number Y 1:전문직(관리직)
2:사무행정직3:서비스판매직
4:기술직및생산직
5:자영업(프리랜서)
6:기타
7:없음3-5 salary 이용자의 연봉 number Y 1: 3000이하
2:4000이하
3:5000이하
4:6000이하
5:6000초과3-6 drive_training_yn 이용자의 운전연수여부 number Y 0:Y
1:N3-7 drive_experience 이용자의 운전경력 number Y 1:없음
2:1년미만
3:1~3년
4:3~5년
5:5~10년
6:10년이상3-8 drive_frequency 이용자의 주간 승용빈도
(주간자차이용횟수)number Y 1:없음
2:1회이하
3:2~3회
4:4~5회
5:6~7회/매일3-9 disability 이용자의 장애정도 number Y 1:해당없음
2:거동불편
3:거동불가3-10 companion 동승자 number Y 1:없음(혼자)
2:가족
3:친구/지인
4:연인
5:직장동료3-11 luggage 소지품 number Y 1:없음
2:가벼운소지품(가방등)
3:약간무거움(책,노트북등
4:부피가크거나무거운물건(개인이동불가))3-12 trip_purpose 이동목적 number Y 1:통근
2:통학
3:업무
4:쇼핑
5:여행
6:여가
7:사회활동
8:기타3-13 car_type 차량 종류 number Y 1:경차
2:소형차
3:중형차
4:대형차
5:SUV
6:승합차
7:기타3-14 fuel_type 연료 종류 number Y 1:휘발유
2:경유
3:LPG
4:전기
5:기타3-15 departure_th1 출발지 기온(℃) string Y 3-16 departure_pty 출발지 강수형태 number Y 1:없음
2:비
3:비/눈
4:눈
5:빗방울
6:빗방울눈날림
7:눈날림3-17 departure_tn1 출발지 강수량(mm) string Y 강수량 (최대 4자리 숫자 중 소수점 이하 1자리 허용) 3-18 start_time 출발 일시 string Y 3-19 departure 출발지 string Y 3-20 departure_landmark 출발지 주요 시설물 string N 3-21 start_fuel_stat number Y 1:1/4미만
2:1/4이상1/2이하
3:1/2이상3/4미만
4:3/4이상3-22 end_time string Y 3-23 destination string Y 3-24 destination_landmark string N 3-25 destination_th1 string Y 3-26 destination_pty number Y 1:없음
2:비
3:비/눈
4:눈
5:빗방울
6:빗방울눈날림
7:눈날림3-27 destination_tn1 string Y 강수량 (소수점 이하 1자리 허용) 3-28 gas_station_name string N 3-29 refuel_amount number N 3-30 end_fuel_stat number N 1:1/4미만
2:1/4이상1/2이하
3:1/2이상3/4미만
4:3/4이상3-31 tg_yn string Y 0:Y
1:N3-32 tg_fare number N 3-33 waypoint_id string N 3-34 waypoint string N 3-35 waypoint_purpose string N -GPS 데이터(원천)
■ 어노테이션 포맷 -GPS 데이터(원천) No 항목 길이 타입 필수여부 비고 영문명 설명 1 car_trip_id 승용차 트립체인 고유 식별번호 string Y CAR_TRIPCHAIN_0001 ~ CAR_TRIPCHAIN_9999 형식의 값 2 gps_id GPS ID number Y 3 gps_time GPS 일시 string Y 4 lat 위도 string Y 위도 (범위: -90.0에서 90.0 사이, 소수점 이하 7자리까지 허용) 5 lng 경도 string Y 경도 (범위: -180.0에서 180.0 사이, 소수점 이하 7자리까지 허용) 6 speed 속도 string Y 속도 (양수 및 소수점 이하 최대 10자리까지 허용하는 부동 소수점 숫자) -문장 데이터(라벨)
■ 어노테이션 포맷 -문장 데이터(라벨) No 항목 길이 타입 필수여부 비고 영문명 설명 1 license 저작권 array Y 1-1 copyright_holder 저작권 string Y 보유자 2 info 일반정보 array Y 2-1 contributor 제작사 string Y 2-2 date_created 데이터 생성일 string Y YYMMDD 2-3 description 데이터 설명 string Y 2-4 version 가공버전 string Y v1.0 3 annotations 가공 array Y 3-1 trip_id 트립체인 식별번호 string Y CAR_TRIPCHAIN_0014 3-2 question_type 질의종류 string Y 통행자특성, 출도착지
경로정보, 날씨3-3 question 문장
(질문)string Y 1문장 형태의 질의문 3-4 answer 문장
(답변)string Y 5문장, 50어절 이상의 생성 문장 데이터 -음성 전사 데이터(라벨)
■ 어노테이션 포맷 -음성 전사 데이터(라벨) No 항목 길이 타입 필수여부 비고 영문명 설명 1 license 저작권 array Y 1-1 copyright_holder 저작권보유자 string Y 2 info 일반정보 array Y 2-1 contributor 제작사 string Y 2-2 date_created 데이터 생성일 string Y YYMMDD 2-3 description 데이터 설명 string Y 2-4 version 가공버전 string Y v1.0 3 id 승용차 음성 전사 ID array Y 3-1 car_trip_id 트립체인 고유 식별번호 string Y 4 annotations 가공 array Y 4-1 filename 전사 파일명 string Y 4-2 labeling 전사 데이터 string Y ■ 라벨링 데이터 포맷
■ 라벨링 데이터 포맷 라벨링 기능 원천 데이터 포맷 라벨링 데이터 포맷 트립체인 데이터 JSON JSON GPS 데이터 CSV - 음성 데이터 MP3 JSON ■ 라벨링 데이터 규모
■ 라벨링 데이터 규모 데이터 획득 수단 원천 데이터(건) 라벨링 데이터(건) 트립체인 데이터 수집 앱 5,000 5,000 GPS 데이터 수집 앱 5,000 - 음성 데이터 수집 앱 5,000 5,000 ■ 가공 타입
■ 가공 타입 원천 데이터 포맷 가공유형 음성 데이터 음성 전사 트립체인 데이터 문장 생성 ■ 가공 예시
■ 트립 데이터
{
"license": [
{
"copyright_holder": "한국지능정보사회진흥원"
}
],
"info": [
{
"contributor": "테스트웍스",
"date_created": "240103",
"description": "승용차 이용자 개별 트립체인 데이터",
"version": "v1.0"
}
],
"trip_car_info": [
{
"car_trip_id": "CAR_TRIPCHAIN_6722",
"gender": 2,
"age": 4,
"job": 2,
"salary": 5,
"drive_training_yn": 1,
"drive_experience": 6,
"drive_frequency": 5,
"disability": 1,
"companion": 2,
"luggage": 2,
"trip_purpose": 6,
"car_type": 3,
"fuel_type": 2,
"departure_th1": "17.0",
"departure_pty": 2,
"departure_tn1": 8.0,
"start_time": "2024-10-18 09:35:00",
"departure": "서울 동대문구 한천로",
"departure_landmark": "",
"start_fuel_stat": 3,
"end_time": "2024-10-18 10:55:00",
"destination": "경기 파주시 적성면 양연로",
"destination_landmark": "",
"destination_th1": "17.0",
"destination_pty": 2,
"destination_tn1": 10.0,
"gas_station_name": "적암주유소",
"refuel_amount": 44000,
"end_fuel_stat": 4,
"tg_yn": "0",
"tg_fare": 0,
"waypoints": []
}
]
}■ GPS 데이터(CSV)
■ GPS 데이터(CSV) car_trip_id gps_id gps_time lat lng speed CAR_TRIPCHAIN_6722 1748317 2024-10-29 17:12 37.49509 127.046 0 CAR_TRIPCHAIN_6722 1748318 2024-10-29 17:12 37.49511 127.046 0.881631 CAR_TRIPCHAIN_6722 1748319 2024-10-29 17:12 37.49513 127.046 0.875951 CAR_TRIPCHAIN_6722 1748320 2024-10-29 17:12 37.49511 127.046 0.888625 CAR_TRIPCHAIN_6722 1748321 2024-10-29 17:12 37.4951 127.0459 3.32991 CAR_TRIPCHAIN_6722 1748322 2024-10-29 17:12 37.4951 127.0459 0.183787 CAR_TRIPCHAIN_6722 1748323 2024-10-29 17:13 37.49512 127.0459 1.01806 CAR_TRIPCHAIN_6722 1748324 2024-10-29 17:13 37.49511 127.046 3.75021 CAR_TRIPCHAIN_6722 1748325 2024-10-29 17:13 37.4951 127.046 1.07794 ■ 음성 전사 데이터
{
"license": [
{
"copyright_holder": "한국지능정보사회진흥원"
}
],
"info": [
{
"contributor": "테스트웍스",
"date_created": "241115",
"description": "승용차 이용자 개별 트립체인 데이터",
"version": "v1.0"
}
],
"id": [
{
"car_trip_id": "CAR_TRIPCHAIN_6722"
}
],
"car_transcribe_annotations": [
{
"filename": "car_tripchain_6722_scr_voice_01_01.mp3",
"labeling": "2024년 10월 18일 오전 9시 30분에 처가댁을 가기 위해 동대문에서 파주로 출발한다.차량에 익숙한 길이어서 바로 출발한다.날씨는 비가 오고 있다."
},
{
"filename": "car_tripchain_6722_scr_voice_01_02.mp3",
"labeling": "준비하는 대로 바로 출발하였다."
},
{
"filename": "car_tripchain_6722_scr_voice_01_03.mp3",
"labeling": "익숙한 길이어서 내비게이션은 활용하지 않았고, 익숙한 길로 갔다.동부간선도로를 이용하였다."
},
{
"filename": "car_tripchain_6722_scr_voice_03_01.mp3",
"labeling": "도착지가 익숙한 곳이라 바로 도착하였다."
},
{
"filename": "car_tripchain_6722_scr_voice_03_02.mp3",
"labeling": "비가 와서 그런지 평소보다 20분은 더 걸린 것 같다."
},
{
"filename": "car_tripchain_6722_scr_voice_03_03.mp3",
"labeling": "예상보다 거리에 차가 많아서 늦게 도착했다.앞으로는 내비게이션을 활용해 보겠다."
}
]
}■ 문장 데이터
{
"license": [
{
"copyright_holder": "한국지능정보사회진흥원"
}
],
"info": [
{
"contributor": "테스트웍스",
"date_created": "241115",
"description": "대중교통 이용자 종합 트립체인 데이터",
"version": "v1.0"
}
],
"car_sentences_annotations": [
{
"car_trip_id": "CAR_TRIPCHAIN_6722",
"question_type": "[2.출도착지]",
"question": "동대문에서 파주로 이동하는 40대 남성의 이동 목적은 무엇인가요.",
"answer": "운전 경력이 10년 이상인 40대 남성은 처가댁에 방문하기 위해 동대문에서 파주로 승용차를 이용해 이동합니다. 10월 18일 오전 9시 30분에 동대문에서 파주로 이동하며 익숙한 길이기 때문에 내비게이션 없이 출발합니다. 동부 간선도로를 경유하는 경로로 이동하며 톨게이트를 통과하지 않아서 톨게이트 비용도 따로 발생하지 않았습니다. 중간에 적암 주유소에 들러서 44,000원을 주유하고 이동했으며 도착해서 연료는 3/4 이상이 남았습니다. 예상보다 거리에 차가 많아서 예상 도착 시간보다 늦게 도착했으며 비가 와서 평소보다 30분 정도 더 늦게 도착했습니다."
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 테스트웍스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 동길무 02-423-5168 gmdong@testworks.co.kr 사업총괄 / 데이터 가공 및 검사 수행기관(참여)
수행기관(참여) 기관명 담당업무 소다시스템 데이터 수집 트위그팜 RAG 모델 개발 한국자동차연구원 데이터 정제 홍익대학교 산학협력단 데이터 설계 흥일기업 데이터 수집 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 동길무 02-423-5168 gmdong@testworks.co.kr 최수지 02-423-5168 sjchoi@testworks.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 동길무 02-423-5168 gmdong@testworks.co.kr 변율희 02-1833-5926 yulhee.byun@twigfarm.net 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 동길무 02-423-5168 gmdong@testworks.co.kr 최수지 02-423-5168 sjchoi@testworks.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.