BETA 대중교통 이용자 종합 트립체인 데이터
- 분야교통물류
- 유형 오디오 , 텍스트
- 생성 방식LMM
※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2025-04-17 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2025-04-17 산출물 전체 공개 소개
대중교통 이용자 중심의 개인 맞춤형 교통서비스 제공을 위한 통행패턴 학습용 트립체인 내 음성 및 텍스트 데이터 수집 및 전처리
구축목적
대중교통 및 환승시설 중심의 개인 맞춤형 교통서비스 제공을 위하여 시간에 따른 혼잡도 안내 및 이동을 고려한 최적 동선 제시 등 맞춤형 서비스 제공을 위한 인공지능 학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 교통물류 데이터 유형 오디오 , 텍스트 데이터 형식 트립체인 데이터: 원천데이터(텍스트, 형식: JSON)-라벨 데이터(JSON) | 음성 데이터: 원천데이터(음성, 형식: MP3)-라벨 데이터(JSON) 데이터 출처 자체 수집 라벨링 유형 음성(전사), 문장생성(자연어) 라벨링 형식 json 데이터 활용 서비스 내비게이션 개발 | 네이버, 카카오 등 지도 서비스 | 교통 계획 데이터 구축년도/
데이터 구축량2024년/5,000건 -
■ 데이터 구축 규모
■ 데이터 구축 규모 데이터 종류 데이터 형태 어노테이션
규모결과물 규모 트립체인
데이터원천 트립체인
데이터JSON 5,000건 5,000건 원천 음성 데이터 MP3 5,000건 30,911건 라벨링 음성전사
데이터JSON 5,000건 5,000건 라벨링 문장 데이터 JSON 5,000건 5,000건
(5문장, 50어절 이상)■ 데이터 분포 (출발지-도착지 분포)
■ 데이터 분포 (출발지-도착지 분포) 지역 객체수 비율 서울 - 서울 2517 50.34% 경기 - 서울 867 17.34% 서울- 경기 846 16.92% 경기 - 경기 438 8.76% 인천 - 서울 119 2.38% 서울- 인천 103 2.06% 인천 - 인천 45 0.90% 인천 - 경기 35 0.70% 경기 - 인천 30 0.60% 합계 5,000 100% ■ 데이터 분포 (환승 횟수별 분포)
■ 데이터 분포 (환승 횟수별 분포) 환승 횟수 객체수 비율 1 1 0.02% 2 95 1.90% 3 4698 93.96% 4 202 4.04% 5 4 0.08% 합계 5,000 100% ■ 데이터 분포 (통행 목적별 분포)
■ 데이터 분포 (통행 목적별 분포) 통행 목적 객체수 비율 통근 1692 33.84% 통학 291 5.82% 업무 831 16.62% 쇼핑 204 4.08% 여행 44 0.88% 여가 854 17.08% 사회활동 328 6.56% 기타 756 15.12% 합계 5,000 100% ■ 데이터 분포 (성별 분포)
■ 데이터 분포 (성별 분포) 성별 객체수 비율 남자 3161 63.22% 여자 1839 36.78% 합계 5,000 100% ■ 데이터 분포 (연봉별 분포)
■ 데이터 분포 (연봉별 분포) 연봉 구간 객체수 비율 3000 이하 3227 64.54% 4000 이하 725 14.50% 5000 이하 448 8.96% 6000 이하 217 4.34% 6000 초과 383 7.66% 합계 5,000 100% ■ 데이터 분포 (직업별 분포)
■ 데이터 분포 (직업별 분포) 직업군 객체수 비율 전문직(관리직) 255 5.10% 사무행정직 1163 23.26% 서비스 판매직 90 1.80% 기술직 및 생산직 233 4.66% 자영업(프리랜서) 939 18.78% 기타 1624 32.48% 없음 696 13.92% 합계 5,000 100% ■ 데이터 분포 (날씨별 분포)
■ 데이터 분포 (날씨별 분포) 날씨 객체수 비율 맑음 4441 88.82% 비 474 9.48% 비/눈 1 0.02% 눈 0 0.00% 빗방울 83 1.66% 빗방울눈날림 1 0.02% 눈날림 0 0.00% 합계 5,000 100% ■ 데이터 분포 (운전경력별 분포)
■ 데이터 분포 (운전경력별 분포) 운전경력 객체수 비율 없음 1436 28.72% 1년 미만 951 19.02% 1~3년 481 9.62% 3~5년 306 6.12% 5~10년 408 8.16% 10년 이상 1418 28.36% 합계 5,000 100% ■ 데이터 분포 (중복성 분포)
■ 데이터 분포 (중복성 분포) (1) 중복 횟수 중복 포함 질문 문장수 중복 제거 문장수 비율 0 4865 4865 0.00% 1 64 32 0.64% 2 18 6 0.24% 3 16 4 0.24% 4 10 2 0.16% 5 6 1 0.10% 6 14 2 0.24% 30 31 1 0.60% 합계 5,024 4,913 2.21% ■ 데이터 분포 (중복성 분포) (2) 중복 횟수 중복 포함 답변 문장수 중복 제거 문장수 비율 0 26772 26772 0.00% 1 20 10 0.04% 4 5 1 0.01% 합계 26,797 26,783 0.05% ■ 데이터 분포 (연령대별 분포)
■ 데이터 분포 (연령대별 분포) 연령 객체수 비율 10대 0 0.00% 20대 1329 26.58% 30대 1401 28.02% 40대 578 11.56% 50대 1004 20.08% 60대 이상 688 12.80% 합계 5,000 100% ■ 데이터 분포 (선호도 분포)
■ 데이터 분포 (선호도 분포) 선호도 객체수 비율 통행자특성 1134 22.68% 출도착지 1482 29.64% 경로정보 1921 38.42% 날씨(메타) 463 9.26% 합계 5,000 100% ■ 데이터 분포 (문장수 분포)
■ 데이터 분포 (문장수 분포) 문장수 객체수 비율 5 3966 79.32% 6 557 11.14% 7 296 5.92% 8 112 2.24% 9 40 0.80% 10 24 0.48% 11 4 0.08% 13 1 0.02% 합계 5,000 100% ■ 데이터 분포 (어절수 분포)
■ 데이터 분포 (어절수 분포) 어절수 기객체수 비율 50 2 0.04% 51 6 0.12% 52 10 0.20% 53 14 0.28% 54 23 0.46% 55 33 0.66% 56 34 0.68% 57 34 0.68% 58 57 1.14% 59 63 1.26% 60 49 0.98% 61 68 1.36% 62 81 1.62% 63 93 1.86% 64 81 1.62% 65 102 2.04% 66 98 1.96% 67 96 1.92% 68 141 2.82% 69 102 2.04% 70 124 2.48% 71 125 2.50% 72 143 2.86% 73 128 2.56% 74 133 2.66% 75 128 2.56% 76 131 2.62% 77 136 2.72% 78 122 2.44% 79 110 2.20% 80 115 2.30% 81 115 2.30% 82 115 2.30% 83 96 1.92% 84 118 2.36% 85 100 2.00% 86 100 2.00% 87 100 2.00% 88 89 1.78% 89 116 2.32% 90 90 1.80% 91 63 1.26% 92 86 1.72% 93 80 1.60% 94 71 1.42% 95 69 1.38% 96 53 1.06% 97 63 1.26% 98 57 1.14% 99 45 0.90% 100 51 1.02% 101 52 1.04% 102 37 0.74% 103 37 0.74% 104 35 0.70% 105 34 0.68% 106 32 0.64% 107 29 0.58% 108 27 0.54% 109 41 0.82% 110 23 0.46% 111 24 0.48% 112 23 0.46% 113 13 0.26% 114 19 0.38% 115 17 0.34% 116 7 0.14% 117 23 0.46% 118 7 0.14% 119 18 0.36% 120 6 0.12% 121 11 0.22% 122 14 0.28% 123 8 0.16% 124 7 0.14% 125 10 0.20% 126 6 0.12% 127 12 0.24% 128 11 0.22% 129 10 0.20% 130 8 0.16% 131 5 0.10% 132 8 0.16% 133 5 0.10% 134 6 0.12% 135 7 0.14% 136 7 0.14% 137 5 0.10% 138 4 0.08% 139 6 0.12% 140 6 0.12% 141 4 0.08% 142 4 0.08% 143 6 0.12% 144 6 0.12% 145 5 0.10% 146 4 0.08% 147 3 0.06% 148 4 0.08% 150 2 0.04% 151 5 0.10% 152 3 0.06% 153 1 0.02% 154 1 0.02% 155 5 0.10% 156 2 0.04% 157 1 0.02% 158 2 0.04% 159 1 0.02% 160 2 0.04% 161 3 0.06% 163 1 0.02% 164 1 0.02% 165 2 0.04% 166 2 0.04% 167 1 0.02% 171 2 0.04% 172 1 0.02% 173 3 0.06% 177 1 0.02% 187 1 0.02% 199 1 0.02% 204 1 0.02% 합계 5,000 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드■ AI모델 학습
- 구축된 데이터를 AI 모델에 학습에 적용
- 트립체인에 대한 문장형 데이터(최소 5문장)를 EEVE 10.8B 모델 학습에 적용
■ AI 모델 품질 정보
- 모델 학습 결과 분석하여 지속적으로 모델 성능 개선
- 후보모델군의 비교와 학습 모델에 대한 lora와 같은 파라미터의 효율적인 조정(PEFT) 후 각 성능 비교- Context Precision 및 Cosine Similarity 지표를 통해 자체적으로 모델의 성능 점검 및 학습 데이터 유효성 점검 후 유효성 품질 확보
AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O 질의응답 EEVE 10.8B Context Precision 0.6 이상 Input data : text output data : text AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O Speech-to-text Conformer Whisper Wav2Vec2 CER(15%) Input data : Speech data
(float matrix)output data : text (str) ※모델 아키텍쳐 : 음성인식 엔진
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드■ 데이터구성
-트립체인 데이터(원천)■ 데이터구성 -트립체인 데이터(원천) Key Description Type Child Type license 저작권 array string copyright_holder 저작권보유자 string info 일반정보 array string contributor 제작사 string date_created 데이터 생성일 string description 데이터 설명 string version 가공버전 string trip_transport_info 가공 array string
number
arraytransport_trip_id 대중교통 트립체인
고유 식별번호string gender 이용자의 성별 number age 이용자의 연령 number job 이용자의 직업 number salary 이용자의 연봉 number drive_training_yn 이용자의 운전연수여부 number drive_experience 이용자의 운전경력 number drive_frequency 이용자의 주간
대중교통 빈도
(주간대중교통이용횟수)number disability 이용자의 장애정도 number companion 동행자 number trip_purpose 이동목적 number departure_th1 출발지 기온(℃) string departure_pty 출발지 강수형태 number departure_tn1 출발지 강수량(mm) string departure 출발지 string start_time 출발 일시 string destination_th1 도착지 기온(℃) string destination_pty 도착지 강수 형태 number destination_tn1 도착지 강수량(mm) string destination 도착지 string end_time 도착 일시 string total_amount 총 소요비용 number trip_transport_waypoint_info 대중교통 경유지정보 array waypoint_id 경유지 ID string string
numbertransport_type 대중교통 종류 number country 지역 (코드) string city 경기도 시(코드) string bus_route_id 버스 노선 ID string bus_route_no 버스 노선번호 string bus_departure 버스 기점 string bus_destination 버스 종점 string bus_start_time 버스 첫차시간 string bus_end_time 버스 막차시간 string bus_interval_time 버스 평일 배차간격 number bus_interval_sat_time 버스 토요일 배차간격 number bus_interval_sun_time 버스 일요일 배차간격 number bus_departure_station_id 승차 버스 정류소 ID string bus_departure_station_name 승차 버스 정류소명 string bus_destination_station_id 하차 버스 정류소 ID string bus_destination_station_name 하차 버스 정류소명 string subway_line 지하철 노선 (코드) string subway_departure_station_name 승차 지하철 역명 string subway_destination_station_name 하차 지하철 역명 string waypoint_purpose 경유지 string -문장데이터(라벨)
■ 데이터구성 -문장데이터(라벨) Key Description Type Child Type license 저작권 array string copyright_holder 저작권보유자 string info 일반정보 array string contributor 제작사 string date_created 데이터 생성일 string description 데이터 설명 string version 가공버전 string transport_sentences_annotations 가공 array string trip_id 트립체인 식별번호 string question_type 질의종류 string question 문장(질문) string answer 문장(답변) string -음성 전사 데이터(라벨)
■ 데이터구성 -음성 전사 데이터(라벨) Key Description Type Child Type license 저작권 array string copyright_holder 저작권보유자 string info 일반정보 array string contributor 제작사 string date_created 데이터 생성일 string description 데이터 설명 string version 가공버전 string id 대중교통 음성 전사 ID array string transport_trip_id 트립체인 고유 식별번호 string annotations 가공 array string filename 전사 파일명 string labeling 전사 데이터 string ■ 어노테이션 포맷
-트립체인 데이터(원천)■ 어노테이션 포맷 -트립체인 데이터(원천) No 항목 길이 타입 필수여부 비고 영문명 설명 1 license 저작권 array Y 1-2 copyright_holder 저작권보유자 string Y 2 info 일반정보 array Y 2-1 contributor 제작사 string Y 2-2 date_created 데이터 생성일 string Y 2-3 description 데이터 설명 string Y 2-4 version 가공버전 string Y 3 trip_transport_info 가공 array Y 3-1 transport_trip_id 대중교통 트립체인 고유 식별번호 string N 3-2 gender 이용자의 성별 number N 3-3 age 이용자의 연령 number N 3-4 job 이용자의 직업 number N 3-5 salary 이용자의 연봉 number N 3-6 drive_training_yn 이용자의 운전연수여부 number N 3-7 drive_experience 이용자의 운전경력 number N 3-8 drive_frequency 이용자의 주간 대중교통 빈도
(주간대중교통이용횟수)number N 3-9 disability 이용자의 장애정도 number N 3-10 companion 동행자 number N 3-11 trip_purpose 이동목적 number N 3-12 departure_th1 출발지 기온(℃) string N 3-13 departure_pty 출발지 강수형태 number N 3-14 departure_tn1 출발지 강수량(mm) string N 3-15 departure 출발지 string N 3-16 start_time 출발 일시 string N 3-17 destination_th1 도착지 기온(℃) string N 3-18 destination_pty 도착지 강수 형태 number N 3-19 destination_tn1 도착지 강수량(mm) string N 3-20 destination 도착지 string N 3-21 end_time 도착 일시 string N 3-22 total_amount 총 소요비용 number N 3-23 trip_transport_waypoint_info 대중교통 경유지정보 array Y 3-24 waypoint_id 경유지 ID string Y 3-24-1 transport_type 대중교통 종류 number N 3-24-2 country 지역 (코드) string Y 3-24-3 city 경기도 시(코드) string Y 3-24-4 bus_route_id 버스 노선 ID string Y 3-24-5 bus_route_no 버스 노선번호 string Y 3-24-6 bus_departure 버스 기점 string Y 3-24-7 bus_destination 버스 종점 string Y 3-24-8 bus_start_time 버스 첫차시간 string Y 3-24-9 bus_end_time 버스 막차시간 string Y 3-24-10 bus_interval_time 버스 평일 배차간격 number Y 3-24-11 bus_interval_sat_time 버스 토요일 배차간격 number Y 3-24-12 bus_interval_sun_time 버스 일요일 배차간격 number Y 3-24-13 bus_departure_station_id 승차 버스 정류소 ID string Y 3-24-14 bus_departure_station_name 승차 버스 정류소명 string Y 3-24-15 bus_destination_station_id 하차 버스 정류소 ID string Y 3-24-16 bus_destination_station_name 하차 버스 정류소명 string Y 3-24-17 subway_line 지하철 노선 (코드) string Y 3-24-18 subway_departure_station_name 승차 지하철 역명 string Y 3-24-19 subway_destination_station_name 하차 지하철 역명 string Y -문장 데이터(라벨)
■ 어노테이션 포맷 -문장 데이터(라벨) No 항목 길이 타입 필수여부 비고 영문명 설명 1 license 저작권 array Y 1-1 copyright_holder 저작권 string Y 보유자 2 info 일반정보 array Y 2-1 contributor 제작사 string Y 2-2 date_created 데이터 생성일 string Y YYMMDD 2-3 description 데이터 설명 string Y 2-4 version 가공버전 string Y v1.0 3 transport_sentences_annotations 가공 array Y 3-1 trip_id 트립체인 식별번호 string Y TRANSPORT_TRIPCHAIN_0014 3-2 question_type 질의종류 string Y 통행자특성, 출도착지
경로정보, 날씨3-3 question 문장
(질문)string Y 1문장 형태의 질의문 3-4 answer 문장(답변) string Y 5문장, 50어절 이상의 생성 문장 데이터 -음성 전사 데이터(라벨)
■ 어노테이션 포맷 -음성 전사 데이터(라벨) No 항목 길이 타입 필수여부 비고 영문명 설명 1 license 저작권 array Y 1-1 copyright_holder 저작권보유자 string Y 2 info 일반정보 array Y 2-1 contributor 제작사 string Y 2-2 date_created 데이터 생성일 string Y YYMMDD 2-3 description 데이터 설명 string Y 2-4 version 가공버전 string Y v1.0 3 id 트립체인 음성 전사 ID array Y 3-1 transport_trip_id 트립체인 고유 식별번호 string Y 4 annotations 가공 array Y 4-1 filename 전사 파일명 string Y 4-2 labeling 전사 데이터 string Y ■ 라벨링 데이터 포맷
■ 라벨링 데이터 포맷 라벨링 기능 원천 데이터 포맷 라벨링 데이터 포맷 트립체인 데이터 JSON JSON 음성 데이터 MP3 JSON ■ 라벨링 데이터 규모
■ 라벨링 데이터 규모 데이터 획득 수단 원천 데이터(건) 라벨링 데이터(건) 트립체인 데이터 수집 앱 5,000 5,000 음성 데이터 수집 앱 5,000 5,000 ■ 가공 타입
■ 가공 타입 원천 데이터 포맷 가공유형 음성 데이터 음성 전사 트립체인 데이터 문장 생성 ■ 가공 예시
■ 트립 데이터
{
"license": [
{
"copyright_holder": "한국지능정보사회진흥원"
}
],
"info": [
{
"contributor": "테스트웍스",
"date_created": "241231",
"description": "대중교통 이용자 종합 트립체인 데이터",
"version": "v1.0"
}
],
"trip_transport_info": [
{
"transport_trip_id": "TRANSPORT_TRIPCHAIN_6675",
"gender": 1,
"age": 2,
"job": 6,
"salary": 1,
"drive_training_yn": 1,
"drive_experience": 2,
"drive_frequency": 5,
"disability": 1,
"companion": 1,
"trip_purpose": 1,
"departure_th1": "16.6",
"departure_pty": 1,
"departure_tn1": 0.0,
"departure": "서울 서초구 강남대로",
"start_time": "2024-10-25 18:24:00",
"destination_th1": "17.1",
"destination_pty": 1,
"destination_tn1": 0.0,
"destination": "서울 중랑구 면목로 45길 ",
"end_time": "2024-10-25 19:39:00",
"total_amount": 1600,
"waypoints": [
{
"waypoint_id": 918590,
"transport_type": 1,
"country": "1",
"city": "",
"bus_station_id": "100100409",
"bus_station_name": "421",
"subway_line": "",
"subway_up_down": "",
"subway_day_div": "",
"way_departure": "염곡동차고지",
"way_destination": "옥수동",
"way_start_time": "04:00:00",
"way_end_time": "22:10:00",
"departure_station_id": "121000008",
"departure_station_name": "래미안아파트.파이낸셜뉴스",
"destination_station_id": "121000012",
"destination_station_name": "지하철2호선강남역",
"bus_interval_time": ""
},
{
"waypoint_id": 918591,
"transport_type": 2,
"country": "",
"city": "",
"bus_station_id": "",
"bus_station_name": "",
"subway_line": "2",
"subway_up_down": "1",
"subway_day_div": "1",
"way_departure": "삼성",
"way_destination": "서울대입구",
"way_start_time": "05:36:00",
"way_end_time": "24:46:30",
"departure_station_id": "222",
"departure_station_name": "강남",
"destination_station_id": "212",
"destination_station_name": "건대입구",
"bus_interval_time": ""
},
{
"waypoint_id": 918592,
"transport_type": 2,
"country": "",
"city": "",
"bus_station_id": "",
"bus_station_name": "",
"subway_line": "7",
"subway_up_down": "1",
"subway_day_div": "1",
"way_departure": "건대입구",
"way_destination": "태릉입구",
"way_start_time": "05:30:00",
"way_end_time": "24:41:30",
"departure_station_id": "2729",
"departure_station_name": "건대입구",
"destination_station_id": "2724",
"destination_station_name": "사가정",
"bus_interval_time": ""
}
]
}
]
}
■ 음성 전사 데이터
{
"license": [
{
"copyright_holder": "한국지능정보사회진흥원"
}
],
"info": [
{
"contributor": "테스트웍스",
"date_created": "241115",
"description": "대중교통 이용자 종합 트립체인 데이터",
"version": "v1.0"
}
],
"id": [
{
"transport_trip_id": "TRANSPORT_TRIPCHAIN_6675"
}
],
"transport_transcribe_annotations": [
{
"filename": "transport_tripchain_6675_scr_voice_01_01.mp3",
"labeling": "2024년 10월 25일.집에 가기 위해 강남에서 사가정역으로 이동한다.통행자는 많다."
},
{
"filename": "transport_tripchain_6675_scr_voice_01_02.mp3",
"labeling": "버스와 지하철 2호선, 7호선을 이용하여 강남역에서 사가정으로 간다."
},
{
"filename": "transport_tripchain_6675_scr_voice_01_03.mp3",
"labeling": "어플이 알려준 소요 시간을 반영하여 출발 시간을 정한다."
},
{
"filename": "transport_tripchain_6675_scr_voice_01_04.mp3",
"labeling": "버스는 길이 막힐 것 같아서 지하철을 이용한다."
},
{
"filename": "transport_tripchain_6675_scr_voice_02_01.mp3",
"labeling": "강남역 2호선에서 환승했다.통행자가 되게 많아서 복잡했는데 질서 유지가 잘 돼서 좋았다."
},
{
"filename": "transport_tripchain_6675_scr_voice_02_02.mp3",
"labeling": "건대입구역 7호선에서 환승했다.환승 구간에 계단이 많아서 불편했다."
},
{
"filename": "transport_tripchain_6675_scr_voice_03_01.mp3",
"labeling": "강남역에서 사가정역까지 총 1600원이 늘었고, 1시간 20분이 걸렸다.전철을 반대로 타서 예상보다 10분 늦게 도착했다."
},
{
"filename": "transport_tripchain_6675_scr_voice_03_02.mp3",
"labeling": "지하철에 앉아서 편하게 왔다.이용한 대중교통 수단과 시설 모두 만족합니다."
}
]
}
■ 문장 데이터{
"license": [
{
"copyright_holder": "한국지능정보사회진흥원"
}
],
"info": [
{
"contributor": "테스트웍스",
"date_created": "241115",
"description": "대중교통 이용자 종합 트립체인 데이터",
"version": "v1.0"
}
],
"transport_sentences_annotations": [
{
"transport_trip_id": "TRANSPORT_TRIPCHAIN_6675",
"question_type": "[3.경로정보]",
"question": "집에 가기 위해 서울 서초구 강남대로에서 서울 중랑구로 대중교통을 이용하여 이동하는 대중교통 이용자는 어떻게 경로를 선택했습니까?",
"answer": "집에 가기 위해 서울 서초구 강남대로에서 서울 중랑구로 대중교통을 이용하여 이동하는 대중교통 이용자는 버스는 길이 막힐 것 같다고 예상하여 버스와 지하철을 함께 이용했습니다. 대중교통 이용 빈도가 높은 20대 여성은 동행자 없이 오후 6시 24분에 버스를 타고 앱이 알려준 소요 시간을 반영하여 출발했습니다. 2호선 강남역은 통행자가 되게 많아서 복잡했지만, 질서 유지가 잘 돼서 좋았습니다. 건대입구역은 환승 구간에 계단이 많아서 불편했습니다. 1시간 20분이 걸렸으며 총 1,600원이 소요됐고, 날씨는 출발할 때부터 도착할 때까지 맑았으며, 지하철에 앉아서 편하게 도착하였습니다."
}
]
} -
데이터셋 구축 담당자
수행기관(주관) : 테스트웍스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 동길무 02-423-5168 gmdong@testworks.co.kr 사업총괄 / 데이터 가공 및 검사 수행기관(참여)
수행기관(참여) 기관명 담당업무 흥일기업 데이터 수집 트위그팜 RAG 모델 개발 한국자동차연구원 데이터 정제 홍익대학교 산학협력단 데이터 설계 소다시스템 데이터 수집 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 동길무 02-423-5168 gmdong@testwork.co.kr 최수지 02-423-5168 sjchoi@testworks.co.kr AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 동길무 02-423-5168 gmdong@testwork.co.kr 변율희 02-1833-5926 yulhee.byun@twigfarm.net 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 동길무 02-423-5168 gmdong@testwork.co.kr 최수지 02-423-5168 sjchoi@testworks.co.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.
국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.