콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#트립체인 # 승용차 # 교통서비스 # 교통물류 # 개인 맞춤형 교통 서비스 # 통행 패턴 학습 # 멀티모달 # 음성 데이터 수집 # 텍스트 데이터 처리 # 교통 빅데이터 #자연어 #음성 #교통/모빌리티

BETA 승용차 이용자 개별 트립체인 데이터

승용차 이용자 개별 트립체인 데이터 아이콘 이미지
  • 분야교통물류
  • 유형 오디오 , 텍스트
  • 생성 방식LMM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 191 다운로드 : 15 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-17 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-17 산출물 전체 공개

    소개

    승용차 이용자 중심의 개인 맞춤형 교통서비스 제공을 위한 통행패턴 학습용 트립체인 내 음성 및 텍스트 데이터 수집 및 전처리

    구축목적

    승용차 이용자 중심의 개인 맞춤형 교통서비스 제공을 위하여 시간에 따른 혼잡도 안내 및 이동을 고려한 최적 동선 제시 등 맞춤형 서비스 제공을 위한 인공지능 학습용 데이터 구축
  • ■ 데이터 구축 규모

    ■ 데이터 구축 규모
    데이터 종류 데이터 형태 어노테이션 규모 결과물 규모
    트립체인 데이터 원천 트립체인 데이터 JSON 5,000건 5,000건
    원천 음성 데이터 MP3 5,000건 30,911건
    원천 GPS 데이터 CSV 5,000건 5,000건
    라벨링 음성전사 데이터 JSON 5,000건 5,000건
    라벨링 문장 데이터 JSON 5,000건 5,000건
    (5문장, 50어절 이상)

     

    ■ 데이터 분포 (출발지-도착지 분포)

    ■ 데이터 분포 (출발지-도착지 분포)
    지역 객체수 비율
    경기 – 경기 2,064 41.28%
    서울 - 서울 921 18.42%
    경기 - 서울 767 15.34%
    서울- 경기 726 14.52%
    경기 - 인천 167 3.34%
    인천 - 경기 150 3.00%
    서울 - 인천 77 1.54%
    인천 - 서울 70 1.40%
    인천 - 인천 58 1.16%
    합계 5,000 100%

     

    ■ 데이터 분포 (통행 목적별 분포)

    ■ 데이터 분포 (통행 목적별 분포)
    통행 목적 객체수 비율
    통근 1745 41.28%
    통학 84 18.42%
    업무 826 15.34%
    쇼핑 217 14.52%
    여행 152 3.34%
    여가 740 3.00%
    사회활동 186 1.54%
    기타 1050 1.40%
    합계 5,000 100%

     

    ■ 데이터 분포 (성별 분포)

    ■ 데이터 분포 (성별 분포)
    성별 객체수 비율
    남자 2,072 41.44%
    여자 2,928 58.56%
    합계 5,000 100%

     

    ■ 데이터 분포 (연봉별 분포)

    ■ 데이터 분포 (연봉별 분포)
    연봉 구간 객체수 비율
    3000 이하 1482 29.64%
    4000 이하 934 18.68%
    5000 이하 941 18.82%
    6000 이하 650 13.00%
    6000 초과  993 19.86%
    합계 5,000 100%

     

    ■ 데이터 분포 (직업별 분포)

    ■ 데이터 분포 (직업별 분포)
    직업군 객체수 비율
    전문직(관리직) 1064 21.28%
    사무행정직 1036 20.72%
    서비스 판매직 273 5.46%
    기술직 및 생산직 549 10.98%
    자영업(프리랜서) 804 16.08%
    기타 1102 22.04%
    없음 172 3.44%
    합계 5,000 100%

     

    ■ 데이터 분포 (날씨별 분포)

    ■ 데이터 분포 (날씨별 분포)
    날씨 객체수 비율
    맑음 4422 88.44%
    508 10.16%
    비/눈 2 0.04%
    0 0.00%
    빗방울 61 1.22%
    빗방울눈날림 7 0.14%
    눈날림 0 0.00%
    합계 5,000 100%

     

    ■ 데이터 분포 (운전경력별 분포)

    ■ 데이터 분포 (운전경력별 분포)
    운전경력 객체수 비율
    없음 0 0.00%
    1년 미만 230 4.60%
    1~3년 416 8.32%
    3~5년 433 8.66%
    5~10년 631 12.62%
    10년 이상 3290 65.80%
    합계 5,000 100%

     

    ■ 데이터 분포 (중복성 분포)

    ■ 데이터 분포 (중복성 분포)(1)
    중복 횟수 중복 포함 질문 문장수 중복 제거 문장수 비율
    0 4728 4733 94.49%
    1 84 42 0.84%
    2 54 18 0.36%
    3 12 3 0.06%
    4 20 4 0.08%
    5 6 1 0.02%
    6 14 2 0.04%
    7 8 1 0.02%
    8 9 1 0.02%
    9 30 3 0.06%
    10 11 1 0.02%
    12 13 1 0.02%
    19 20 1 0.02%
    합계 5009 4811 1.56%

     

    ■ 데이터 분포 (중복성 분포)(2)
    중복 횟수 중복 포함 답변 문장수 중복 제거 문장수 비율
    0 25892 25892 0%
    합계 25892 25892 0%

     

    ■ 데이터 분포 (연령대별 분포)

    ■ 데이터 분포 (연령대별 분포)
    연령 객체수 비율
    10대 0 0.00%
    20대 324 6.48%
    30대 1156 23.12%
    40대 1553 31.06%
    50대 1211 24.22%
    60대 이상 756 15.12%
    합계 5,000 100%

     

    ■ 데이터 분포 (선호도 분포)

    ■ 데이터 분포 (선호도 분포)
    선호도 객체수 비율
    통행자특성 1872 37.44%
    출도착지 1476 29.52%
    경로정보 1237 24.74%
    날씨(메타) 415 8.30%
    합계 5,000 100%

     

    ■ 데이터 분포 (문장수 분포)

    ■ 데이터 분포 (문장수 분포)
    문장수 객체수 비율
    5 4317 86.34%
    6 511 10.22%
    7 139 2.78%
    8 30 0.60%
    9 2 0.04%
    10 1 0.02%
    합계 5,000 100%

     

    ■ 데이터 분포 (어절수 분포)

    ■ 데이터 분포 (어절수 분포)
    어절수 기객체수 비율
    50 1 0.02%
    51 10 0.20%
    52 11 0.22%
    53 22 0.44%
    54 29 0.58%
    55 47 0.94%
    56 63 1.26%
    57 66 1.32%
    58 87 1.74%
    59 113 2.26%
    60 95 1.90%
    61 124 2.48%
    62 124 2.48%
    63 128 2.56%
    64 166 3.32%
    65 174 3.48%
    66 185 3.70%
    67 177 3.54%
    68 182 3.64%
    69 181 3.62%
    70 181 3.62%
    71 180 3.60%
    72 168 3.36%
    73 161 3.22%
    74 154 3.08%
    75 150 3.00%
    76 123 2.46%
    77 146 2.92%
    78 143 2.86%
    79 117 2.34%
    80 101 2.02%
    81 106 2.12%
    82 95 1.90%
    83 95 1.90%
    84 97 1.94%
    85 83 1.66%
    86 64 1.28%
    87 70 1.40%
    88 96 1.92%
    89 71 1.42%
    90 48 0.96%
    91 54 1.08%
    92 36 0.72%
    93 60 1.20%
    94 34 0.68%
    95 40 0.80%
    96 27 0.54%
    97 30 0.60%
    98 35 0.70%
    99 24 0.48%
    100 23 0.46%
    101 25 0.50%
    102 8 0.16%
    103 21 0.42%
    104 10 0.20%
    105 15 0.30%
    106 11 0.22%
    107 15 0.30%
    108 18 0.36%
    109 7 0.14%
    110 5 0.10%
    111 9 0.18%
    112 8 0.16%
    113 8 0.16%
    114 2 0.04%
    115 7 0.14%
    116 5 0.10%
    117 1 0.02%
    118 7 0.14%
    119 2 0.04%
    120 1 0.02%
    121 1 0.02%
    122 1 0.02%
    123 5 0.10%
    124 1 0.02%
    127 2 0.04%
    128 2 0.04%
    134 1 0.02%
    136 2 0.04%
    139 1 0.02%
    144 1 0.02%
    153 1 0.02%
    합계 5,000 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    AI모델 학습
    - 구축된 데이터를 AI 모델에 학습에 적용
    - 트립체인에 대한 문장형 데이터(최소 5문장)를 EEVE 10.8B 모델 학습에 적용
    AI 모델 품질 정보
    - 모델 학습 결과 분석하여 지속적으로 모델 성능 개선
    - 후보모델군의 비교와 학습 모델에 대한 lora와 같은 파라미터의 효율적인 조정(PEFT) 후 각 성능 비교

    모델 품질 정보

    - Context Precision 및 Cosine Similarity 지표를 통해 자체적으로 모델의 성능 점검 및 학습 데이터 유효성 점검 후 유효성 품질 확보

    cotextprecision 수식

     
    AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O
    질의응답 EEVE 10.8B Context Precision 0.6 이상 Input data : text
    output data : text 

    eeve 10

     

     
    AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O
    Speech-to-text Conformer Whisper Wav2Vec2 CER(10%) Input data : Speech data(float matrix)
    output data : text (str)

    ※모델 아키텍쳐 : 음성인식 엔진

    모델아키텍처 음성인식엔진

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ■ 데이터구성
     -트립체인 데이터(원천)

    ■ 데이터구성 -트립체인 데이터(원천)
    Key Description Type Child Type
    license 설명 array  
    copyright_holder 저작권 string string
    info 저작권보유자 array string
    contributor 일반정보 string  
    date_created 제작사 string  
    description 데이터 생성일 string  
    version 데이터 설명 string  
    trip_car_info 가공버전 array string
    number
    car_trip_id 가공 string  
    gender 승용차 트립체인 고유 식별번호 number  
    age 이용자의 성별 number  
    job 이용자의 연령 number  
    salary 이용자의 직업 number  
    drive_training_yn 이용자의 연봉 number  
    drive_experience 이용자의 운전연수여부 number  
    drive_frequency 이용자의 운전경력 number  
    disability 이용자의 주간 승용빈도 number  
    (주간자차이용횟수)
    companion 이용자의 장애정도 number  
    luggage 동승자  number  
    trip_purpose 소지품 number  
    car_type 이동목적  number  
    fuel_type 차량 종류  number  
    departure_th1 연료 종류  string  
    departure_pty 출발지 기온(℃) number  
    departure_tn1 출발지 강수형태  string  
    start_time 출발지 강수량(mm) string  
    departure 출발 일시 string  
    departure_landmark 출발지 string  
    start_fuel_stat 출발지 주요 시설물 number  
    end_time 출발지 연료량  string  
    destination 도착 일시 string  
    destination_landmark 도착지 string  
    destination_th1 도착지 주변 주요 시설물 string  
    destination_pty 도착지 기온(℃) number  
    destination_tn1 도착지 강수 형태 string  
    gas_station_name 도착지 강수량(mm) string  
    refuel_amount 주유소명 number  
    end_fuel_stat 주유 금액 number  
    tg_yn 도착지 연료량  string  
    tg_fare 톨게이트 통과 유무 number  
    waypoint_id 톨게이트 비용 string  
    waypoint 경유지 ID
    (1에서99,999,999,999까지의숫자와공백을포함할수있는텍스트)
    string  
    waypoint_purpose 경유지 string  

     -GPS데이터(원천)

    ■ 데이터구성 -GPS데이터(원천)
    Key Description Type Child Type
    car_trip_id 승용차 트립체인 고유 식별번호 string  
    gps_id GPS ID number  
    gps_time GPS 일시 string  
    lat 위도 string  
    lng 경도 string  
    speed 속도 string  

     -문장데이터(라벨)

    ■ 데이터구성 -문장데이터(라벨)
    Key Description Type Child Type
    license 저작권 array string
    copyright_holder 저작권보유자 string  
    info 일반정보 array string
    contributor 제작사 string  
    date_created 데이터 생성일 string  
    description 데이터 설명 string  
    version 가공버전 string  
    annotations 가공 array string
    trip_id 트립체인 식별번호 string  
    question_type 질의종류 string  
    question 문장(질문) string  
    answer 문장(답변) string  

     -음성 전사 데이터(라벨)

    ■ 데이터구성 -음성 전사 데이터(라벨)
    Key Description Type Child Type
    license 저작권 array string
    copyright_holder 저작권보유자 string  
    info 일반정보 array string
    contributor 제작사 string  
    date_created 데이터 생성일 string  
    description 데이터 설명 string  
    version 가공버전 string  
    id 승용차 음성 전사 ID array string
    car_trip_id 트립체인 고유 식별번호 string  
    annotations 가공 array string
    filename 전사 파일명 string  
    labeling 전사 데이터 string  

     

    ■ 어노테이션 포맷
     -트립체인 데이터(원천)

    ■ 어노테이션 포맷 -트립체인 데이터(원천)
    No 항목 길이 타입 필수여부 비고
      영문명 설명        
    1 license 저작권   array Y  
      1-1 copyright_holder 저작권보유자   string Y  
    2 info 일반정보   array Y  
      2-1 contributor 제작사   string Y  
    2-2 date_created 데이터 생성일   string Y NNMMDD
    2-3 description 데이터 설명   string Y  
    2-4 version 가공버전   string Y v1.0
    3 trip_car_info 가공   array Y  
      3-1 car_trip_id 승용차 트립체인 고유 식별번호   string Y CAR_TRIPCHAIN_0001 ~ CAR_TRIPCHAIN_9999 형식의 값
    3-2 gender 이용자의 성별   number Y 1:여성 2:남성
    3-3 age 이용자의 연령   number Y 1:10대
    2:20대
    3:30대
    4:40대
    5:50대
    6:60대이상
    3-4 job 이용자의 직업   number Y 1:전문직(관리직)
    2:사무행정직3:서비스판매직
    4:기술직및생산직
    5:자영업(프리랜서)
    6:기타
    7:없음
    3-5 salary 이용자의 연봉   number Y 1: 3000이하
    2:4000이하
    3:5000이하
    4:6000이하
    5:6000초과
    3-6 drive_training_yn 이용자의 운전연수여부   number Y 0:Y
    1:N
    3-7 drive_experience 이용자의 운전경력   number Y 1:없음
    2:1년미만
    3:1~3년
    4:3~5년
    5:5~10년
    6:10년이상
    3-8 drive_frequency 이용자의 주간 승용빈도
    (주간자차이용횟수)
      number Y 1:없음
    2:1회이하
    3:2~3회
    4:4~5회
    5:6~7회/매일
    3-9 disability 이용자의 장애정도   number Y 1:해당없음
    2:거동불편
    3:거동불가
    3-10 companion 동승자    number Y 1:없음(혼자)
    2:가족
    3:친구/지인
    4:연인
    5:직장동료
    3-11 luggage 소지품   number Y 1:없음
    2:가벼운소지품(가방등)
    3:약간무거움(책,노트북등
    4:부피가크거나무거운물건(개인이동불가))
    3-12 trip_purpose 이동목적    number Y 1:통근
    2:통학
    3:업무
    4:쇼핑
    5:여행
    6:여가
    7:사회활동
    8:기타
    3-13 car_type 차량 종류    number Y 1:경차
    2:소형차
    3:중형차
    4:대형차
    5:SUV
    6:승합차
    7:기타
    3-14 fuel_type 연료 종류    number Y 1:휘발유
    2:경유
    3:LPG
    4:전기
    5:기타
    3-15 departure_th1 출발지 기온(℃)   string Y  
    3-16 departure_pty 출발지 강수형태    number Y 1:없음
    2:비
    3:비/눈
    4:눈
    5:빗방울
    6:빗방울눈날림
    7:눈날림
    3-17 departure_tn1 출발지 강수량(mm)   string Y 강수량 (최대 4자리 숫자 중 소수점 이하 1자리 허용)
    3-18 start_time 출발 일시   string Y  
    3-19 departure 출발지   string Y  
    3-20 departure_landmark 출발지 주요 시설물   string N  
    3-21 start_fuel_stat     number Y 1:1/4미만
    2:1/4이상1/2이하
    3:1/2이상3/4미만
    4:3/4이상
    3-22 end_time     string Y  
    3-23 destination     string Y  
    3-24 destination_landmark     string N  
    3-25 destination_th1     string Y  
    3-26 destination_pty     number Y 1:없음
    2:비
    3:비/눈
    4:눈
    5:빗방울
    6:빗방울눈날림
    7:눈날림
    3-27 destination_tn1     string Y 강수량 (소수점 이하 1자리 허용)
    3-28 gas_station_name     string N  
    3-29 refuel_amount     number N  
    3-30 end_fuel_stat     number N 1:1/4미만
    2:1/4이상1/2이하
    3:1/2이상3/4미만
    4:3/4이상
    3-31 tg_yn     string Y 0:Y
    1:N
    3-32 tg_fare     number N  
    3-33 waypoint_id     string N  
    3-34 waypoint     string N  
    3-35 waypoint_purpose     string N  

     -GPS 데이터(원천)

    ■ 어노테이션 포맷 -GPS 데이터(원천)
    No 항목 길이 타입 필수여부 비고
      영문명 설명        
    1 car_trip_id 승용차 트립체인 고유 식별번호   string Y CAR_TRIPCHAIN_0001 ~ CAR_TRIPCHAIN_9999 형식의 값
    2 gps_id GPS ID   number Y  
    3 gps_time GPS 일시   string Y  
    4 lat 위도   string Y 위도 (범위: -90.0에서 90.0 사이, 소수점 이하 7자리까지 허용)
    5 lng 경도   string Y 경도 (범위: -180.0에서 180.0 사이, 소수점 이하 7자리까지 허용)
    6 speed 속도   string Y 속도 (양수 및 소수점 이하 최대 10자리까지 허용하는 부동 소수점 숫자)

     -문장 데이터(라벨)

    ■ 어노테이션 포맷 -문장 데이터(라벨)
    No 항목 길이 타입 필수여부 비고
      영문명 설명        
    1 license 저작권   array Y  
      1-1 copyright_holder 저작권   string Y  
    보유자
    2 info 일반정보   array Y  
      2-1 contributor 제작사   string Y  
    2-2 date_created 데이터 생성일   string Y YYMMDD
    2-3 description 데이터 설명   string Y  
    2-4 version 가공버전   string Y v1.0
    3 annotations 가공   array Y  
      3-1 trip_id 트립체인 식별번호   string Y CAR_TRIPCHAIN_0014
    3-2 question_type 질의종류   string Y 통행자특성, 출도착지
    경로정보, 날씨
    3-3 question 문장
    (질문)
      string Y 1문장 형태의 질의문
    3-4 answer 문장
    (답변)
      string Y 5문장, 50어절 이상의 생성 문장 데이터

     -음성 전사 데이터(라벨)

    ■ 어노테이션 포맷 -음성 전사 데이터(라벨)
    No 항목 길이 타입 필수여부 비고
      영문명 설명        
    1 license 저작권   array Y  
      1-1 copyright_holder 저작권보유자   string Y  
    2 info 일반정보   array Y  
      2-1 contributor 제작사   string Y  
    2-2 date_created 데이터 생성일   string Y YYMMDD
    2-3 description 데이터 설명   string Y  
    2-4 version 가공버전   string Y v1.0
    3 id 승용차 음성 전사 ID   array Y  
      3-1 car_trip_id 트립체인 고유 식별번호   string Y  
    4 annotations 가공   array Y  
      4-1 filename 전사 파일명   string Y  
    4-2 labeling 전사 데이터   string Y  

     

    ■ 라벨링 데이터 포맷

    ■ 라벨링 데이터 포맷
    라벨링 기능 원천 데이터 포맷 라벨링 데이터 포맷
    트립체인 데이터 JSON JSON
    GPS 데이터 CSV -
    음성 데이터 MP3 JSON

     

    ■ 라벨링 데이터 규모

    ■ 라벨링 데이터 규모
    데이터 획득 수단 원천 데이터(건) 라벨링 데이터(건)
    트립체인 데이터 수집 앱 5,000 5,000
    GPS 데이터 수집 앱 5,000 -
    음성 데이터 수집 앱 5,000 5,000

     

    ■ 가공 타입

    ■ 가공 타입
    원천 데이터 포맷 가공유형
    음성 데이터 음성 전사
    트립체인 데이터 문장 생성

     

    ■ 가공 예시

    가공 예시 녹음 정보

    가공 예시 문장 생성

     

    ■ 트립 데이터 

    {
        "license": [
            {
                "copyright_holder": "한국지능정보사회진흥원"
            }
        ],
        "info": [
            {
                "contributor": "테스트웍스",
                "date_created": "240103",
                "description": "승용차 이용자 개별 트립체인 데이터",
                "version": "v1.0"
            }
        ],
        "trip_car_info": [
            {
                "car_trip_id": "CAR_TRIPCHAIN_6722",
                "gender": 2,
                "age": 4,
                "job": 2,
                "salary": 5,
                "drive_training_yn": 1,
                "drive_experience": 6,
                "drive_frequency": 5,
                "disability": 1,
                "companion": 2,
                "luggage": 2,
                "trip_purpose": 6,
                "car_type": 3,
                "fuel_type": 2,
                "departure_th1": "17.0",
                "departure_pty": 2,
                "departure_tn1": 8.0,
                "start_time": "2024-10-18 09:35:00",
                "departure": "서울 동대문구 한천로",
                "departure_landmark": "",
                "start_fuel_stat": 3,
                "end_time": "2024-10-18 10:55:00",
                "destination": "경기 파주시 적성면 양연로",
                "destination_landmark": "",
                "destination_th1": "17.0",
                "destination_pty": 2,
                "destination_tn1": 10.0,
                "gas_station_name": "적암주유소",
                "refuel_amount": 44000,
                "end_fuel_stat": 4,
                "tg_yn": "0",
                "tg_fare": 0,
                "waypoints": []
            }
        ]
    }

     

    ■ GPS 데이터(CSV)

    ■ GPS 데이터(CSV)
    car_trip_id gps_id gps_time lat lng speed
    CAR_TRIPCHAIN_6722 1748317 2024-10-29 17:12 37.49509 127.046 0
    CAR_TRIPCHAIN_6722 1748318 2024-10-29 17:12 37.49511 127.046 0.881631
    CAR_TRIPCHAIN_6722 1748319 2024-10-29 17:12 37.49513 127.046 0.875951
    CAR_TRIPCHAIN_6722 1748320 2024-10-29 17:12 37.49511 127.046 0.888625
    CAR_TRIPCHAIN_6722 1748321 2024-10-29 17:12 37.4951 127.0459 3.32991
    CAR_TRIPCHAIN_6722 1748322 2024-10-29 17:12 37.4951 127.0459 0.183787
    CAR_TRIPCHAIN_6722 1748323 2024-10-29 17:13 37.49512 127.0459 1.01806
    CAR_TRIPCHAIN_6722 1748324 2024-10-29 17:13 37.49511 127.046 3.75021
    CAR_TRIPCHAIN_6722 1748325 2024-10-29 17:13 37.4951 127.046 1.07794

     

    ■ 음성 전사 데이터

    {
        "license": [
            {
                "copyright_holder": "한국지능정보사회진흥원"
            }
        ],
        "info": [
            {
                "contributor": "테스트웍스",
                "date_created": "241115",
                "description": "승용차 이용자 개별 트립체인 데이터",
                "version": "v1.0"
            }
        ],
        "id": [
            {
                "car_trip_id": "CAR_TRIPCHAIN_6722"
            }
        ],
        "car_transcribe_annotations": [
            {
                "filename": "car_tripchain_6722_scr_voice_01_01.mp3",
                "labeling": "2024년 10월 18일 오전 9시 30분에 처가댁을 가기 위해 동대문에서 파주로 출발한다.차량에 익숙한 길이어서 바로 출발한다.날씨는 비가 오고 있다."
            },
            {
                "filename": "car_tripchain_6722_scr_voice_01_02.mp3",
                "labeling": "준비하는 대로 바로 출발하였다."
            },
            {
                "filename": "car_tripchain_6722_scr_voice_01_03.mp3",
                "labeling": "익숙한 길이어서 내비게이션은 활용하지 않았고, 익숙한 길로 갔다.동부간선도로를 이용하였다."
            },
            {
                "filename": "car_tripchain_6722_scr_voice_03_01.mp3",
                "labeling": "도착지가 익숙한 곳이라 바로 도착하였다."
            },
            {
                "filename": "car_tripchain_6722_scr_voice_03_02.mp3",
                "labeling": "비가 와서 그런지 평소보다 20분은 더 걸린 것 같다."
            },
            {
                "filename": "car_tripchain_6722_scr_voice_03_03.mp3",
                "labeling": "예상보다 거리에 차가 많아서 늦게 도착했다.앞으로는 내비게이션을 활용해 보겠다."
            }
        ]
    }

     

    ■ 문장 데이터

    {
        "license": [
            {
                "copyright_holder": "한국지능정보사회진흥원"
            }
        ],
        "info": [
            {
                "contributor": "테스트웍스",
                "date_created": "241115",
                "description": "대중교통 이용자 종합 트립체인 데이터",
                "version": "v1.0"
            }
        ],
        "car_sentences_annotations": [
            {
                "car_trip_id": "CAR_TRIPCHAIN_6722",
                "question_type": "[2.출도착지]",
                "question": "동대문에서 파주로 이동하는 40대 남성의 이동 목적은 무엇인가요.",
                "answer": "운전 경력이 10년 이상인 40대 남성은 처가댁에 방문하기 위해 동대문에서 파주로 승용차를 이용해 이동합니다. 10월 18일 오전 9시 30분에 동대문에서 파주로 이동하며 익숙한 길이기 때문에 내비게이션 없이 출발합니다. 동부 간선도로를 경유하는 경로로 이동하며 톨게이트를 통과하지 않아서 톨게이트 비용도 따로 발생하지 않았습니다. 중간에 적암 주유소에 들러서 44,000원을 주유하고 이동했으며 도착해서 연료는 3/4 이상이 남았습니다. 예상보다 거리에 차가 많아서 예상 도착 시간보다 늦게 도착했으며 비가 와서 평소보다 30분 정도 더 늦게 도착했습니다."
            }
        ]
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : 테스트웍스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    동길무 02-423-5168 gmdong@testworks.co.kr 사업총괄 / 데이터 가공 및 검사
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    소다시스템 데이터 수집
    트위그팜 RAG 모델 개발
    한국자동차연구원 데이터 정제
    홍익대학교 산학협력단 데이터 설계
    흥일기업 데이터 수집
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    동길무 02-423-5168 gmdong@testworks.co.kr
    최수지 02-423-5168 sjchoi@testworks.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    동길무 02-423-5168 gmdong@testworks.co.kr
    변율희 02-1833-5926 yulhee.byun@twigfarm.net
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    동길무 02-423-5168 gmdong@testworks.co.kr
    최수지 02-423-5168 sjchoi@testworks.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.