콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#트립체인 # 대중교통 # 환승센터 # 교통서비스 # 교통물류 # 개인 맞춤형 교통 서비스 # 통행 패턴 학습 # 멀티모달 # 음성 데이터 수집 # 텍스트 데이터 처리 # 교통 빅데이터 #자연어 #음성 #교통/모빌리티

BETA 대중교통 이용자 종합 트립체인 데이터

대중교통 이용자 종합 트립체인 데이터 아이콘 이미지
  • 분야교통물류
  • 유형 오디오 , 텍스트
  • 생성 방식LMM
구축년도 : 2024 갱신년월 : 2025-04 조회수 : 174 다운로드 : 7 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 25년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2025-04-17 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2025-04-17 산출물 전체 공개

    소개

    대중교통 이용자 중심의 개인 맞춤형 교통서비스 제공을 위한 통행패턴 학습용 트립체인 내 음성 및 텍스트 데이터 수집 및 전처리

    구축목적

    대중교통 및 환승시설 중심의 개인 맞춤형 교통서비스 제공을 위하여 시간에 따른 혼잡도 안내 및 이동을 고려한 최적 동선 제시 등 맞춤형 서비스 제공을 위한 인공지능 학습용 데이터 구축
  • ■ 데이터 구축 규모

    ■ 데이터 구축 규모
    데이터 종류 데이터 형태 어노테이션
    규모
    결과물 규모
    트립체인
    데이터
    원천 트립체인
    데이터
    JSON 5,000건 5,000건
    원천 음성 데이터 MP3 5,000건 30,911건
    라벨링 음성전사
    데이터
    JSON 5,000건 5,000건
    라벨링 문장 데이터 JSON 5,000건 5,000건
    (5문장, 50어절 이상)

     

    ■ 데이터 분포 (출발지-도착지 분포)

    ■ 데이터 분포 (출발지-도착지 분포)
    지역 객체수 비율
    서울 - 서울 2517 50.34%
    경기 - 서울 867 17.34%
    서울- 경기 846 16.92%
    경기 - 경기 438 8.76%
    인천 - 서울 119 2.38%
    서울- 인천 103 2.06%
    인천 - 인천 45 0.90%
    인천 - 경기 35 0.70%
    경기 - 인천 30 0.60%
    합계 5,000 100%

     

    ■ 데이터 분포 (환승 횟수별 분포)

    ■ 데이터 분포 (환승 횟수별 분포)
    환승 횟수 객체수 비율
    1 1 0.02%
    2 95 1.90%
    3 4698 93.96%
    4 202 4.04%
    5 4 0.08%
    합계 5,000 100%

     

    ■ 데이터 분포 (통행 목적별 분포)

    ■ 데이터 분포 (통행 목적별 분포)
    통행 목적 객체수 비율
    통근 1692 33.84%
    통학 291 5.82%
    업무 831 16.62%
    쇼핑 204 4.08%
    여행 44 0.88%
    여가 854 17.08%
    사회활동 328 6.56%
    기타 756 15.12%
    합계 5,000 100%

     

    ■ 데이터 분포 (성별 분포)

    ■ 데이터 분포 (성별 분포)
    성별 객체수 비율
    남자 3161 63.22%
    여자 1839 36.78%
    합계 5,000 100%

     

    ■ 데이터 분포 (연봉별 분포)

    ■ 데이터 분포 (연봉별 분포)
    연봉 구간 객체수 비율
    3000 이하 3227 64.54%
    4000 이하 725 14.50%
    5000 이하 448 8.96%
    6000 이하 217 4.34%
    6000 초과  383 7.66%
    합계 5,000 100%

     

    ■ 데이터 분포 (직업별 분포)

    ■ 데이터 분포 (직업별 분포)
    직업군 객체수 비율
    전문직(관리직) 255 5.10%
    사무행정직 1163 23.26%
    서비스 판매직 90 1.80%
    기술직 및 생산직 233 4.66%
    자영업(프리랜서) 939 18.78%
    기타 1624 32.48%
    없음 696 13.92%
    합계 5,000 100%

     

    ■ 데이터 분포 (날씨별 분포)

    ■ 데이터 분포 (날씨별 분포)
    날씨 객체수 비율
    맑음 4441 88.82%
    474 9.48%
    비/눈 1 0.02%
    0 0.00%
    빗방울 83 1.66%
    빗방울눈날림 1 0.02%
    눈날림 0 0.00%
    합계 5,000 100%

     

    ■ 데이터 분포 (운전경력별 분포)

    ■ 데이터 분포 (운전경력별 분포)
    운전경력 객체수 비율
    없음 1436 28.72%
    1년 미만 951 19.02%
    1~3년 481 9.62%
    3~5년 306 6.12%
    5~10년 408 8.16%
    10년 이상 1418 28.36%
    합계 5,000 100%

     

    ■ 데이터 분포 (중복성 분포)

    ■ 데이터 분포 (중복성 분포) (1)
    중복 횟수 중복 포함 질문 문장수 중복 제거 문장수 비율
    0 4865 4865 0.00%
    1 64 32 0.64%
    2 18 6 0.24%
    3 16 4 0.24%
    4 10 2 0.16%
    5 6 1 0.10%
    6 14 2 0.24%
    30 31 1 0.60%
    합계 5,024 4,913 2.21%

     

    ■ 데이터 분포 (중복성 분포) (2)
    중복 횟수 중복 포함 답변 문장수 중복 제거 문장수 비율
    0 26772 26772 0.00%
    1 20 10 0.04%
    4 5 1 0.01%
    합계 26,797 26,783 0.05%

     

    ■ 데이터 분포 (연령대별 분포)

    ■ 데이터 분포 (연령대별 분포)
    연령 객체수 비율
    10대 0 0.00%
    20대 1329 26.58%
    30대 1401 28.02%
    40대 578 11.56%
    50대 1004 20.08%
    60대 이상 688 12.80%
    합계 5,000 100%

     

    ■ 데이터 분포 (선호도 분포)

    ■ 데이터 분포 (선호도 분포)
    선호도 객체수 비율
    통행자특성 1134 22.68%
    출도착지 1482 29.64%
    경로정보 1921 38.42%
    날씨(메타) 463 9.26%
    합계 5,000 100%

     

    ■ 데이터 분포 (문장수 분포)

    ■ 데이터 분포 (문장수 분포)
    문장수 객체수 비율
    5 3966 79.32%
    6 557 11.14%
    7 296 5.92%
    8 112 2.24%
    9 40 0.80%
    10 24 0.48%
    11 4 0.08%
    13 1 0.02%
    합계 5,000 100%

     

    ■ 데이터 분포 (어절수 분포)

    ■ 데이터 분포 (어절수 분포)
    어절수 기객체수 비율
    50 2 0.04%
    51 6 0.12%
    52 10 0.20%
    53 14 0.28%
    54 23 0.46%
    55 33 0.66%
    56 34 0.68%
    57 34 0.68%
    58 57 1.14%
    59 63 1.26%
    60 49 0.98%
    61 68 1.36%
    62 81 1.62%
    63 93 1.86%
    64 81 1.62%
    65 102 2.04%
    66 98 1.96%
    67 96 1.92%
    68 141 2.82%
    69 102 2.04%
    70 124 2.48%
    71 125 2.50%
    72 143 2.86%
    73 128 2.56%
    74 133 2.66%
    75 128 2.56%
    76 131 2.62%
    77 136 2.72%
    78 122 2.44%
    79 110 2.20%
    80 115 2.30%
    81 115 2.30%
    82 115 2.30%
    83 96 1.92%
    84 118 2.36%
    85 100 2.00%
    86 100 2.00%
    87 100 2.00%
    88 89 1.78%
    89 116 2.32%
    90 90 1.80%
    91 63 1.26%
    92 86 1.72%
    93 80 1.60%
    94 71 1.42%
    95 69 1.38%
    96 53 1.06%
    97 63 1.26%
    98 57 1.14%
    99 45 0.90%
    100 51 1.02%
    101 52 1.04%
    102 37 0.74%
    103 37 0.74%
    104 35 0.70%
    105 34 0.68%
    106 32 0.64%
    107 29 0.58%
    108 27 0.54%
    109 41 0.82%
    110 23 0.46%
    111 24 0.48%
    112 23 0.46%
    113 13 0.26%
    114 19 0.38%
    115 17 0.34%
    116 7 0.14%
    117 23 0.46%
    118 7 0.14%
    119 18 0.36%
    120 6 0.12%
    121 11 0.22%
    122 14 0.28%
    123 8 0.16%
    124 7 0.14%
    125 10 0.20%
    126 6 0.12%
    127 12 0.24%
    128 11 0.22%
    129 10 0.20%
    130 8 0.16%
    131 5 0.10%
    132 8 0.16%
    133 5 0.10%
    134 6 0.12%
    135 7 0.14%
    136 7 0.14%
    137 5 0.10%
    138 4 0.08%
    139 6 0.12%
    140 6 0.12%
    141 4 0.08%
    142 4 0.08%
    143 6 0.12%
    144 6 0.12%
    145 5 0.10%
    146 4 0.08%
    147 3 0.06%
    148 4 0.08%
    150 2 0.04%
    151 5 0.10%
    152 3 0.06%
    153 1 0.02%
    154 1 0.02%
    155 5 0.10%
    156 2 0.04%
    157 1 0.02%
    158 2 0.04%
    159 1 0.02%
    160 2 0.04%
    161 3 0.06%
    163 1 0.02%
    164 1 0.02%
    165 2 0.04%
    166 2 0.04%
    167 1 0.02%
    171 2 0.04%
    172 1 0.02%
    173 3 0.06%
    177 1 0.02%
    187 1 0.02%
    199 1 0.02%
    204 1 0.02%
    합계 5,000 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ■ AI모델 학습
     - 구축된 데이터를 AI 모델에 학습에 적용
     - 트립체인에 대한 문장형 데이터(최소 5문장)를 EEVE 10.8B 모델 학습에 적용


    ■ AI 모델 품질 정보
     - 모델 학습 결과 분석하여 지속적으로 모델 성능 개선
     - 후보모델군의 비교와 학습 모델에 대한 lora와 같은 파라미터의 효율적인 조정(PEFT) 후 각 성능 비교

    PEFT 후 각 성능비교

     - Context Precision 및 Cosine Similarity 지표를 통해 자체적으로 모델의 성능 점검 및 학습 데이터 유효성 점검 후 유효성 품질 확보

    contextprecison 수식

     

     
    AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O
    질의응답 EEVE 10.8B Context Precision 0.6 이상 Input data : text
    output data : text 

    eeve

     

     
    AI모델 task AI모델(선정) 성능 지표 및 목표값 Data I/O
    Speech-to-text Conformer Whisper Wav2Vec2 CER(15%) Input data : Speech data
    (float matrix)
    output data : text (str)

    ※모델 아키텍쳐 : 음성인식 엔진

    CER 모델 아키텍처

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    ■ 데이터구성
     -트립체인 데이터(원천)

    ■ 데이터구성  -트립체인 데이터(원천)
    Key Description Type Child Type
    license 저작권 array string
    copyright_holder 저작권보유자 string  
    info 일반정보 array string
    contributor 제작사 string  
    date_created 데이터 생성일 string  
    description 데이터 설명 string  
    version 가공버전 string  
    trip_transport_info 가공 array string
    number
    array
    transport_trip_id 대중교통 트립체인
    고유 식별번호
    string  
    gender 이용자의 성별 number  
    age 이용자의 연령 number  
    job 이용자의 직업 number  
    salary 이용자의 연봉 number  
    drive_training_yn 이용자의 운전연수여부 number  
    drive_experience 이용자의 운전경력 number  
    drive_frequency 이용자의 주간
    대중교통 빈도
    (주간대중교통이용횟수)
    number  
    disability 이용자의 장애정도 number  
    companion 동행자  number  
    trip_purpose 이동목적  number  
    departure_th1 출발지 기온(℃) string  
    departure_pty 출발지 강수형태  number  
    departure_tn1 출발지 강수량(mm) string  
    departure 출발지 string  
    start_time 출발 일시 string  
    destination_th1 도착지 기온(℃) string  
    destination_pty 도착지 강수 형태 number  
    destination_tn1 도착지 강수량(mm) string  
    destination 도착지 string  
    end_time 도착 일시 string  
    total_amount 총 소요비용 number  
    trip_transport_waypoint_info 대중교통 경유지정보 array  
    waypoint_id 경유지 ID string string
    number
    transport_type 대중교통 종류 number  
    country 지역 (코드) string  
    city 경기도 시(코드) string  
    bus_route_id 버스 노선 ID string  
    bus_route_no 버스 노선번호 string  
    bus_departure 버스 기점 string  
    bus_destination 버스 종점 string  
    bus_start_time 버스 첫차시간 string  
    bus_end_time 버스 막차시간 string  
    bus_interval_time 버스 평일 배차간격 number  
    bus_interval_sat_time 버스 토요일 배차간격 number  
    bus_interval_sun_time 버스 일요일 배차간격 number  
    bus_departure_station_id 승차 버스 정류소 ID string  
    bus_departure_station_name 승차 버스 정류소명 string  
    bus_destination_station_id 하차 버스 정류소 ID string  
    bus_destination_station_name 하차 버스 정류소명 string  
    subway_line 지하철 노선 (코드) string  
    subway_departure_station_name 승차 지하철 역명 string  
    subway_destination_station_name 하차 지하철 역명 string  
    waypoint_purpose 경유지 string  

     -문장데이터(라벨)

    ■ 데이터구성 -문장데이터(라벨)
    Key Description Type Child Type
    license 저작권 array string
    copyright_holder 저작권보유자 string  
    info 일반정보 array string
    contributor 제작사 string  
    date_created 데이터 생성일 string  
    description 데이터 설명 string  
    version 가공버전 string  
    transport_sentences_annotations 가공 array string
    trip_id 트립체인 식별번호 string  
    question_type 질의종류 string  
    question 문장(질문) string  
    answer 문장(답변) string  

     -음성 전사 데이터(라벨)

    ■ 데이터구성 -음성 전사 데이터(라벨)
    Key Description Type Child Type
    license 저작권 array string
    copyright_holder 저작권보유자 string  
    info 일반정보 array string
    contributor 제작사 string  
    date_created 데이터 생성일 string  
    description 데이터 설명 string  
    version 가공버전 string  
    id 대중교통 음성 전사 ID array string
    transport_trip_id 트립체인 고유 식별번호 string  
    annotations 가공 array string
    filename 전사 파일명 string  
    labeling 전사 데이터 string  

     

    ■ 어노테이션 포맷
     -트립체인 데이터(원천)

    ■ 어노테이션 포맷 -트립체인 데이터(원천)
    No 항목 길이 타입 필수여부 비고
      영문명 설명        
    1 license 저작권   array Y  
      1-2 copyright_holder 저작권보유자   string Y  
    2 info 일반정보   array Y  
      2-1 contributor 제작사   string Y  
    2-2 date_created 데이터 생성일   string Y  
    2-3 description 데이터 설명   string Y  
    2-4 version 가공버전   string Y  
    3 trip_transport_info 가공   array Y  
      3-1 transport_trip_id 대중교통 트립체인 고유 식별번호   string N  
    3-2 gender 이용자의 성별   number N  
    3-3 age 이용자의 연령   number N  
    3-4 job 이용자의 직업   number N  
    3-5 salary 이용자의 연봉   number N  
    3-6 drive_training_yn 이용자의 운전연수여부   number N  
    3-7 drive_experience 이용자의 운전경력   number N  
    3-8 drive_frequency 이용자의 주간 대중교통 빈도
    (주간대중교통이용횟수)
      number N  
    3-9 disability 이용자의 장애정도   number N  
    3-10 companion 동행자    number N  
    3-11 trip_purpose 이동목적    number N  
    3-12 departure_th1 출발지 기온(℃)   string N  
    3-13 departure_pty 출발지 강수형태    number N  
    3-14 departure_tn1 출발지 강수량(mm)   string N  
    3-15 departure 출발지   string N  
    3-16 start_time 출발 일시   string N  
    3-17 destination_th1 도착지 기온(℃)   string N  
    3-18 destination_pty 도착지 강수 형태   number N  
    3-19 destination_tn1 도착지 강수량(mm)   string N  
    3-20 destination 도착지   string N  
    3-21 end_time 도착 일시   string N  
    3-22 total_amount 총 소요비용   number N  
    3-23 trip_transport_waypoint_info 대중교통 경유지정보   array Y  
      3-24 waypoint_id 경유지 ID   string Y  
        3-24-1 transport_type 대중교통 종류   number N  
        3-24-2 country 지역 (코드)   string Y  
        3-24-3 city 경기도 시(코드)   string Y  
        3-24-4 bus_route_id 버스 노선 ID   string Y  
        3-24-5 bus_route_no 버스 노선번호   string Y  
        3-24-6 bus_departure 버스 기점   string Y  
        3-24-7 bus_destination 버스 종점   string Y  
        3-24-8 bus_start_time 버스 첫차시간   string Y  
        3-24-9 bus_end_time 버스 막차시간   string Y  
        3-24-10 bus_interval_time 버스 평일 배차간격   number Y  
        3-24-11 bus_interval_sat_time 버스 토요일 배차간격   number Y  
        3-24-12 bus_interval_sun_time 버스 일요일 배차간격   number Y  
        3-24-13 bus_departure_station_id 승차 버스 정류소 ID   string Y  
        3-24-14 bus_departure_station_name 승차 버스 정류소명   string Y  
        3-24-15 bus_destination_station_id 하차 버스 정류소 ID   string Y  
        3-24-16 bus_destination_station_name 하차 버스 정류소명   string Y  
        3-24-17 subway_line 지하철 노선 (코드)   string Y  
        3-24-18 subway_departure_station_name 승차 지하철 역명   string Y  
        3-24-19 subway_destination_station_name 하차 지하철 역명   string Y  

     -문장 데이터(라벨)

    ■ 어노테이션 포맷 -문장 데이터(라벨)
    No 항목 길이 타입 필수여부 비고
      영문명 설명        
    1 license 저작권   array Y  
      1-1 copyright_holder 저작권   string Y  
    보유자
    2 info 일반정보   array Y  
      2-1 contributor 제작사   string Y  
    2-2 date_created 데이터 생성일   string Y YYMMDD
    2-3 description 데이터 설명   string Y  
    2-4 version 가공버전   string Y v1.0
    3 transport_sentences_annotations 가공   array Y  
      3-1 trip_id 트립체인 식별번호   string Y TRANSPORT_TRIPCHAIN_0014
    3-2 question_type 질의종류   string Y 통행자특성, 출도착지
    경로정보, 날씨
    3-3 question 문장
    (질문)
      string Y 1문장 형태의 질의문
    3-4 answer 문장(답변)   string Y 5문장, 50어절 이상의 생성 문장 데이터

     -음성 전사 데이터(라벨)

    ■ 어노테이션 포맷 -음성 전사 데이터(라벨)
    No 항목 길이 타입 필수여부 비고
      영문명 설명        
    1 license 저작권   array Y  
      1-1 copyright_holder 저작권보유자   string Y  
    2 info 일반정보   array Y  
      2-1 contributor 제작사   string Y  
    2-2 date_created 데이터 생성일   string Y YYMMDD
    2-3 description 데이터 설명   string Y  
    2-4 version 가공버전   string Y v1.0
    3 id 트립체인 음성 전사 ID   array Y  
      3-1 transport_trip_id 트립체인 고유 식별번호   string Y  
    4 annotations 가공   array Y  
      4-1 filename 전사 파일명   string Y  
    4-2 labeling 전사 데이터   string Y  

     

    ■ 라벨링 데이터 포맷

    ■ 라벨링 데이터 포맷
    라벨링 기능 원천 데이터 포맷 라벨링 데이터 포맷
    트립체인 데이터 JSON JSON
    음성 데이터 MP3 JSON

     

    ■ 라벨링 데이터 규모

    ■ 라벨링 데이터 규모
    데이터 획득 수단 원천 데이터(건) 라벨링 데이터(건)
    트립체인 데이터 수집 앱 5,000 5,000
    음성 데이터 수집 앱 5,000 5,000

     

    ■ 가공 타입

    ■ 가공 타입
    원천 데이터 포맷 가공유형
    음성 데이터 음성 전사
    트립체인 데이터 문장 생성

     

    ■ 가공 예시

    가공 예시 녹음 정보

    가공 예시 문장 생성

     

    ■ 트립 데이터 
    {
        "license": [
            {
                "copyright_holder": "한국지능정보사회진흥원"
            }
        ],
        "info": [
            {
                "contributor": "테스트웍스",
                "date_created": "241231",
                "description": "대중교통 이용자 종합 트립체인 데이터",
                "version": "v1.0"
            }
        ],
        "trip_transport_info": [
            {
                "transport_trip_id": "TRANSPORT_TRIPCHAIN_6675",
                "gender": 1,
                "age": 2,
                "job": 6,
                "salary": 1,
                "drive_training_yn": 1,
                "drive_experience": 2,
                "drive_frequency": 5,
                "disability": 1,
                "companion": 1,
                "trip_purpose": 1,
                "departure_th1": "16.6",
                "departure_pty": 1,
                "departure_tn1": 0.0,
                "departure": "서울 서초구 강남대로",
                "start_time": "2024-10-25 18:24:00",
                "destination_th1": "17.1",
                "destination_pty": 1,
                "destination_tn1": 0.0,
                "destination": "서울 중랑구 면목로 45길              ",
                "end_time": "2024-10-25 19:39:00",
                "total_amount": 1600,
                "waypoints": [
                    {
                        "waypoint_id": 918590,
                        "transport_type": 1,
                        "country": "1",
                        "city": "",
                        "bus_station_id": "100100409",
                        "bus_station_name": "421",
                        "subway_line": "",
                        "subway_up_down": "",
                        "subway_day_div": "",
                        "way_departure": "염곡동차고지",
                        "way_destination": "옥수동",
                        "way_start_time": "04:00:00",
                        "way_end_time": "22:10:00",
                        "departure_station_id": "121000008",
                        "departure_station_name": "래미안아파트.파이낸셜뉴스",
                        "destination_station_id": "121000012",
                        "destination_station_name": "지하철2호선강남역",
                        "bus_interval_time": ""
                    },
                    {
                        "waypoint_id": 918591,
                        "transport_type": 2,
                        "country": "",
                        "city": "",
                        "bus_station_id": "",
                        "bus_station_name": "",
                        "subway_line": "2",
                        "subway_up_down": "1",
                        "subway_day_div": "1",
                        "way_departure": "삼성",
                        "way_destination": "서울대입구",
                        "way_start_time": "05:36:00",
                        "way_end_time": "24:46:30",
                        "departure_station_id": "222",
                        "departure_station_name": "강남",
                        "destination_station_id": "212",
                        "destination_station_name": "건대입구",
                        "bus_interval_time": ""
                    },
                    {
                        "waypoint_id": 918592,
                        "transport_type": 2,
                        "country": "",
                        "city": "",
                        "bus_station_id": "",
                        "bus_station_name": "",
                        "subway_line": "7",
                        "subway_up_down": "1",
                        "subway_day_div": "1",
                        "way_departure": "건대입구",
                        "way_destination": "태릉입구",
                        "way_start_time": "05:30:00",
                        "way_end_time": "24:41:30",
                        "departure_station_id": "2729",
                        "departure_station_name": "건대입구",
                        "destination_station_id": "2724",
                        "destination_station_name": "사가정",
                        "bus_interval_time": ""
                    }
                ]
            }
        ]
    }
     

    ■ 음성 전사 데이터

    {
        "license": [
            {
                "copyright_holder": "한국지능정보사회진흥원"
            }
        ],
        "info": [
            {
                "contributor": "테스트웍스",
                "date_created": "241115",
                "description": "대중교통 이용자 종합 트립체인 데이터",
                "version": "v1.0"
            }
        ],
        "id": [
            {
                "transport_trip_id": "TRANSPORT_TRIPCHAIN_6675"
            }
        ],
        "transport_transcribe_annotations": [
            {
                "filename": "transport_tripchain_6675_scr_voice_01_01.mp3",
                "labeling": "2024년 10월 25일.집에 가기 위해 강남에서 사가정역으로 이동한다.통행자는 많다."
            },
            {
                "filename": "transport_tripchain_6675_scr_voice_01_02.mp3",
                "labeling": "버스와 지하철 2호선, 7호선을 이용하여 강남역에서 사가정으로 간다."
            },
            {
                "filename": "transport_tripchain_6675_scr_voice_01_03.mp3",
                "labeling": "어플이 알려준 소요 시간을 반영하여 출발 시간을 정한다."
            },
            {
                "filename": "transport_tripchain_6675_scr_voice_01_04.mp3",
                "labeling": "버스는 길이 막힐 것 같아서 지하철을 이용한다."
            },
            {
                "filename": "transport_tripchain_6675_scr_voice_02_01.mp3",
                "labeling": "강남역 2호선에서 환승했다.통행자가 되게 많아서 복잡했는데 질서 유지가 잘 돼서 좋았다."
            },
            {
                "filename": "transport_tripchain_6675_scr_voice_02_02.mp3",
                "labeling": "건대입구역 7호선에서 환승했다.환승 구간에 계단이 많아서 불편했다."
            },
            {
                "filename": "transport_tripchain_6675_scr_voice_03_01.mp3",
                "labeling": "강남역에서 사가정역까지 총 1600원이 늘었고, 1시간 20분이 걸렸다.전철을 반대로 타서 예상보다 10분 늦게 도착했다."
            },
            {
                "filename": "transport_tripchain_6675_scr_voice_03_02.mp3",
                "labeling": "지하철에 앉아서 편하게 왔다.이용한 대중교통 수단과 시설 모두 만족합니다."
            }
        ]
    }


    ■ 문장 데이터

    {
        "license": [
            {
                "copyright_holder": "한국지능정보사회진흥원"
            }
        ],
        "info": [
            {
                "contributor": "테스트웍스",
                "date_created": "241115",
                "description": "대중교통 이용자 종합 트립체인 데이터",
                "version": "v1.0"
            }
        ],
        "transport_sentences_annotations": [
            {
                "transport_trip_id": "TRANSPORT_TRIPCHAIN_6675",
                "question_type": "[3.경로정보]",
                "question": "집에 가기 위해 서울 서초구 강남대로에서 서울 중랑구로 대중교통을 이용하여 이동하는 대중교통 이용자는 어떻게 경로를 선택했습니까?",
                "answer": "집에 가기 위해 서울 서초구 강남대로에서 서울 중랑구로 대중교통을 이용하여 이동하는 대중교통 이용자는 버스는 길이 막힐 것 같다고 예상하여 버스와 지하철을 함께 이용했습니다. 대중교통 이용 빈도가 높은 20대 여성은 동행자 없이 오후 6시 24분에 버스를 타고 앱이 알려준 소요 시간을 반영하여 출발했습니다. 2호선 강남역은 통행자가 되게 많아서 복잡했지만, 질서 유지가 잘 돼서 좋았습니다. 건대입구역은 환승 구간에 계단이 많아서 불편했습니다. 1시간 20분이 걸렸으며 총 1,600원이 소요됐고, 날씨는 출발할 때부터 도착할 때까지 맑았으며, 지하철에 앉아서 편하게 도착하였습니다."
            }
        ]
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : 테스트웍스
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    동길무 02-423-5168 gmdong@testworks.co.kr 사업총괄 / 데이터 가공 및 검사
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    흥일기업 데이터 수집
    트위그팜 RAG 모델 개발
    한국자동차연구원 데이터 정제
    홍익대학교 산학협력단 데이터 설계
    소다시스템 데이터 수집
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    동길무 02-423-5168 gmdong@testwork.co.kr
    최수지 02-423-5168 sjchoi@testworks.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    동길무 02-423-5168 gmdong@testwork.co.kr
    변율희 02-1833-5926 yulhee.byun@twigfarm.net
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    동길무 02-423-5168 gmdong@testwork.co.kr
    최수지 02-423-5168 sjchoi@testworks.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.