콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#콜센터 # 음성 # 대화요약 #자연어

BETA 베트남·말레이시아 콜센터 데이터

베트남·말레이시아 콜센터 데이터 아이콘 이미지
  • 분야지식재산
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2025 갱신년월 : 2026-06 조회수 : 1,700 다운로드 : 9 용량 :
샘플(경량) 데이터 ?

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2026-06-10 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2026-06-05 산출물 최종 공개

    소개

    원천데이터는 매뉴얼 데이터(MAN),콜센터 데이터(CAL)로 이루어져 있음
    매뉴얼 데이터(MAN)는 원천데이터로만 제공함
    콜센터 데이터(CAL)은 라벨링 하여 대화의도 문맥데이터(CCL) 과 이중번역 QA셋(CQA) 2가지 형태로 가공 함

    구축목적

    IT/SW 기업의 해외 진출 및 AI 기반 다국어 콜센터 서비스 구축을 지원하기 위한 비영어권(베트남, 말레이시아) 콜센터 텍스트 데이터 데이터셋 구축 및 제공
  • ○ 클래스별 데이터 구축 수량 (매뉴얼데이터)

    클래스별 데이터 구축 수량(매뉴얼데이터)
    대분류 중분류 소분류 수량 메타 형태별합계
    데이터 세트 구성비
    베트남
    (VI)
    MOB(모바일) FNT(기능) 500 500 3,156 15.00%
    DES(앱설명) 2,186 2,186
    CNF(설정) 470 470
    STV(스마트TV) INS(설치법) 417 417 2,457 11.70%
    USE(사용법) 1,680 1,680
    TRS(문제해결) 360 360
    SHA(스마트가전) INS(설치법) 261 261 1,700 8.10%
    USE(사용법) 1,117 1,117
    CAU(주의사항) 322 322
    APP(앱) INS(설치법) 105 105 752 3.60%
    FNT(기능) 540 540
    TRS(문제해결) 107 107
    OFC(오피스) INS(설치법) 132 132 866 4.10%
    FNT(기능) 649 649
    TRS(문제해결) 85 85
    ASW(응용소프트웨어) INS(설치법) 267 267 1,497 7.10%
    FNT(기능) 1,035 1,035
    TRS(문제해결) 195 195
    말레이시아
    (MS)
    MOB(모바일) FNT(기능) 895 895 3,049 14.50%
    DES(앱설명) 1,009 1,009
    CNF(설정) 1,145 1,145
    STV(스마트TV) INS(설치법) 491 491 2,457 11.70%
    USE(사용법) 1,700 1,700
    TRS(문제해결) 266 266
    SHA(스마트가전) INS(설치법) 299 299 1,553 7.40%
    USE(사용법) 990 990
    CAU(주의사항) 264 264
    APP(앱) INS(설치법) 118 118 605 2.90%
    FNT(기능) 445 445
    TRS(문제해결) 42 42
    OFC(오피스) INS(설치법) 245 245 1,314 6.20%
    FNT(기능) 930 930
    TRS(문제해결) 139 139
    ASW(응용소프트웨어) INS(설치법) 480 480 1,621 7.70%
    FNT(기능) 936 936
    TRS(문제해결) 205 205
    합계   21,027 21,027 21,027 100%


    ○ 클래스별 데이터 구축 수량 (콜센터데이터)

    클래스별 데이터 구축 수량(콜센터 데이터)
    대분류 중분류 소분류 수량 메타 형태별합계
    데이터 세트 구성비
    베트남
    (VI)
    MOB(모바일) FNT(기능) 74,722 74,722 381,515 18.90%
    DES(앱설명) 229,025 229,025
    CNF(설정) 77,768 77,768
    STV(스마트TV) INS(설치법) 33,049 33,049 143,730 7.10%
    USE(사용법) 91,513 91,513
    TRS(문제해결) 19,168 19,168
    SHA(스마트가전) INS(설치법) 25,366 25,366 135,949 6.70%
    USE(사용법) 90,580 90,580
    CAU(주의사항) 20,003 20,003
    APP(앱) ACS(계정시스템) 21,225 21,225 131,166 6.50%
    PMT(결제/청구) 21,282 21,282
    FNT(기능) 67,980 67,980
    NTW(네트워크) 20,679 20,679
    OFC(오피스) ACS(계정시스템) 26,758 26,758 137,472 6.80%
    PMT(결제/청구) 24,421 24,421
    FNT(기능) 69,016 69,016
    NTW(네트워크) 17,277 17,277
    ASW(응용소프트웨어) ACS(계정시스템) 17,527 17,527 86,337 4.30%
    PMT(결제/청구) 18,775 18,775
    FNT(기능) 39,859 39,859
    NTW(네트워크) 10,176 10,176
    말레이시아
    (MS)
    MOB(모바일) FNT(기능) 71,020 71,020 380,742 18.80%
    DES(앱설명) 242,279 242,279
    CNF(설정) 67,443 67,443
    STV(스마트TV) INS(설치법) 33,398 33,398 200,171 9.90%
    USE(사용법) 139,124 139,124
    TRS(문제해결) 27,649 27,649
    SHA(스마트가전) INS(설치법) 16,725 16,725 85,435 4.20%
    USE(사용법) 56,957 56,957
    CAU(주의사항) 11,753 11,753
    APP(앱) ACS(계정시스템) 23,845 23,845 135,259 6.70%
    PMT(결제/청구) 24,002 24,002
    FNT(기능) 60,984 60,984
    NTW(네트워크) 26,428 26,428
    OFC(오피스) ACS(계정시스템) 20,110 20,110 116,701 5.80%
    PMT(결제/청구) 18,960 18,960
    FNT(기능) 55,653 55,653
    NTW(네트워크) 21,978 21,978
    ASW(응용소프트웨어) ACS(계정시스템) 14,213 14,213 86,201 4.30%
    PMT(결제/청구) 12,972 12,972
    FNT(기능) 40,496 40,496
    NTW(네트워크) 18,520 18,520
    합계   2,020,678 2,020,678 2,020,678 100%


    ○ 클래스별 데이터 구축 수량 (대화의도 및 문맥 분석 데이터)

    클래스별 데이터 구축 수량(대화의도 및 문맥 분석 데이터)
    대분류 중분류 소분류 수량 메타 형태별합계
    데이터 세트 구성비
    베트남
    (VI)
    MOB(모바일) FNT(기능) 40,099 40,099 200,142 20.00%
    DES(앱설명) 120,030 120,030
    CNF(설정) 40,013 40,013
    STV(스마트TV) INS(설치법) 10,004 10,004 50,030 5.00%
    USE(사용법) 30,017 30,017
    TRS(문제해결) 10,009 10,009
    SHA(스마트가전) INS(설치법) 10,011 10,011 50,031 5.00%
    USE(사용법) 30,012 30,012
    CAU(주의사항) 10,008 10,008
    APP(앱) ACS(계정시스템) 15,006 15,006 75,054 7.50%
    PMT(결제/청구) 15,004 15,004
    FNT(기능) 37,505 37,505
    NTW(네트워크) 7,539 7,539
    OFC(오피스) ACS(계정시스템) 15,012 15,012 75,057 7.50%
    PMT(결제/청구) 15,004 15,004
    FNT(기능) 37,531 37,531
    NTW(네트워크) 7,510 7,510
    ASW(응용소프트웨어) ACS(계정시스템) 10,026 10,026 50,056 5.00%
    PMT(결제/청구) 10,009 10,009
    FNT(기능) 25,008 25,008
    NTW(네트워크) 5,013 5,013
    말레이시아
    (MS)
    MOB(모바일) FNT(기능) 40,007 40,007 200,065 20.00%
    DES(앱설명) 120,049 120,049
    CNF(설정) 40,009 40,009
    STV(스마트TV) INS(설치법) 10,010 10,010 50,027 5.00%
    USE(사용법) 30,005 30,005
    TRS(문제해결) 10,012 10,012
    SHA(스마트가전) INS(설치법) 10,037 10,037 50,073 5.00%
    USE(사용법) 30,017 30,017
    CAU(주의사항) 10,019 10,019
    APP(앱) ACS(계정시스템) 15,003 15,003 75,040 7.50%
    PMT(결제/청구) 15,017 15,017
    FNT(기능) 37,505 37,505
    NTW(네트워크) 7,515 7,515
    OFC(오피스) ACS(계정시스템) 15,009 15,009 75,043 7.50%
    PMT(결제/청구) 15,002 15,002
    FNT(기능) 37,514 37,514
    NTW(네트워크) 7,518 7,518
    ASW(응용소프트웨어) ACS(계정시스템) 10,036 10,036 50,073 5.00%
    PMT(결제/청구) 10,014 10,014
    FNT(기능) 25,006 25,006
    NTW(네트워크) 5,017 5,017
    합계   1,000,691 1,000,691 1,000,691 100%


    ○ 클래스별 데이터 구축 수량 (QA셋 이중번역 데이터)

    클래스별 데이터 구축 수량(QA셋 이중번역 데이터)
    대분류 중분류 소분류 수량 메타 형태별합계
    데이터 세트 구성비
    베트남
    (VI)
    MOB(모바일) FNT(기능) 800 800 4,000 20.00%
    DES(앱설명) 2,400 2,400
    CNF(설정) 800 800
    STV(스마트TV) INS(설치법) 200 200 1,000 5.00%
    USE(사용법) 600 600
    TRS(문제해결) 200 200
    SHA(스마트가전) INS(설치법) 200 200 1,000 5.00%
    USE(사용법) 600 600
    CAU(주의사항) 200 200
    APP(앱) ACS(계정시스템) 300 300 1,500 7.50%
    PMT(결제/청구) 300 300
    FNT(기능) 750 750
    NTW(네트워크) 150 150
    OFC(오피스) ACS(계정시스템) 300 300 1,500 7.50%
    PMT(결제/청구) 300 300
    FNT(기능) 750 750
    NTW(네트워크) 150 150
    ASW(응용소프트웨어) ACS(계정시스템) 200 200 1,000 5.00%
    PMT(결제/청구) 200 200
    FNT(기능) 500 500
    NTW(네트워크) 100 100
    말레이시아
    (MS)
    MOB(모바일) FNT(기능) 800 800 4,000 20.00%
    DES(앱설명) 2,400 2,400
    CNF(설정) 800 800
    STV(스마트TV) INS(설치법) 200 200 1,000 5.00%
    USE(사용법) 600 600
    TRS(문제해결) 200 200
    SHA(스마트가전) INS(설치법) 200 200 1,000 5.00%
    USE(사용법) 600 600
    CAU(주의사항) 200 200
    APP(앱) ACS(계정시스템) 300 300 1,500 7.50%
    PMT(결제/청구) 300 300
    FNT(기능) 750 750
    NTW(네트워크) 150 150
    OFC(오피스) ACS(계정시스템) 300 300 1,500 7.50%
    PMT(결제/청구) 300 300
    FNT(기능) 750 750
    NTW(네트워크) 150 150
    ASW(응용소프트웨어) ACS(계정시스템) 200 200 1,000 5.00%
    PMT(결제/청구) 200 200
    FNT(기능) 500 500
    NTW(네트워크) 100 100
    합계   20,000 20,000 20,000 100%


    ○ 데이터 유형별 구성비(매뉴얼)

    데이터 유형별 구성비(매뉴얼)
    원천 매뉴얼데이터 수량(건) 구성비 비고
    모바일(MOB) 6,205 29.51% 구성비 중첩률
    90.72%
    스마트TV(STV) 4,914 23.37%
    스마트가전(SHA) 3,253 15.47%
    앱(APP) 1,357 6.45%
    오피스(OFC) 2,180 10.37%
    응용소프트웨어(ASW) 3,118 14.83%
    합계 21,027 100.00%  


    ○ 데이터 유형별 구성비(콜센터)

    데이터 유형별 구성비(콜센터)
    원천 콜센터데이터 수량(건) 구성비 비고
    모바일(MOB) 28,232 32.45% 구성비 중첩률
    90.72%
    스마트TV(STV) 16,375 18.83%
    스마트가전(SHA) 9,706 11.16%
    앱(APP) 11,452 13.17%
    오피스(OFC) 12,041 13.84%
    응용소프트웨어(ASW) 9,174 10.55%
    합계 86,980 100.00%  


    ○ 문제 해결 단계 분포

    문제 해결 단계 분포
    구분 수량(건) 비율(%) 비고
    문제 인식 92,481 9.24% 구성비 중첩률
    100%
    원인 탐색 158,058 15.80%
    해결 시도 345,557 34.53%
    해결 완료 184,251 18.41%
    후속 조치 220,344 22.02%
    합계 1,000,691 100.00%  


    ○ 대화 의도 분류 분포

    대화 의도 분류 분포
    구분 수량(건) 비율(%) 비고
    정보 요청 190,510 19.04% 구성비 중첩률
    99.96%
    기능 요청 333,557 33.34%
    문제 신고 159,348 15.92%
    불만/항의 2,744 2.27%
    환불/취소요청 856 0.09%
    일반 응답 215,759 21.56%
    감사/인사표현 53,316 5.33%
    전환 요청 44,601 4.46%
    합계 1,000,691 100.00%  


    ○ 상담 난이도 분류 분포

    상담 난이도 분류 분포
    상담 난이도 수량(건) 비율(%) 비고
    낮음 400,274 40% 구성비 중첩률
    100%
    보통 350,239 35%
    높음 200,140 20%
    매우높음 50,0348 5%
    합계 1,000,691 100.00%  


    ○ 발화주제 분류 분포

    발화주제 분류 분포
    구분 수량(건) 비율(%) 비고
    고객 391,452 39.12% 구성비 중첩률
    100%
    상담사 609,239 60.88%
    합계 1,000,691 100.00%  


    ○ 서비스 주제 분류 분포

    서비스 주제 분류 분포
    서비스 주제 수량(건) 구성비 비고
    모바일(MOB) 400,202 39.99% 구성비 중첩률
    84.85%
    스마트TV(STV) 100,064 10%
    스마트가전(SHA) 100,104 10%
    앱(APP) 150,094 15%
    오피스(OFC) 150,099 15%
    응용소프트웨어(ASW) 100,128 10.01%
    합계 1,000,691 100.00%  


    ○ 원천데이터 토큰(어절)수

    원천데이터 토큰(어절)수
    데이터 명 토큰(어절 수)
    매뉴얼 데이터 5,591,937
    콜센터 데이터 26,295,490
    합계 31,887,427


    ○ 라벨링데이터 토큰(어절)수

    라벨링데이터 토큰(어절)수
    데이터 명 토큰(어절 수)
    콜센터 의도문맥 데이터 13,855,511
    콜센터 QA셋 데이터 10,269,886
    합계 24,125,397
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    ○ 임무 정의
        -베트남·말레이시아 IT/SW 콜센터 데이터 및 기술 매뉴얼 데이터를 기반으로, 다국어 상담 시나리오 생성 및 자동응답을 위한 AI 모델 개발
    ○ 임무 선정 사유
        -저자원 언어(Low-resource Language) 기반 데이터 구축을 통해, 다국어 AI 모델의 실사용 가능성을 검증하는 것을 목표
        - 콜센터 상담 데이터는 단순한 질의응답이 아닌 문제인식-원인탐색-해결-후속안내로 이어지는 복합적 구조를 가지므로, 이를 효과적으로 처리하기 위해 생성형 AI기반 모델 필수
        -시나리오 생성, 대화요약, 의도 분류를 동시에 수행 가능한 모델을 선정하여 데이터 유효성 및 활용성을 검증
    ○ 학습 모델 개발 환경
        - 학습 환경: Ubuntu, Python, Pytorch, GPU, HuggingFace Transformers 
        - 모델리소스 및 자원 활용: 고성능 GPU 서버를 사용하여 모델 학습을 진행
        -모델 개발: 1-Cycle 자가 점검 계획에 맞춰 모델 개발
        -모델 구조: RAG 기반 구조
    ○ 최종 선정 모델
        - Qwen3-8B
           *기존 Llama 계열 모델 대비 베트남,말레이시아어 등 아시아권 언어 처리 성능 우수토큰 처리 효율 및 문맥 이해 능력 개선
           *모델 특징대규모 언어모델 기반 자연어 생성 모델다국어 처리 및 문맥 기반 응답 생성에 최적화텍스트 생성+분류+요약 기능 통합 수행 가능
           *수행기능
             Text Generation
                     ∨상담 시나리오 생성
              ∨ 자동 응답 생성
             Summarization
              ∨ 대화요약
             Classfication
              ∨ 대화 의도 분류
              ∨ 상담 난이도 분류
              ∨ 문제 해결 단계 분석
           *Qwen3-8B 모델
              ∨ Alibaba Cloud에서 개발한 오픈소스 기반 대규모 언어모델(LLM)로, 텍스트 생성 및 이해를 중심으로 다양한 자연어 처리(Task)에 활용되는 생성형 인공지능 모델
              ∨ 다국어(Multilingual) 지원이 우수하며, 특히 아시아권 언어(베트남어, 말레이시아어 등)에서 높은 성능을 보이는 모델로 저자원 언어 환경에서도 안정적인 문맥 이해 및 응답 생성이 가능
              ∨ Text Generation, Summarization, Classification, Question Answering 등 다양한 자연어 처리 기능을 단일 모델에서 수행 가능하며, 콜센터 상담 시나리오 생성 및 의도 분석 등 복합 Task에 활용 가능
              ∨ Apache 2.0 등 오픈소스 라이선스를 기반으로 자유로운 사용, 수정 및 재배포가 가능하여 기업 및 연구 환경에서 활용성이 높음
              ∨ Hugging Face 등 공개 플랫폼을 통해 모델 접근성이 높고, 글로벌 AI 개발자 커뮤니티에서 활발히 활용되고   있어 확장성 및 실용성이 뛰어난 모델

    Qwen3-8B 구조  RAG Process

    [ Qwen3-8B 구조 ]                                                                                                         [ RAG Process ]

     

    ○ 학습 데이터 생성
        - 학습 데이터 요약 전처리
           * 대화요약을 모델 학습을 위한 데이터 생성
           * 고객과 상담사 간의 여러 대화 턴과, 전체 대화를 요약한 텍스트를 포함 함
        - 학습 데이터 포맷 변경 및 분할(9:1 로 분할)
           * train – JSON, train_summarization
           * validation – JSON, eval_summarization
           * test – JSON, test_summarization

    학습데이터 생성 예시

    [ 학습데이터 생성 예시 ]

    ○ AI 모델 성능

    AI모델 성능
    AI Task 알고리즘 데이터 수량 성능지표 목표치 평가결과
    총 구축량 학습(90%) 평가(10%)
    시나리오
    생성
    SupervisedFine
    -Tuning,SFT
    CQA 20,000건 18,000건 2,000건 Content
    F1-Score
    0.7 0.73
    상담내용
    요약
    SupervisedFine
    -Tuning,SFT
    대화요약 5,943문장 5,348문장 595문장 BERT Score 0.8 0.87
    의도/난이도/단계분류 SupervisedFine
    -Tuning,SFT
    CCL 1,000,684 문장 90,0616문장 1000,68문장 Macroaveraged
    F1-Score
    0.85 0.85
  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    (해당 데이터는 저작도구를 지원하지 않습니다)

    ○ 라벨링데이터1(콜센터 대화의도 및 문맥 데이터) 포맷

    라벨링데이터-콜센터 대화의도 문맥표
    구분 속성명 타입 필수
    여부
    설명 범위 예시
    1 file_name string Y 파일명   CAL_VI_ASW_FNT_000019
    2 file_size number Y 파일사이즈   1602
    3 language string Y 언어코드 "vi", "ms"  
    4 domain string Y 상품 도메인 "MOB", "STV", "SHA", "APP", "OFC", "ASW"  
    5 turns object Y 발화    
      5-1 speaker string Y 발화주체 "고객", "상담사"  
    5-2 text string Y 발화 텍스트
    (현지어)
      "Em đã mở file bằng Notepad, thấy cột phân cách bằng dấu '|' và khi import phần mềm báo lỗi ngay."
    5-3 dialect_text string N 발화 방언
    (현지어)
       
    5-4 intent string Y 대화의도 "정보요청", "기능요청", "문제신고", "불만/항의", "활동/취소요청", "환불요청", "감사/인사표현", "전환요청"  
    5-5 sub_intent array(string) N 감정/의도
    하위태그
       
    5-6 stage string Y 문제해결단계 "문제인식", "원인탐색", "해결시도", "해결완료", "후속안내"  
    5-7 difficulty string Y 상담 난이도 "낮음", "보통", "높음", "매우높음"  
    5-8 technical array(string) N 기술용어   “update”,“iOS”,“Android”,“Log”...


    ○ 라벨링데이터2(QA 셋 이중번역 데이터)

    라벨링데이터-QA 이중번역 데이터표
    구분 속성명 타입 필수
    여부
    설명 범위 예시
    1 file_name string Y 파일명   CAL_VI_APP_ACS_000001.csv 
    2 file_size number Y 파일사이즈   8533
    3 language string Y 언어코드 "vi", "ms"  
    4 domain string Y 상품 도메인 "MOB", "STV", "SHA", "APP", "OFC", "ASW"  
    5 turn_count number Y 총 발화 수   14
    6 turns object Y 발화   1
      6-1 id number Y 발화번호   1
    6-2 speaker string Y 발화주체 "고객", "상담사"  
    6-3 talk string Y 대화
    (현지어)
      Em không kích hoạt được dịch vụ Internet Banking
    6-4 talk_d string N 대화
    (현지 방언)
       
    6-5 talk_ko string Y 대화
    (한국어)
      인터넷뱅킹 서비스를 활성화할 수 없어요
    6-6 talk_tr string Y 대화
    (현지어 역번역)
      Tôi không thể kích hoạt được dịch vụ Internet Banking
    7 validated boolean Y 검수여부 true, false  


    ○ 메타 데이터

    메타데이터 표
    구분 속성명 타입 필수
    여부
    설명 범위 예시
    1 file_name string Y 파일명 자유값  CAL_VI_ASW_FNT_000019
    2 file_size number Y 파일사이즈  0이상 정수 1602
    3 language string Y 언어코드 "vi", "ms" vi
    4 domain string Y 상품 도메인 "MOB", "STV", "SHA", "APP", "OFC", "ASW" MOB
    5 turn_count number Y 총 발화 수 1이상 정수  14
    6 validated boolean Y 검수여부 true, false TRUE


    ○ json 예시(콜센터 대화의도 및 문맥 데이터)
     

    {    "file_name": "CAL_MS_MOB_ASR_000001",
      "file_size": 1450,
      "language": "ms",
      "domain": "MOB",
      "turns": [
        {
          "speaker": "고객",
          "text": "Kemas kini perisian berhenti di peratus yang sama dan tidak bergerak.",
          "sub_intent": [],
          "intent": "문제신고",
          "stage": "문제인식",
          "difficulty": "매우높음",
          "technical": [
            "Update",
            "Wi-Fi"
          ]
        }
      ]
    }

     json 예시(QA 셋 이중번역 데이터)
    {
      "file_name": "CAL_VI_OFC_ACS_000001.csv",
      "file_size": 6224,
      "language": "vi",
      "domain": "OFC",
      "turn_count": 10,
      "turns": [
        {
          "id": 1,
          "speaker": "고객",
          "talk": "Em đang kích hoạt tài khoản mà hệ thống báo thông tin đăng nhập không khớp.",
          "talk_d": "",
          "talk_ko": "저는 지금 계정을 활성화하고 있는데 시스템에서 로그인 정보가 일치하지 않는다고 나와요.",
          "talk_tr": "Tôi đang kích hoạt tài khoản nhưng hệ thống báo thông tin đăng nhập không khớp."
        },
        {
          "id": 2,
          "speaker": "상담사",
          "talk": "Em đang dùng địa chỉ email nào và mở từ đúng liên kết kích hoạt trong email mới nhất chưa?",
          "talk_d": "",
          "talk_ko": "어떤 이메일 주소를 사용 중이고, 가장 최근에 받은 활성화 메일의 링크를 열어봤어요?",
          "talk_tr": "Em đang dùng địa chỉ email nào và đã mở đúng liên kết kích hoạt trong email mới nhất chưa?"
        },
        {
          "id": 3,
          "speaker": "고객",
          "talk": "Em dùng email công ty, em vừa bấm link trong Gmail trên Chrome máy cơ quan và trang báo sai thông tin.",
          "talk_d": "",
          "talk_ko": "회사 이메일을 사용하고 있는데 직장 컴퓨터의 Chrome에서 Gmail의 링크를 클릭했는데 페이지에 정보가 잘못되었다는 메시지가 표시되었습니다.",
          "talk_tr": "Em dùng email công ty, em vừa bấm link trong Gmail trên Chrome máy cơ quan và trang báo sai thông tin."
        },
        {
          "id": 4,
          "speaker": "상담사",
          "talk": "Em thử đăng xuất mọi tài khoản, mở cửa sổ ẩn danh rồi nhập lại email và mã kích hoạt chính xác được không?",
          "talk_d": "",
          "talk_ko": "모든 계정에서 로그아웃하고 시크릿 창을 열어서 이메일과 활성화 코드를 정확히 입력해볼래요?",
          "talk_tr": "Em thử đăng xuất mọi tài khoản, mở cửa sổ ẩn danh rồi nhập lại email và mã kích hoạt chính xác được không?"
        },
        {
          "id": 5,
          "speaker": "고객",
          "talk": "Em vừa làm theo, tín hiệu đổi sang thông báo mã không hợp lệ, kết quả vẫn không vào được.",
          "talk_d": "",
          "talk_ko": "지금 말씀하신 대로 했는데, 신호가 코드가 유효하지 않다고 바뀌고 여전히 접속이 안 돼요.",
          "talk_tr": "Em vừa làm theo, tín hiệu đổi sang thông báo mã không hợp lệ, kết quả vẫn không vào được."
        },
        {
          "id": 6,
          "speaker": "상담사",
          "talk": "Anh hiểu hơi nản đó. Em mở Cài đặt bàn phím, sau đó tắt tự động viết hoa, rồi mở lại trang kích hoạt, cuối cùng nhập thủ công không dán từ nơi khác. Khi hoàn tất em báo lại kết quả.",
          "talk_d": "",
          "talk_ko": "좀 답답하죠. 키보드 설정을 열고 자동 대문자 기능을 끈 다음 다시 활성화 페이지를 열어서 다른 데서 복사하지 말고 직접 입력해봐요. 다 하면 결과를 알려줘요.",
          "talk_tr": "Anh hiểu hơi nản đó. Em mở Cài đặt bàn phím, sau đó tắt tự động viết hoa, rồi mở lại trang kích hoạt, cuối cùng nhập thủ công không dán từ nơi khác. Khi hoàn tất em báo lại kết quả."
        },
        {
          "id": 7,
          "speaker": "고객",
          "talk": "Em đã nhập thủ công, tín hiệu mới báo mã hết hạn, kết quả vẫn lỗi.",
          "talk_d": "",
          "talk_ko": "직접 입력했는데 새 신호가 코드가 만료됐다고 뜨고 여전히 오류가 나요.",
          "talk_tr": "Em đã nhập thủ công, tín hiệu mới báo mã hết hạn, kết quả vẫn lỗi."
        },
        {
          "id": 8,
          "speaker": "상담사",
          "talk": "Anh ghi nhận mã đã quá hạn. Em mở Trang quản trị, sau đó vào Người dùng, rồi đến tài khoản của em, cuối cùng bấm Gửi lại email kích hoạt và làm theo email mới nhất. Xong em vào thử trang chủ.",
          "talk_d": "",
          "talk_ko": "코드가 이미 만료된 걸로 확인돼요. 관리 페이지를 열고 사용자로 들어가서 본인 계정을 선택한 다음 ‘활성화 메일 다시 보내기’를 눌러요. 새 메일을 확인하고 안내에 따라 한 뒤 홈페이지에 접속해봐요.",
          "talk_tr": "Anh ghi nhận mã đã quá hạn. Em mở Trang quản trị, sau đó vào Người dùng, rồi đến tài khoản của em, cuối cùng bấm Gửi lại email kích hoạt và làm theo email mới nhất. Xong em vào thử trang chủ."
        },
        {
          "id": 9,
          "speaker": "고객",
          "talk": "Em làm theo thư mới, tín hiệu hiện kích hoạt thành công, em đăng nhập được rồi, mừng quá.",
          "talk_d": "",
          "talk_ko": "새 메일 안내대로 했더니 활성화 성공 신호가 뜨고 로그인도 됐어요. 정말 기뻐요.",
          "talk_tr": "Em làm theo thư mới, tín hiệu hiện kích hoạt thành công, em đăng nhập được rồi, mừng quá."
        },
        {
          "id": 10,
          "speaker": "상담사",
          "talk": "Tốt rồi, tình trạng kích hoạt đã ổn định và em đăng nhập bình thường. Lần sau chỉ dùng email kích hoạt mới nhất, tránh dán mã từ tài liệu và kiểm tra mục Spam khi chờ thư. Cần gì thêm em nhắn anh ngay nhé.",
          "talk_d": "",
          "talk_ko": "잘됐어요. 이제 활성화가 안정됐고 로그인도 정상이에요. 다음부터는 가장 최근의 활성화 메일만 사용하고, 문서에서 코드를 복사하지 말고, 메일이 안 오면 스팸함도 확인해요. 필요하면 바로 연락 주세요.",
          "talk_tr": "Tốt rồi, tình trạng kích hoạt đã ổn định và em đăng nhập bình thường. Lần sau chỉ dùng email kích hoạt mới nhất, tránh dán mã từ tài liệu và kiểm tra mục Spam khi chờ thư. Cần gì thêm em nhắn anh ngay nhé."
        }
      ],
      "validated": true
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : 퍼스널에이아이
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    서준현 02-2038-2511 junhyun92@personalai.so 품질 및 AI
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    스마트뱅크 정제,가공
    케이솔루션즈 수집,품질검증
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    황정연 050-7871-3610 hjyeon313@smartbank.ne.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    오정암 02-2038-2511 david@personalai.so
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.

방송영상 데이터 개방 안내

방송영상 데이터는 열람서비스를 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의