콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#금융상담 # Instruction Tuning # 핵심금융용어

BETA 금융분야 고객상담 데이터

금융분야 고객상담 데이터 아이콘 이미지
  • 분야금융
  • 유형 텍스트
  • 생성 방식LLM
구축년도 : 2025 갱신년월 : 2026-05 조회수 : 29 다운로드 : 8 용량 :
샘플(경량) 데이터 ?

※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2026-05-19 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2026-05-19 산출물 최종 공개

    소개

    - 금융기관 콜센터에서 발생한 실제 상담 내용을 기반으로, 상담 문맥을 반영한 질문-응답-후속질문 구조의 Instruction Tuning 학습용 데이터
    - 은행분야 32,998건, 보험분야 22,485건, 증권분야 15,774건 총 71,257건의 원천데이터 구축
    - 핵심금융용어를 반영한 금융분야별 상담 데이터로, 은행분야 50,000건, 보험분야 30,000건, 증권분야 20,000건 총 100,000건 구축

    구축목적

    - 금융분야 고객상담 데이터를 기반으로 한 자동 주제 분류, 요약, 응답 생성 등 AI 상담 서비스 고도화를 위한 한국어 특화 자연어 처리 Instruction Tuning 데이터 구축
  • 1. 데이터 구축 규모
      - 원천데이터 : 은행분야 상담데이터 32,998건, 보험분야 상담데이터 22,485건, 증권분야 상담데이터 15,774건 총 71,257건
      - 라벨링 데이터 : 은행분야 상담데이터 50,000건, 보험분야 상담데이터 30,000건, 증권분야 상담데이터 20,000건 총 100,000건 

     

    2. 데이터 분포

    2. 데이터 분포 원천데이터
    원천데이터(.json)
    구분 수량 비율
    은행 거래내역/잔액조회 3,323 4.70%
    중계요청/착오송금 1,386 1.90%
    자동이체조회 3,272 4.60%
    만기,연장/해지,수신 2,423 3.40%
    금융거래한도/비대면한도계좌 2,533 3.60%
    이자/연체금액 7,106 10.00%
    부수거래금리감면 1,243 1.70%
    대출문의(만기/연장/조회등) 9,943 14.00%
    환전문의 1,769 2.50%
    보험 자동차보험상담 4,721 6.60%
    자동차사고접수 2,534 3.60%
    계약내용변경/해지 9,275 13.00%
    기타계약관련문의 3,286 4.60%
    보험금청구/확인 2,669 3.70%
    증권 HTS/MTS 4,623 6.50%
    계좌관리 1,078 1.50%
    신용거래/담보대출 2,884 4.00%
    자금이체/계좌제한 884 1.20%
    절세형금융상품 1,516 2.10%
    주식주문 2,688 3.80%
    증권계좌조회 1,631 2.30%
    해외주문 470 0.70%
    합계 71,257 100%

     

    2. 데이터 분포 가공데이터
    가공데이터(.json)
    구분 수량 비율
    은행 거래내역/잔액조회 5,022 5.00%
    중계요청/착오송금 1,871 1.90%
    자동이체조회 5,305 5.30%
    만기,연장/해지,수신 3,384 3.40%
    금융거래한도/비대면한도계좌 3,801 3.80%
    이자/연체금액 11,046 11.00%
    부수거래금리감면 1,916 1.90%
    대출문의(만기/연장/조회등) 14,798 14.80%
    환전문의 2,857 2.90%
    보험 자동차보험상담 6,534 6.50%
    자동차사고접수 3,115 3.10%
    계약내용변경/해지 12,710 12.70%
    기타계약관련문의 4,327 4.30%
    보험금청구/확인 3,314 3.30%
    증권 HTS/MTS 6,286 6.30%
    계좌관리 1,183 1.20%
    신용거래/담보대출 3,800 3.80%
    자금이체/계좌제한 995 1.00%
    절세형금융상품 1,765 1.80%
    주식주문 3,334 3.30%
    증권계좌조회 2,066 2.10%
    해외주문 571 0.60%
    합계 100,000 100%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 상담 분류 모델
      가. 학습 방법
        - 비정형 대화 로그를 입력으로, JSON 형태의 구조화된 메타데이터('작업 분류', '상담 상황', '상담 주제')를 출력하도록 지도 학습을 수행
        - 단일 모델이 세 가지 서로 다른 분류 체계(Task/Situation/Topic)를 동시에 학습하도록 하여, 모델이 대화의 표면적 키워드뿐만 아니라 심층적인 문맥을 이해하도록 유도
        - 전체 파라미터 대신 Adapter Layer만을 학습시켜, 금융 도메인의 미세한 뉘앙스를 효율적으로 주입


     나. 성능 평가 및 데이터 검증
        - 정답셋 기준으로 모델의 예측값을 비교하고 단순 정확도가 아닌 F1-Score를 사용함으로써 데이터 불균형 상황에서도 재현율과 Precision의 조화를 측정
        - OpenChat의 추론 능력을 바탕으로 높은 F1-Score가 기록된다면, 이는 원천 데이터셋의 라벨링 기준이 모호하지 않고 논리적으로 명확함을 입증

     

    2. 금융 상담 요약 모델
      가. 학습 방법
        - 긴 호흡의 상담 로그에서 단순히 문장을 발췌하는 것이 아니라, 새로운 문장으로 내용을 재구성하도록 학습
        - '고객 요구사항', '처리 결과' 등 핵심 정보는 포함하되, 민감한 개인정보(주민번호, 계좌번호 등)는 비식별화된 상태를 유지하며 문맥을 잇도록 제약 조건을 걸어 학습


      나. 성능 평가 및 데이터 검증
        - 정답 요약과 모델 생성본 간의 일치도를 ROUGE-W로 측정하여 단순 단어 등장이 아닌 연속된 문구의 일치에 가중치를 두어, 금융 문맥의 흐름이 끊기지 않고 자연스러운지를 평가
        - 높은 ROUGE-W 점수는 구축된 요약 데이터셋이 숫자, 상품명, 약정 내용 등 핵심 내용을 누락 없이 정확하게 포함하고 있음을 시사

     

    3. 질의응답 모델 (데이터 생성 모델)
      가. 학습 방법
        - 단순 상담 로그를 입력받아 학습용 데이터 포맷인 ‘Instruction - Input (질문-답변-후속질문) - Output’의 3단 구성을 생성하도록 학습
        - 단순 1회성 Q&A가 아닌, '후속 질문'까지 포함하는 대화 흐름을 학습하여, 모델이 상담의 인과관계를 파악하고 심층적인 맥락을 반영


      나. 성능 평가 및 데이터 검증
        - 구축한 테스트 데이터셋과 모델이 생성한 데이터 간의 구조적, 어휘적 유사도를 ROUGE-W로 측정
        - 생성된 데이터가 높은 점수를 기록한다는 것은, 구축 데이터셋이 Instruction Tuning 데이터를 자동으로 생성해낼 수 있을 만큼 풍부한 정보량과 명확한 인과관계를 담고 있음을 간접적으로 증명

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 원천데이터 구성
      ○ 원천데이터 포맷
        - 도메인 종류 및 카테고리와 클래스 번호로 파일명을 구성하고, 각 파일은 연번으로 구분

    1. 원천데이터 구성 ○ 원천데이터 포맷 1
    원천데이터 종류 포맷 파일명
    텍스트 데이터 JSON 데이터분야별코드_분류코드_중분류코드_파일일련번호_연번.확장자
    ex) 21-1_bk_01_575421_001.json

     

    1. 원천데이터 구성 ○ 원천데이터 포맷 2
    도메인 카테고리 클래스번호
    21-25.
    금융분야
    고객상담
    데이터 
    하나은행 bk 거래내역/잔액조회 1
    중계요청/착오송금 2
    자동이체조회 3
    만기,연장/해지,수신 4
    금융거래한도/비대면한도계좌 5
    이자/연체금액 6
    부수거래금리감면 7
    대출문의(만기/연장/조회등) 8
    환전문의 9
    하나손해보험 ins 자동차보험상담 1
    자동차사고접수 2
    계약내용변경/해지 3
    기타계약관련문의 4
    보험금청구 5
    하나증권 sec HTS/MTS 1
    계좌관리 2
    신용거래/담보대출 3
    자금이체/계좌제한 4
    절세형금융상품 5
    주식주문 6
    증권계좌조회 7
    해외주문 8

     

      ○ 원천데이터 예시
        - 개인정보 비식별화, 글자수 확인, 대화 턴 수 확인, 욕설 및 비속어 정제 등의 과정을 거쳐 Json 포맷으로 저장

    원천데이터 예시

     

    2. 라벨링데이터 구성
      ○ 가공 타입
        - 분류 및 요약 데이터 : 상담 데이터의 분류, 목적, 상황, 주제, 요약, 고객 유형 등 질의응답 외적 속성 정보를 구조화하여 태그 형태로 부여
        - 질의응답 데이터 : 상담 목적, 상황, 주제 등 메타정보를 조합하여 상담 요약 내용을 기반으로 문맥에 맞는 질문 형태로 구성된 데이터, 상담데이터 내 핵심금융용어가 포함되어있는 경우 반드시 포함하여 QA데이터 생성

     

      ○ 어노테이션 포맷
        - 데이터셋 이름 및 메타정보, 어노테이션 항목 및 값에 대한 범위와 예시

     ○ 어노테이션 포맷
    No 항목명 타입 필수
    구분
    항목 설명 예시 값
    1   source object Y 원천데이터  
      1 source_institution string Y 데이터 제공 기관명 하나손해보험
      2 source_id string Y 원천 데이터 고유 ID 21-1_bk_03_000255
      3 source_date string Y 상담 일자 202506
      4 client_gender string Y 고객 성별 남, 여 중 택1
    5 client_age string Y 고객 연령대 20~29세
      6 consulting_client string Y 상담 고객 유형 기존고객/신규고객
      7 consulting_client_type string N 세부 상담 고객 유형 개인사업자
      8 source_length number Y 상담 전체 길이 (음절) 500자 이상
      9 consulting_content string Y 상담 원문  
    2   consulting        
      1 consulting_category string Y 상담 카테고리 은행, 보험, 증권
    중 택 1
      2 consulting_topic string Y 상담 주제 목록 중 택 1
      3 consulting_summary string Y 상담 요약 상담 원문 요약
    3   qa_data object Y 질의응답  
      1 qa_id string Y 고유식별자 21-1_bk_03_000255_001
      2 task_category string Y 작업 분류 일반상담, 핵심금융용어 중 택 1
      3 consulting_situation string Y 상담 상황 일반 문의, 업무처리, 민원 응대중 택 1
      4 qa_topic string Y 상담 주제 “거래내역/잔액조회“ 목록 중 택 1
      5 consulting_purpose string Y 상담 목적 “카드 재발급 요청” 작업자 입력값
      6 core_financial_terms string N 핵심금융용어 “대출이자” 작업자 입력값
      7 input_length number Y QAQ(Input) 길이 (음절) 200자 이상
      8 instruction string Y 지시문 작업자 입력값
      9 input object Y    
        1 question string Y 질문 작업자 입력값
        2 answer string Y 답변 작업자 입력값
        3 follow_up_question string Y 후속 질문 작업자 입력값
      10 output string Y 모범답변 작업자 입력값

     

      ○ 라벨링 데이터 예시

    라벨링 데이터 예시

     
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜타임게이트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    박범석 02-575-0409 aidiv@time-gate.com 데이터 수집, 데이터 정제, 품질관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜세명소프트 데이터 가공, AI 모델
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이정기 02-575-0409 aidiv@time-gate.com
    박범석 02-575-0409 aidiv@time-gate.com
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    노을 070-7605-3328 sunset@smsoft.kr
    이정훈 070-7605-3328 ljh@smsoft.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    노을 070-7605-3328 sunset@smsoft.kr
    이정훈 070-7605-3328 ljh@smsoft.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 이용신청 탭 이미지

국방데이터 개방 안내

본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.