BETA 금융분야 고객상담 데이터
- 분야금융
- 유형 텍스트
- 생성 방식LLM
※ 26년 신규 개방되는 데이터로, 데이터 활용성 검토, 이용자 관점의 개선의견 수렴 등을 통해 수정/보완될 수 있으며 최종데이터, 샘플데이터, 산출물 등은 변경될 수 있습니다
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.0 2026-05-19 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2026-05-19 산출물 최종 공개 소개
- 금융기관 콜센터에서 발생한 실제 상담 내용을 기반으로, 상담 문맥을 반영한 질문-응답-후속질문 구조의 Instruction Tuning 학습용 데이터 - 은행분야 32,998건, 보험분야 22,485건, 증권분야 15,774건 총 71,257건의 원천데이터 구축 - 핵심금융용어를 반영한 금융분야별 상담 데이터로, 은행분야 50,000건, 보험분야 30,000건, 증권분야 20,000건 총 100,000건 구축
구축목적
- 금융분야 고객상담 데이터를 기반으로 한 자동 주제 분류, 요약, 응답 생성 등 AI 상담 서비스 고도화를 위한 한국어 특화 자연어 처리 Instruction Tuning 데이터 구축
-
메타데이터 구조표 데이터 영역 금융 데이터 유형 텍스트 데이터 형식 json 데이터 출처 구매(하나은행, 하나손해보험, 하나증권에서 2025년도에 발생한 상담데이터 구매) 라벨링 유형 요약, Instruction 기반 QAQ 라벨링 형식 json 데이터 활용 서비스 금융 AI 고객상담 서비스 및 상담사 보조 AI 어시스턴트 고도화 데이터 구축년도/
데이터 구축량2025년/원천데이터 71,257건 / 라벨링 데이터 100,000건 -
1. 데이터 구축 규모
- 원천데이터 : 은행분야 상담데이터 32,998건, 보험분야 상담데이터 22,485건, 증권분야 상담데이터 15,774건 총 71,257건
- 라벨링 데이터 : 은행분야 상담데이터 50,000건, 보험분야 상담데이터 30,000건, 증권분야 상담데이터 20,000건 총 100,000건2. 데이터 분포
2. 데이터 분포 원천데이터 원천데이터(.json) 구분 수량 비율 은행 거래내역/잔액조회 3,323 4.70% 중계요청/착오송금 1,386 1.90% 자동이체조회 3,272 4.60% 만기,연장/해지,수신 2,423 3.40% 금융거래한도/비대면한도계좌 2,533 3.60% 이자/연체금액 7,106 10.00% 부수거래금리감면 1,243 1.70% 대출문의(만기/연장/조회등) 9,943 14.00% 환전문의 1,769 2.50% 보험 자동차보험상담 4,721 6.60% 자동차사고접수 2,534 3.60% 계약내용변경/해지 9,275 13.00% 기타계약관련문의 3,286 4.60% 보험금청구/확인 2,669 3.70% 증권 HTS/MTS 4,623 6.50% 계좌관리 1,078 1.50% 신용거래/담보대출 2,884 4.00% 자금이체/계좌제한 884 1.20% 절세형금융상품 1,516 2.10% 주식주문 2,688 3.80% 증권계좌조회 1,631 2.30% 해외주문 470 0.70% 합계 71,257 100% 2. 데이터 분포 가공데이터 가공데이터(.json) 구분 수량 비율 은행 거래내역/잔액조회 5,022 5.00% 중계요청/착오송금 1,871 1.90% 자동이체조회 5,305 5.30% 만기,연장/해지,수신 3,384 3.40% 금융거래한도/비대면한도계좌 3,801 3.80% 이자/연체금액 11,046 11.00% 부수거래금리감면 1,916 1.90% 대출문의(만기/연장/조회등) 14,798 14.80% 환전문의 2,857 2.90% 보험 자동차보험상담 6,534 6.50% 자동차사고접수 3,115 3.10% 계약내용변경/해지 12,710 12.70% 기타계약관련문의 4,327 4.30% 보험금청구/확인 3,314 3.30% 증권 HTS/MTS 6,286 6.30% 계좌관리 1,183 1.20% 신용거래/담보대출 3,800 3.80% 자금이체/계좌제한 995 1.00% 절세형금융상품 1,765 1.80% 주식주문 3,334 3.30% 증권계좌조회 2,066 2.10% 해외주문 571 0.60% 합계 100,000 100% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 상담 분류 모델
가. 학습 방법
- 비정형 대화 로그를 입력으로, JSON 형태의 구조화된 메타데이터('작업 분류', '상담 상황', '상담 주제')를 출력하도록 지도 학습을 수행
- 단일 모델이 세 가지 서로 다른 분류 체계(Task/Situation/Topic)를 동시에 학습하도록 하여, 모델이 대화의 표면적 키워드뿐만 아니라 심층적인 문맥을 이해하도록 유도
- 전체 파라미터 대신 Adapter Layer만을 학습시켜, 금융 도메인의 미세한 뉘앙스를 효율적으로 주입
나. 성능 평가 및 데이터 검증
- 정답셋 기준으로 모델의 예측값을 비교하고 단순 정확도가 아닌 F1-Score를 사용함으로써 데이터 불균형 상황에서도 재현율과 Precision의 조화를 측정
- OpenChat의 추론 능력을 바탕으로 높은 F1-Score가 기록된다면, 이는 원천 데이터셋의 라벨링 기준이 모호하지 않고 논리적으로 명확함을 입증2. 금융 상담 요약 모델
가. 학습 방법
- 긴 호흡의 상담 로그에서 단순히 문장을 발췌하는 것이 아니라, 새로운 문장으로 내용을 재구성하도록 학습
- '고객 요구사항', '처리 결과' 등 핵심 정보는 포함하되, 민감한 개인정보(주민번호, 계좌번호 등)는 비식별화된 상태를 유지하며 문맥을 잇도록 제약 조건을 걸어 학습
나. 성능 평가 및 데이터 검증
- 정답 요약과 모델 생성본 간의 일치도를 ROUGE-W로 측정하여 단순 단어 등장이 아닌 연속된 문구의 일치에 가중치를 두어, 금융 문맥의 흐름이 끊기지 않고 자연스러운지를 평가
- 높은 ROUGE-W 점수는 구축된 요약 데이터셋이 숫자, 상품명, 약정 내용 등 핵심 내용을 누락 없이 정확하게 포함하고 있음을 시사3. 질의응답 모델 (데이터 생성 모델)
가. 학습 방법
- 단순 상담 로그를 입력받아 학습용 데이터 포맷인 ‘Instruction - Input (질문-답변-후속질문) - Output’의 3단 구성을 생성하도록 학습
- 단순 1회성 Q&A가 아닌, '후속 질문'까지 포함하는 대화 흐름을 학습하여, 모델이 상담의 인과관계를 파악하고 심층적인 맥락을 반영
나. 성능 평가 및 데이터 검증
- 구축한 테스트 데이터셋과 모델이 생성한 데이터 간의 구조적, 어휘적 유사도를 ROUGE-W로 측정
- 생성된 데이터가 높은 점수를 기록한다는 것은, 구축 데이터셋이 Instruction Tuning 데이터를 자동으로 생성해낼 수 있을 만큼 풍부한 정보량과 명확한 인과관계를 담고 있음을 간접적으로 증명 -
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 원천데이터 구성
○ 원천데이터 포맷
- 도메인 종류 및 카테고리와 클래스 번호로 파일명을 구성하고, 각 파일은 연번으로 구분1. 원천데이터 구성 ○ 원천데이터 포맷 1 원천데이터 종류 포맷 파일명 텍스트 데이터 JSON 데이터분야별코드_분류코드_중분류코드_파일일련번호_연번.확장자
ex) 21-1_bk_01_575421_001.json1. 원천데이터 구성 ○ 원천데이터 포맷 2 도메인 카테고리 클래스번호 21-25.
금융분야
고객상담
데이터하나은행 bk 거래내역/잔액조회 1 중계요청/착오송금 2 자동이체조회 3 만기,연장/해지,수신 4 금융거래한도/비대면한도계좌 5 이자/연체금액 6 부수거래금리감면 7 대출문의(만기/연장/조회등) 8 환전문의 9 하나손해보험 ins 자동차보험상담 1 자동차사고접수 2 계약내용변경/해지 3 기타계약관련문의 4 보험금청구 5 하나증권 sec HTS/MTS 1 계좌관리 2 신용거래/담보대출 3 자금이체/계좌제한 4 절세형금융상품 5 주식주문 6 증권계좌조회 7 해외주문 8 ○ 원천데이터 예시
- 개인정보 비식별화, 글자수 확인, 대화 턴 수 확인, 욕설 및 비속어 정제 등의 과정을 거쳐 Json 포맷으로 저장
2. 라벨링데이터 구성
○ 가공 타입
- 분류 및 요약 데이터 : 상담 데이터의 분류, 목적, 상황, 주제, 요약, 고객 유형 등 질의응답 외적 속성 정보를 구조화하여 태그 형태로 부여
- 질의응답 데이터 : 상담 목적, 상황, 주제 등 메타정보를 조합하여 상담 요약 내용을 기반으로 문맥에 맞는 질문 형태로 구성된 데이터, 상담데이터 내 핵심금융용어가 포함되어있는 경우 반드시 포함하여 QA데이터 생성○ 어노테이션 포맷
- 데이터셋 이름 및 메타정보, 어노테이션 항목 및 값에 대한 범위와 예시○ 어노테이션 포맷 No 항목명 타입 필수
구분항목 설명 예시 값 1 source object Y 원천데이터 1 source_institution string Y 데이터 제공 기관명 하나손해보험 2 source_id string Y 원천 데이터 고유 ID 21-1_bk_03_000255 3 source_date string Y 상담 일자 202506 4 client_gender string Y 고객 성별 남, 여 중 택1 5 client_age string Y 고객 연령대 20~29세 6 consulting_client string Y 상담 고객 유형 기존고객/신규고객 7 consulting_client_type string N 세부 상담 고객 유형 개인사업자 8 source_length number Y 상담 전체 길이 (음절) 500자 이상 9 consulting_content string Y 상담 원문 2 consulting 1 consulting_category string Y 상담 카테고리 은행, 보험, 증권 중 택 1 2 consulting_topic string Y 상담 주제 목록 중 택 1 3 consulting_summary string Y 상담 요약 상담 원문 요약 3 qa_data object Y 질의응답 1 qa_id string Y 고유식별자 21-1_bk_03_000255_001 2 task_category string Y 작업 분류 일반상담, 핵심금융용어 중 택 1 3 consulting_situation string Y 상담 상황 일반 문의, 업무처리, 민원 응대중 택 1 4 qa_topic string Y 상담 주제 “거래내역/잔액조회“ 목록 중 택 1 5 consulting_purpose string Y 상담 목적 “카드 재발급 요청” 작업자 입력값 6 core_financial_terms string N 핵심금융용어 “대출이자” 작업자 입력값 7 input_length number Y QAQ(Input) 길이 (음절) 200자 이상 8 instruction string Y 지시문 작업자 입력값 9 input object Y 1 question string Y 질문 작업자 입력값 2 answer string Y 답변 작업자 입력값 3 follow_up_question string Y 후속 질문 작업자 입력값 10 output string Y 모범답변 작업자 입력값 ○ 라벨링 데이터 예시

-
데이터셋 구축 담당자
수행기관(주관) : ㈜타임게이트
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박범석 02-575-0409 aidiv@time-gate.com 데이터 수집, 데이터 정제, 품질관리 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜세명소프트 데이터 가공, AI 모델 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이정기 02-575-0409 aidiv@time-gate.com 박범석 02-575-0409 aidiv@time-gate.com AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 노을 070-7605-3328 sunset@smsoft.kr 이정훈 070-7605-3328 ljh@smsoft.kr 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 노을 070-7605-3328 sunset@smsoft.kr 이정훈 070-7605-3328 ljh@smsoft.kr
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.
오프라인 데이터 이용 안내
본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.
데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.

국방데이터 개방 안내
본 데이터는 국방데이터로 군사 보안에 따라 AI허브에서 데이터를 제공하지 않으며,
군 담당자를 통한 별도의 사용 신청이 필요합니다.