콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 한국어 맞춤법 교정 오탈자 교정

인터페이스(자판/음성)별 고빈도 오류 교정 데이터

인터페이스(자판,음성)별 고빈도 오류 교정 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2022 갱신년월 : 2023-12 조회수 : 7,310 다운로드 : 430 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.1 2023-12-01 데이터 최종 개방
    1.0 2023-07-31 데이터 개방(Beta Version)

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2023-12-15 산출물 전체 공개

    소개

    한글 입력 인터페이스(일반 키보드, 스마트폰 쿼티 및 천지인, 음성)에서 특징적으로 나타나는 오탈자 및 띄어쓰기 등 오류를 탐지하고 적절한 맞춤법으로의 자동전환을 학습하기 위한 데이터

    구축목적

    최신 디지털 기기 인터페이스에서 나타나는 오탈자 및 띄어쓰기를 탐지, 검사할 수 있는 언어모델 연구, 개발을 위함
    잘못 된 맞춤법 사용으로 작성된 문장을 올바른 맞춤법으로 교정할 수 있는 언어모델을 연구, 개발하기 위함
  • - 데이터 통계
      > 데이터 구축 규모

    데이터 구축 규모
    구분 상세구분 수량(문장) 소계 비율 비고
    오탈자 PC/쿼티 39,600 110,000 55%  
    mobile/쿼티 39,600  
    mobile/천지인 30,800  
    맞춤법 오류 자유게시판 18,000 60,000 30%  
    질문게시판 24,000  
    SNS 18,000  
    음성 인식기 오류 STT_ENGINE_01 9,000 30,000 15%  
    STT_ENGINE_02 9,000  
    STT_ENGINE_03 12,000  
    자동 생성 오류 - 30,000 - - 추가 수량
    띄어쓰기/문장부호 오류 - 60,000 - - 추가 수량
    자주 틀리는 맞춤법 오류 - 500 - - 추가 수량
    합계 290,500      

                                                              ▲ 표06


      > 데이터 분포
          오탈자

    데이터 분포 - 오탈자
    입력 인터페이스 소계 초중등 고등 20대~40대 40대이상
    pc/쿼티 39,600 7,920 7,920 13,860 9,900
    mobile/쿼티 39,600 7,920 7,920 13,860 9,900
    mobile/천지인 30,800 6,160 6,160 10,780 7,700
    합계 110,000 22,000 22,000 38,500 27,500

                                                            ▲ 표07


          맞춤법 오류

    데이터 분포 - 맞춤법 오류
    데이터 출처 소계 초중등 고등 20대~40대 40대이상
    자유게시판 18,000 2,368 11,554 4,058 20
    질문게시판 24,000 2,495 18,292 3,156 57
    SNS 18,000 2,176 7,620 7,867 337
    합계 60,000 7,039 37,466 15,081 414

                                                            ▲ 표08

          음성 인식기 오류

    데이터 분포 - 음성 인식기 오류
    입력 인터페이스 데이터 수량 비율 오류 수량 비율 평균 오류 수량
    STT_ENGINE_01 9,000 30% 45,565 36% 5.06
    STT_ENGINE_02 9,000 30% 35,779 28% 3.98
    STT_ENGINE_03 12,000 40% 44,967 36% 3.75
    합계 / 평균 30,000   126,311   4.26

                                                            ▲ 표09

    The Transformer - model architecture
                                 ▲ 그림01

    Transformations for noising the input that we experiment with. These transformation cab be composed

                                 ▲ 그림02

     

    구분 및 값

    구분

    모델 ko-BART
    learning rate 1.00E-04
    batch size 64
    max epoch 30

                           ▲ 표10


     - 서비스 활용 시나리오
      > 한국어 오류 교정 서비스에 활용
        1. 구축한 데이터로 학습된 모델을 한국어 오류 교정 서비스에 활용할 수 있음
        2. AI 단독 모델로는 한계 존재, 규칙 기반 교정을 추가로 정의하여 사용 할 것을 권고
      > 한국어 오류 교정 연구에 활용
        1. 오류 어휘, 교정 어휘를 분석하여 한국어 오류에 대한 연구에 활용
      > 한국어 오류 교정 임무에 벤치마크로 활용
        1. 개발한 한국어 오류 교정 모델에 대한 성능 평가 데이터로 활용

  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 활용 모델
      > AI Framework: PyTorch
      > Toolkit: Huggingface
      > 모델 학습
     한국어 오류 교정 임무를 수행하기 위한 인공지능 모델로 ko-BART를 활용하였으며, 해당 모델은 구글에서 발표한 논문의 사전학습 방식을 한국어에 적용하여 사전학습 시킨 모델임
     사전 학습된 ko-BART 모델을 해당 임무에 적합하도록 Fine-Tuning하였음

  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 Transformer 오류 문장 교정 Prediction Bart F0.5-Score 0.5 0.5907
    2 Transformer 사전 학습 오류 문장 교정 Prediction Bart F0.5-Score 0.5 0.7863

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 포맷
      > 원문데이터 포맷 예시

    원문데이터 포맷 예시 - 오탈자 데이터
    오탈자 데이터
    장치 PC
    키보드 쿼티
    나이 16
    원본 스크립트 : 구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!
    입력 : 굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~
    json
    실제 예시
    {
    "metadata_info": {
    "id": "ota0000000203152",
    "interface": "pc",
    "keyboard": "쿼티",
    "age": 16
    },
    "annotation": {
    "err_sentence": "굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~",
    "err_sentence_spell": "굳가 몇켤레인지 개수를 세어보렴, 어렵지않을거야~",
    "cor_sentence": "구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!",
    "cor_sentence_spell": "구두가 몇 켤레인지 개수를 세어보렴. 어렵지 않을 거야!",
    "reg_date": 20220812,
    "errors": [
    {
    "err_idx": 0,
    "err_location": 0,
    "err_text": "굳가",
    "cor_text": "구두가",
    "err_details": {
    "choseong": {
    "insert": 1,
    "delete": 0,
    "replace": 0
    },
    "joongseong": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "jongseong": {
    "insert": 0,
    "delete": 0,
    "replace": 1
    },
    "spacing": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "mark": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "number": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "alphabet": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    }
    },
    "edit_distance": 2
    },
    ...
    ]
    }
    }

                                                                                   ▲ 표01

     

    원문데이터 포맷 예시 - 맞춤법 오류
    맞춤법 오류
    출처 자유게시판
    작성일 2021. 04. 22
    성별 여성
    나이 17
    원본 아뇨 토픽 수업을 해 본 적이 없... 아 대강 때 토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함 맞닼 그리고 조금 긴 시간 동안 문제 풀게 해야 하니끄아 그렇지??
    전처리 토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함
    json
    실제 예시
    {
    "metadata_info": {
    "id": "grm2210120098701",
    "source": "SNS",
    "date": 20210422,
    "gender": "M",
    "age": 20
    },
    "annotation": {
    "err_sentence": "토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함",
    "err_sentence_spell": "토픽 일기 했는데 믄제풀이라서 읽고 문제 풀이만 함",
    "cor_sentence": "토픽 읽기 했는데 문제 풀이라서 읽고 문제 풀이만 함.",
    "cor_sentence_spell": "토픽 읽기 했는데 문제 풀이라서 읽고 문제 풀이만 함.",
    "reg_date": 20221012,
    "errors": [
    {
    "err_idx": 0,
    "err_location": 1,
    "err_text": "일기",
    "cor_text": "읽기",
    "err_details": ["유사 모양"],
    "edit_distance": 1
    },
    {
    "err_idx": 1,
    "err_location": 3,
    "err_text": "믄제풀이라서",
    "cor_text": "문제 풀이라서",
    "err_details": ["띄어쓰기", "유사 모양"],
    "edit_distance": 2
    },
    {
    "err_idx": 2,
    "err_location": 7,
    "err_text": "함",
    "cor_text": "함.",
    "err_details": ["문장부호"],
    "edit_distance": 1
    }

                                                                                   ▲ 표02

    원문데이터 포맷 예시 - 음성 인식기 오류
    음성 인식기 오류
    사용 엔진 ENGINE_01
    원본 그러면 다 필요 필요가 없어 필요없어요. 파이날만에 개인적으로 아이들한테 그렇게 얘기를 했어요. 필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와 그리고 제가 현장에 있는 아이들한테도 고3들한테 야 야 굳이 안 들어도 돼 역시 국어 열심히 수학 열심히 해 훨씬 더 중요한 거는 그쪽 과목이잖아.
    전처리 필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와
    json
    실제 예시
    {
    "metadata_info": {
    "id": "aud2207130001058",
    "source": "STT_ENGINE_01"
    },
    "annotation": {
    "err_sentence": "필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와",
    "err_sentence_spell": "필수 거리는 긔거고 야 솔직히 깨념 완반만 아벽하면 만점 그으냥 나와",
    "cor_sentence": "필수 커리는 그거고 야 솔직히 개념 완성반만 완벽하면 만점 그냥 나와.",
    "cor_sentence_spell": "필수 커리는 그거고 야 솔직히 개념 완성반만 완벽하면 만점 그냥 나와.",
    "reg_date": 20220713,
    "errors": [
    {
    "err_idx": 0,
    "err_location": 1,
    "err_text": "거리는",
    "cor_text": "커리는",
    "err_details": {
    "choseong": {
    "insert": 0,
    "delete": 0,
    "replace": 1
    },
    "joongseong": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "jongseong": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "spacing": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "mark": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "number": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    },
    "alphabet": {
    "insert": 0,
    "delete": 0,
    "replace": 0
    }
    },
    "edit_distance": 1
    },
    ..
    ]
    }
    }

                                                                                   ▲ 표03


    - 데이터 구성

    데이터 구성
    Key Description Type Child Type
    info 데이터셋 정보 object   
    description 데이터셋 명 string   
    data_name 데이터셋 한글명 string   
    data_description 데이터셋 상세설명 string   
    creator 데이터셋 생산자 string   
    distributor 데이터셋 제공자 string   
    version 데이터셋 버전 string   
    data 데이터 목록 array object
    metadata_info 데이터 메타 정보 object   
    id 데이터 고유 식별자 string   
    source 데이터 출처 string   
    date 게시글 작성일 int   
    gender 게시글 작성자 성별 string   
    age 게시글 작성자 나이 int   
    interface 작성자 인터페이스 string   
    keyboard 작성자 키보드 string   
    annotation 라벨링 정보 object   
    err_sentence 오류 문장 string   
    err_sentence_spell 오류 문장 음소 string   
    cor_sentence 교정 문장 string   
    cor_sentence_spell 교정 문장 음소 string   
    reg_date 수집일 int   
    errors 요류 정보 array object
    err_idx 오류 식별자 int   
    err_location 오류 위치 int   
    err_text 오류 어휘 string   
    cor_text 교정 어휘 string   
    err_details 오탈자, 음성 인식기 오류 : object 타입의 오류 유형 정보 object   
    choseong 그 외의 오류 : array 타입의 오류 유형 정보 array object
    insert 편집거리 알고리즘 정보 - 초성 object   
    delete 편집거리 알고리즘 입력 횟수 int   
    replace 편집거리 알고리즘 삭제 횟수 int   
    joongseong 편집거리 알고리즘 대체 횟수 int   
    insert 편집거리 알고리즘 정보 - 중성 object   
    delete 편집거리 알고리즘 입력 횟수 int   
    replace 편집거리 알고리즘 삭제 횟수 int   
    jongseong 편집거리 알고리즘 대체 횟수 int   
    insert 편집거리 알고리즘 정보 - 종성 object   
    delete 편집거리 알고리즘 입력 횟수 int   
    replace 편집거리 알고리즘 삭제 횟수 int   
    spacing 편집거리 알고리즘 대체 횟수 int   
    insert 편집거리 알고리즘 정보 - 공백 object   
    delete 편집거리 알고리즘 입력 횟수 int   
    replace 편집거리 알고리즘 삭제 횟수 int   
    mark 편집거리 알고리즘 대체 횟수 int   
    insert 편집거리 알고리즘 정보 - 문장부호 object   
    delete 편집거리 알고리즘 입력 횟수 int   
    replace 편집거리 알고리즘 삭제 횟수 int   
    number 편집거리 알고리즘 대체 횟수 int   
    insert 편집거리 알고리즘 정보 - 숫자 object   
    delete 편집거리 알고리즘 입력 횟수 int   
    replace 편집거리 알고리즘 삭제 횟수 int   
    alphabet 편집거리 알고리즘 대체 횟수 int   
    insert 편집거리 알고리즘 정보 - 영문자 object   
    delete 편집거리 알고리즘 입력 횟수 int   
    replace 편집거리 알고리즘 삭제 횟수 int   
    edit_distance 편집거리 알고리즘 대체 횟수 int   
    06-Jun .edit_distance int Y

                                                                ▲ 표04

    - 어노테이션 포맷

    어노테이션 포맷
    번호 항목명 타입 필수 설명
    1 info object Y 데이터셋 정보
    1-1 .description string Y 데이터셋 명
    1-2 .data_name string Y 데이터셋 한글명
    1-3 .data_description string Y 데이터셋 상세설명
    1-4 .creator string Y 데이터셋 생산자
    1-5 .distributor string Y 데이터셋 제공자
    1-6 .version string Y 데이터셋 버전
    2 data array Y 데이터 목록
    2-1 .metadata_info object Y 데이터 메타 정보
    2-1-1 .id string Y 데이터 고유 식별자
    2-1-2 .source string    데이터 출처
    2-1-3 .date int    게시글 작성일
    2-1-4 .gender string    게시글 작성자 성별
    2-1-5 .age int    게시글 작성자 나이
    2-1-6 .interface string    작성자 인터페이스
    2-1-7 .keyboard string    작성자 키보드
    2-2 .annotation object Y 라벨링 정보
    2-2-1 .err_sentence string Y 오류 문장
    2-2-2 .err_sentence_spell string Y 오류 문장 음소
    2-2-3 .cor_sentence string Y 교정 문장
    2-2-4 .cor_sentence_spell string Y 교정 문장 음소
    2-2-5 .reg_date int    수집일
    2-2-6 .errors array Y 요류 정보
    2-2-6-1 .err_idx int Y 오류 식별자
    2-2-6-2 .err_location int Y 오류 위치
    2-2-6-3 .err_text string Y 오류 어휘
    2-2-6-4 .cor_text string Y 교정 어휘
    2-2-6-5 .err_details object Y 오탈자, 음성 인식기 오류 : object 타입의 오류 유형 정보
    2-2-6-5-1 array 그 외의 오류 : array 타입의 오류 유형 정보
    2-2-6-5-1-1 .choseong object    편집거리 알고리즘 정보 - 초성
    2-2-6-5-1-2 .insert int    편집거리 알고리즘 입력 횟수
    2-2-6-5-1-3 .delete int    편집거리 알고리즘 삭제 횟수
    2-2-6-5-2 .replace int    편집거리 알고리즘 대체 횟수
    2-2-6-5-2-1 .joongseong object    편집거리 알고리즘 정보 - 중성
    2-2-6-5-2-2 .insert int    편집거리 알고리즘 입력 횟수
    2-2-6-5-2-3 .delete int    편집거리 알고리즘 삭제 횟수
    2-2-6-5-3 .replace int    편집거리 알고리즘 대체 횟수
    2-2-6-5-3-1 .jongseong object    편집거리 알고리즘 정보 - 종성
    2-2-6-5-3-2 .insert int    편집거리 알고리즘 입력 횟수
    2-2-6-5-3-3 .delete int    편집거리 알고리즘 삭제 횟수
    2-2-6-5-4 .replace int    편집거리 알고리즘 대체 횟수
    2-2-6-5-4-1 .spacing object    편집거리 알고리즘 정보 - 공백
    2-2-6-5-4-2 .insert int    편집거리 알고리즘 입력 횟수
    2-2-6-5-4-3 .delete int    편집거리 알고리즘 삭제 횟수
    2-2-6-5-5 .replace int    편집거리 알고리즘 대체 횟수
    2-2-6-5-5-1 .mark object    편집거리 알고리즘 정보 - 문장부호
    2-2-6-5-5-2 .insert int    편집거리 알고리즘 입력 횟수
    2-2-6-5-5-3 .delete int    편집거리 알고리즘 삭제 횟수
    2-2-6-5-6 .replace int    편집거리 알고리즘 대체 횟수
    2-2-6-5-6-1 .number object    편집거리 알고리즘 정보 - 숫자
    2-2-6-5-6-2 .insert int    편집거리 알고리즘 입력 횟수
    2-2-6-5-6-3 .delete int    편집거리 알고리즘 삭제 횟수
    2-2-6-5-7 .replace int    편집거리 알고리즘 대체 횟수
    2-2-6-5-7-1 .alphabet object    편집거리 알고리즘 정보 - 영문자
    2-2-6-5-7-2 .insert int    편집거리 알고리즘 입력 횟수
    2-2-6-5-7-3 .delete int    편집거리 알고리즘 삭제 횟수
    2-2-6-6 .replace int    편집거리 알고리즘 대체 횟수
    06-Jun .edit_distance int Y 오류 어휘, 교정 어휘 편집거리

                                                                     ▲ 표05

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜ 유핏
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김희곤 1544-9370 koscokim@ufits.co.kr 사업총괄 관리, 데이터 수집 및 정제
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    메가스터디교육(주) 데이터 수집 및 정제, AI모델
    (주)세명소프트 데이터 검사
    (사)한국에듀테크산업협회 데이터 가공
    ㈜솔트룩스이노베이션 저작도구 제작
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    김희곤 1544-9370 koscokim@ufits.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청 데이터 열람신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

오프라인 데이터 이용 안내

본 데이터는 K-ICT 빅데이터센터에서도 이용하실 수 있습니다.

K-ICT 빅데이터센터는 데이터 안심구역으로 지정되어
다양한 데이터(미개방 데이터 포함)를 분석할 수 있는 오프라인 분석공간을 제공하고 있습니다.

데이터 안심구역 이용절차 및 신청은 K-ICT빅데이터센터 홈페이지를 참고하시기 바랍니다.