콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

BETA 한국어 성능이 개선된 초거대AI 언어모델 개발 및 데이터

한국어 성능이 개선된 초거대AI 언어모델 개발 및 데이터 아이콘 이미지
  • 분야한국어
  • 유형 텍스트
구축년도 : 2023 갱신년월 : 2024-06 조회수 : 165 다운로드 : 0

※ 본 데이터는 추후 개방될 예정입니다. 베타개방을 통해 제공되는 데이터 목록은 공지사항을 참고하시기 바랍니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 한국어 말뭉치 데이터 20억 어절/310만 건과 Reinforcement Learning Human Feedback(RLHF) 데이터 7만 7천 건으로 구성

    구축목적

    - AI Hub에 다양한 분야의 대규모 한국어 말뭉치 데이터를 공개함으로써 한국어 말뭉치 데이터의 다양성과 품질을 향상시키는 데에 기여함
  • - 데이터 구축 규모

    데이터 종류 데이터 형태 원문 규모 어노테이션 규모
    한국어말뭉치데이터 자연어 310만 건
    (20억 어절)
    -
    RLHF데이터 SFT데이터 질의응답 1.3만 건 1.3만 건
    RM데이터 응답순위 3.3만 건 3.3만 건
    PPO데이터 질문 3.1만 건 -

     

    - 데이터 분포
    문체별 분포: 구어체, 문어체 건 수, 어절 수

    문체 원문 규모 어절 수
    구어체 683,277건 1,025,519,624어절
    문어체 2,678,129건 1,260,946,221어절
    합계 3,361,406건 2,286,465,845어절

    주제별 분포: 공학, 명칭, 보건, 사회, 산업, 예체능, 인문, 자연, 종교, 기타 원문 건 수

     

    한국어말뭉치데이터

    중분류 원문 규모 비율
    공학 61,963건 1.84%
    기타 374,513건 11.14%
    명칭 3,217건 0.10%
    보건 186,247건 5.54%
    사회 1,218,049건 36.24%
    산업 600,154건 17.85%
    예체능 178,491건 5.31%
    인문 489,046건 14.55%
    자연 149,095건 4.44%
    종교 100,629건 2.99%
    합계 3,361,404건 100.00%

     

    RLHF데이터
    - SFT 데이터

    중분류 원문 규모 비율
    공학 1,307 9.88%
    기타 1,429 10.81%
    명칭 577 4.36%
    보건 1,112 8.41%
    사회 1,675 12.67%
    산업 1,107 8.37%
    예체능 1,787 13.51%
    인문 1,337 10.11%
    자연 2,320 17.54%
    종교 574 4.34%
    합계 13,225 100.00%

     

    - RM데이터

    중분류 원문 규모 비율
    공학 3,069 9.30%
    기타 786 2.38%
    명칭 2,103 6.37%
    보건 2,101 6.36%
    사회 7,684 23.28%
    산업 896 2.71%
    예체능 6,582 19.94%
    인문 3,155 9.56%
    자연 5,986 18.13%
    종교 648 1.96%
    합계 33,010 100.00%

     

    - PPO데이터

    중분류 원문 규모 비율
    공학 3,203 10.07%
    기타 912 2.87%
    명칭 2,196 6.90%
    보건 1,359 4.27%
    사회 7,440 23.39%
    산업 748 2.35%
    예체능 7,513 23.62%
    인문 3,197 10.05%
    자연 4,753 14.94%
    종교 483 1.52%
    합계 31,804 100.00%
  • - LLaMA2 Large Language Model Meta AI
     - Meta AI에서 개발한 상용 오픈소스 언어 모델
     - Pre-normalization, SwiGLU 활성화 함수, Rotray Embddings를 적용
     - 모델의 크기는 줄이면서 높은 성능 유지가 가능

    Pretraining Data - 2 Trillion tokens 학습(본 과제에서는 from scratch로 20B token을 학습 함)
    Model architecture standard transformer를 부분수정하여 사용
    - Pre-mormalization using RMSNorm
    - SwiGLU activation function
    - Rotray positional embeddings
    hyperparameters AdamW optimaizer
    Tokenizer - byterpair encoding (BPE) algorithem
    - total vocabulary : 32k tokens
  • - 데이터 구성
    1-1) 한국어 말뭉치 데이터

    No Key Type Description
    1 dataset_info Object 데이터셋 정보
      1-1 augmentation_type String 데이터셋 증강기법 유형
    1-2 augmentation_id Number 데이터셋 증강기법 id
    1-3 last_updated String 마지막 갱신 날짜
    2 data_info Array 원시 데이터 정보
      2-1 data_id String 원시 데이터 식별자
    2-2 data_file String 원시 데이터 파일명
    2-3 data_title String 원시 데이터 명
    2-4 data_type String 원시 데이터 유형
    2-5 data_year String 작성연도
    2-6 collected_date String 획득 일자
    2-7 data_institution String 소장기관명
    2-8 data_author String 저자/제작자/채널명
    2-9 data_source String 출처
    2-10 data_ccl String CCL 조건
    2-11 data_count Number 데이터 어절 수
    2-12 data_lexemes String 어휘 유형
    2-13 data_category Object 데이터셋 분류
      2-13-1 main String 대분류
    2-13-2 middle String 중분류
      2-13-3 sub String 원시 데이터 분류체계-소분류
    2-14 contents String 한국어 말뭉치 데이터

     

    1-2) SFT 데이터

    No Key Type Description
    1 dataset_info   데이터셋 정보
      1-1 dataset_type string 데이터셋 유형
    1-2 last_updated string 마지막 갱신 날짜
    2 data_info   데이터 정보
      2-1 data_id string 데이터 식별자
    2-2 data_category   원시 데이터 분류체계
      2-2-1 main string 대분류
    2-2-2 middle string 중분류
    2-2-3 sub string 소분류
    2-3 question_type string 질문 데이터 획득 방식
    2-4 question_count number 질문 데이터 어절 수
    2-5 data_lexemes String 어휘 유형
    2-6 question string 질문 데이터
    2-7 answer01   답변1
      2-7-1 answer_count number 답변 데이터 어절 수
    2-7-2 contents string 답변1 데이터
    2-8 answer02   답변2
      2-8-1 answer_count number 답변 데이터 어절 수
    2-8-2 contents string 답변2 데이터
    2-9 answer03   답변3
      2-9-1 answer_count number 답변 데이터 어절 수
    2-9-2 contents string 답변3 데이터
    2-10 answer04   답변4
      2-10-1 answer_count number 답변 데이터 어절 수
    2-10-2 contents string 답변4 데이터
    2-11 answer05   답변5
      2-11-1 answer_count number 답변 데이터 어절 수
    2-11-2 contents string 답변5 데이터

     

    1-3) RM 데이터

    No Key Type Description
    1 dataset_info   데이터셋 정보
      1-1 dataset_type string 데이터셋 유형
    1-2 last_updated string 마지막 갱신 날짜
    2 data_info   데이터 정보
      2-1 data_id string 데이터 식별자
    2-2 data_category   데이터 분류체계
      2-2-1 main string 대분류
    2-2-2 middle string 중분류
    2-2-3 sub string 소분류
    2-3 question_type string 질문 데이터 획득 방식
    2-4 question_count number 질문 데이터 어절 수
    2-5 data_lexemes String 어휘 유형
    2-6 question string 질문 데이터

     

    1-4) PPO 데이터

    No Key Type Description
    1 dataset_info   데이터셋 정보
      1-1 dataset_type string 데이터셋 유형
    1-2 last_updated string 마지막 갱신 날짜
    2 data_info   데이터 정보
      2-1 data_id string 데이터 식별자
    2-2 data_category   데이터 분류체계
      2-2-1 main string 대분류
    2-2-2 middle string 중분류
    2-2-3 sub string 소분류
    2-3 question_type string 질문 데이터 획득 방식
    2-4 question_count number 질문 데이터 어절 수
    2-5 data_lexemes String 어휘 유형
    2-6 question string 질문 데이터

     

    - 어노테이션 포맷
    2-1) SFT 데이터

    No Key Type 필수여부 Description 범위
    1 dataset_info 데이터셋 정보  
      1-1 dataset_type string Y 데이터셋 유형 SFT
    1-2 last_updated string N 마지막 갱신 날짜  
    2 data_info     데이터 정보  
      2-1 data_id string Y 데이터 식별자  
    2-2 data_category     원시 데이터 분류체계  
      2-2-1 main string Y 대분류 2종류
    2-2-2 middle string Y 중분류 10종류
    2-2-3 sub string N 소분류 68종류
    2-3 question_type string Y 질문 데이터 획득 방식 구매, 생성
    2-4 question_count number N 질문 데이터 어절 수 1-500
    2-5 data_lexemes String N 어휘 유형 일반어,
    방언,
    신조어,
    준말
    2-6 question string Y 질문 데이터  
    2-7 answer     답변  
      2-7-1 answer_count number N 답변 데이터 어절 수 3-2000
    2-7-2 contents string Y 답변 데이터  

     

    2-2) RM 데이터

    No Key Type 필수여부 Description 범위
    1 dataset_info     데이터셋 정보  
      1-1 dataset_type string Y 데이터셋 유형 RM
    1-2 last_updated string N 마지막 갱신 날짜  
    2 data_info     데이터 정보  
      2-1 data_id string Y 데이터 식별자  
    2-2 data_category     원시 데이터 분류체계  
      2-2-1 main string Y 대분류 2종류
    2-2-2 middle string Y 중분류 10종류
    2-2-3 sub string N 소분류 68종류
    2-3 question_type string Y 질문 데이터 획득 방식 구매, 생성
    2-4 question_count number N 질문 데이터 어절 수 1-500
    2-5 data_lexemes String N 어휘 유형 일반어,
    방언,
    신조어,
    준말
    2-6 question string Y 질문 데이터  
    2-7 answer01     답변1  
      2-7-1 answer_count number N 답변 데이터 어절 수 3-2000
    2-7-2 ranking number Y 답변1 순위 데이터 1, 2, 3, 4, 5
    2-7-3 contents string Y 답변1 데이터  
    2-8 answer02     답변2  
      2-8-1 answer_count number N 답변 데이터 어절 수 3-2000
    2-8-2 ranking number Y 답변2 순위 데이터 1, 2, 3, 4, 5
    2-8-3 contents string Y 답변2 데이터  
    2-9 answer03     답변3  
      2-9-1 answer_count number N 답변 데이터 어절 수 3-2000
    2-9-2 ranking number Y 답변3 순위 데이터 1, 2, 3, 4, 5
    2-9-3 contents string Y 답변3 데이터  
    2-10 answer04     답변4  
      2-10-1 answer_count number N 답변 데이터 어절 수 3-2000
    2-10-2 ranking number Y 답변4 순위 데이터 1, 2, 3, 4, 5
    2-10-3 contents string Y 답변4 데이터  
    2-11 answer05     답변5  
      2-11-1 answer_count number N 답변 데이터 어절 수 3-2000
    2-11-2 ranking number Y 답변5 순위 데이터 1, 2, 3, 4, 5
    2-11-3 contents string Y 답변5 데이터  

     

    - 데이터 포맷
    1-1) 한국어 말뭉치 데이터

    제목
    성씨
    대분류 문어체
    중분류 인문
    작성연도 2022
    소장기관명 한국민족문화대백과사전
    원문
    성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단(單系血緣集團)의 한 명칭이며, 곧 족적 관념(族的觀念)의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다.
    후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계(族系)를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율(出自律)의 의미를 내포하고 있다.
    성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다.
    성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나[冒姓] 변성(變姓) · 사성(賜姓) · 자칭성(自稱姓)하기도 하였다.
    중국의 경우 삼대(三代:夏 · 殷 · 周) 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다.
    중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다.
    그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다.
    성은 그 사람이 태어난 부계혈통의 표지(標識)이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다.
    현행 「민법」상으로 자(子)는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다.
    중국의 문자구조에 관한 최초의 자전인 『설문해자(說文解字)』에 “성인지소생야(姓人之所生也)”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다.
    또, 『좌전(左傳)』에 “천자건덕 인생이사성(天子建德 因生以賜姓)”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후(諸侯)를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다.
    그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨(胙之土而命之氏)”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다.
    씨는 분화된 혈통(성)의 각각의 지연(地緣)을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다.
    경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처(妻)에 대한 이름 대용의 경칭적 칭호로도 사용되었다.
    전처리 후
    성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단의 한 명칭이며, 곧 족적 관념의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다. 후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율의 의미를 내포하고 있다. 성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · · 이름을 가지게 되어 있다. 성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나 변성 · 사성 · 자칭성하기도 하였다. 중국의 경우 삼대 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다. 중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다. 그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다. 성은 그 사람이 태어난 부계혈통의 표지이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다. 현행 민법상으로 자는 부의 성과 본을 따르도록 되어 있으며(781), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다. 중국의 문자구조에 관한 최초의 자전인 『설문해자』에 성인지소생야라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다. , 『좌전』에 천자건덕 인생이사성이라 한 것처럼, 천자가 유덕한 사람을 세워 제후를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다. 그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 조지토이명지씨라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다. 씨는 분화된 혈통()의 각각의 지연을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다. 경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처에 대한 이름 대용의 경칭적 칭호로도 사용되었다.

     

    1-2) SFT 데이터

    대분류 문어체
    중분류 자연
    질문 데이터 획득 방식 생성
    원문
    질문: 지구의 구성 요소는 무엇인가요?
    라벨링 후
    질문: 지구의 구성 요소는 무엇인가요?
    답변: 지구는 대부분의 우주 물질로 이루어진 행성으로, 기본적으로 다음과 같은 구성 요소로 구성되어 있습니다.\n1. 지각: 지구의 겉면을 이루는 땅과 바위로 된 표면 부분입니다.\n2. 수질: 지구의 표면에 존재한느 물의 총질량을 의미합니다. 바다, , 호수 등을 포함합니다.\n3. 대기: 지구를 둘러싸고 있는 공기의 두꺼운 층으로, 대기는 생명체에게 산소를 제공하고 기후와 날씨를 조절하는 역할을 합니다.\n4. 생물: 지구상에 살아 숨 쉬는 생명체들을 의미합니다. 식물, 동물, 미생물 등이 여기에 포함됩니다.\n이러한 구성 요소들이 지구를 형성하며, 서로 복잡하게 상호작용하면서 지구 생태계를 이루고 있습니다.

     

    1-3) RM 데이터

    대분류 문어체
    중분류 인문
    질문 데이터 획득 방식 생성
    원문
    질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?
    답변 생성 후
    질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?
    답변1: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다.
    답변2: 소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다.
    답변3: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다.
    답변4: 소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다.
    답변5: 소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다.
    라벨링 후
    질문: 소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?
    답변1: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다. (1위)
    답변2: 소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다. (2위)
    답변3: 소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다. (3위)
    답변4: 소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다. (4위)
    답변5: 소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다. (5위)

     

    1-4) PPO 데이터

    대분류 구어체
    중분류 보건
    질문 데이터 획득 방식 구매
    원문
    질문: 한의학에서 비염을 어켕 치료하나요?
    전처리 후
    질문: 한의학에서 비염을 어떻게 치료하나요?

     

    - 실제 예시
    ● 한국어 말뭉치 데이터
    {
      "dataset_info": {
        "data_category": {
          "main": "문어체",
          "middle": "인문"
        },
        "augmentation_type": "None",
        "augmentation_id": 0,
        "last_updated": "230829"
      },
      "data_info": [
        {
          "data_id":"88005",
          "data_file":"ANM8805.txt",
          "data_title":"성씨",
          "data_subcategory":"인문 일반",
          "data_type":"텍스트",
          "data_year":"2022",
          "collected_data":"230717",
          "data_institution":"한국민족문화대백과사전",
          "data_author":["홍길동"],
          "data_source":"https://encykorea.aks.ac.kr/Article/E0029415",
          "data_ccl":"CC BY",
          "data_count":"394",
    "contents":"성씨란 일정한 인물을 시조로 하여 대대로 이어 내려오는 단계혈연집단의 한 명칭이며, 곧 족적 관념의 표현이라고 볼 수도 있다는 데서 결국 족의 문제와 직접 연결된 것으로, 고대로 거슬러 올라 갈수록 더욱 밀착되어 있다. 후대의 성씨는 한자식 표기로서 이름 앞에 붙어 족계를 나타내는 동계혈족집단의 명칭을 가리키고, 이는 바로 중국식 출자율의 의미를 내포하고 있다. 성과 씨는 역사상 때로는 함께 붙어서, 때로는 각각 독립적으로 사용되기도 하였다. 본관과 함께 사용하여 혈연관계가 없는 동일한 성과 구별된다. 여기에서 현재 한국인이라면 누구나 본 · 성 · 이름을 가지게 되어 있다. 성씨는 발생한 이래 계속 분화하여 같은 조상이면서 성을 달리하기도 하며, 동성이면서 조상을 달리하기도 하였다. 또는 부의 성을 따르기도 하며 또는 모의 성을 따르는가 하면, 또는 혈연적인 관계가 전혀 없는 성을 거짓 사용하거나 변성 · 사성 · 자칭성하기도 하였다. 중국의 경우 삼대 이전에는 남자는 씨를, 여자는 성을 호칭하였다가 후대에 성씨가 합쳐졌던 것이며, 씨는 신분의 귀천을 분별하였기 때문에 귀한 자는 씨가 있으나, 천한 자는 이름만 있고 씨는 없었다. 중국의 성씨제도를 수용한 우리나라에서는 고려 초기부터 지배층에게 성이 보급되면서 성은 부계혈통을 표시하고 명은 개인의 이름을 가리키게 되었다. 그 결과 성은 그 사람의 혈연관계를 분류하는 기준이 되며, 이름은 그 성과 결합하여 사회성원으로서의 개인을 남과 구별하는 구실을 한다. 이름 그 자체만으로는 독립된 인격 행위를 할 수 없으며 어디까지나 성을 보조하는 기능을 가진다. 성은 그 사람이 태어난 부계혈통의 표지이기 때문에, 그 사람의 신분이나 호적에 변동이 생긴다 하여도 혈통이 변하는 것이 아니므로 일생 동안 바꾸지 못하는 것이 우리나라 고래의 관습법이다. 현행 민법상으로 자는 부의 성과 본을 따르도록 되어 있으며(제781조), 성이 잘못 불리거나 하는 특별한 경우 이외에는 성의 변경은 허용되지 않는다. 중국의 문자구조에 관한 최초의 자전인 『설문해자』에 “성인지소생야”라 하듯이, 성은 출생의 계통을 표시하는 것으로 모계시대에는 여계의 혈통을, 부계시대에는 남계의 혈통을 나타내는 표지이다. 또, 『좌전』에 “천자건덕 인생이사성”이라 한 것처럼, 천자가 유덕한 사람을 세워 제후를 봉할 때 그 조상의 출생지로써 성을 주었다고 한다. 그러므로 각 개인의 성에 의하여 각자의 소속된 혈통을 분별할 수 있다. 그러나 동일한 혈통을 가진 자가 각지에 분산하게 될 때 각기 지역에 분산된 일파를 표시하기 위한 표지가 필요하다. 이것이 곧 씨이다. 『좌전』에 “조지토이명지씨”라 한 바와 같이, 씨는 지명에 의하여 명명됨을 말하고 있다. 씨는 분화된 혈통(성)의 각각의 지연을 표시하는 표지인 것이 분명하므로 그 본원적 의미는 성의 분파를 뜻한다. 그러므로 중국의 고전에서 말하는 성은 혈통의 연원을 표시하는 것으로 역시 우리의 성이라는 것에 해당되며, 씨란 같은 성에서도 소유한 지역으로써 분별한 것이므로 우리의 본관에 해당된다. 경주 김씨 · 전주 이씨 · 밀양 박씨 등의 씨자에는 존칭적 의미도 잠재하여 있지만, 본관을 표시하는 의미가 포함되어 있다. 씨는 또한 조선시대 양반의 처에 대한 이름 대용의 경칭적 칭호로도 사용되었다."
        }
      ]
    }

    ● SFT 데이터
      - 원천 데이터
    {
      "dataset_info": {
        "dastaset_type":"SFT",
        "last_updated": "230829"
      },
      "data_info": [
        {
          "data_id": "7b3d7d63-721e-4c5b-b3a1-9b9b2c3a4e5f",
          "data_category": {
            "main": "문어체",
            "middle": "자연",
            "sub":"지구"
          },
          "question_type": "생성",
          "question_count": 4,
          "data_lexemes":"일반어",
          "question":"지구의 구성 요소는 무엇인가요?",
        }
      ]
    }
      - 라벨 데이터
    {
      "dataset_info": {
        "dastaset_type":"SFT",
        "last_updated": "230829"
      },
      "data_info": [
        {
          "data_id": "7b3d7d63-721e-4c5b-b3a1-9b9b2c3a4e5f",
          "data_category": {
            "main": "문어체",
            "middle": "자연",
            "sub":"지구"
          },
          "question_type": "생성",
          "question_count": 4,
          "data_lexemes":"일반어",
          "question":"지구의 구성 요소는 무엇인가요?",
          "answer":{
          "answer_count":73,
    "contents":"지구는 대부분의 우주 물질로 이루어진 행성으로, 기본적으로 다음과 같은 구성 요소로 구성되어 있습니다.\n1. 지각: 지구의 겉면을 이루는 땅과 바위로 된 표면 부분입니다.\n2. 수질: 지구의 표면에 존재한느 물의 총질량을 의미합니다. 바다, 강, 호수 등을 포함합니다.\n3. 대기: 지구를 둘러싸고 있는 공기의 두꺼운 층으로, 대기는 생명체에게 산소를 제공하고 기후와 날씨를 조절하는 역할을 합니다.\n4. 생물: 지구상에 살아 숨 쉬는 생명체들을 의미합니다. 식물, 동물, 미생물 등이 여기에 포함됩니다.\n이러한 구성 요소들이 지구를 형성하며, 서로 복잡하게 상호작용하면서 지구 생태계를 이루고 있습니다."
          }
        }
      ]
    }

    ● RM 데이터
      - 원천 데이터
    {
      "dataset_info": {
        "dastaset_type":"RM",
        "last_updated": "230829"
      },
      "data_info": [
        {
          "data_id": "a8e0f9c2-90e7-4a6d-8e8b-6c974f3f3a12",
          "data_category": {
            "main": "문어체",
            "middle": "인문",
            "sub":"철학"
          },
          "question_type": "생성",
          "question_count": 13,
          "data_lexemes":"일반어",
          "question":"소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?",
          "answer01":{
            "answer_count":25,
            "contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다."
          },
          "answer02":{
            "answer_count":18,
            "contents":"소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다."
          },
          "answer03":{
            "answer_count":19,
            "contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다."
          },
          "answer04":{
            "answer_count":27,
            "contents":"소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다."
          },
          "answer05":{
            "answer_count":30,
            "contents":"소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다."
          }
        }
      ]
    }
      - 라벨 데이터
    {
      "dataset_info": {
        "dastaset_type":"RM",
        "last_updated": "230829"
      },
      "data_info": [
        {
          "data_id": "a8e0f9c2-90e7-4a6d-8e8b-6c974f3f3a12",
          "data_category": {
            "main": "문어체",
            "middle": "인문",
            "sub":"철학"
          },
          "question_type": "생성",
          "question_count": 13,
          "data_lexemes":"일반어",
          "question":"소크라테스의 유명한 말인 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'에 대해 어떻게 생각하시나요?",
          "answer01":{
            "answer_count":25,
            "ranking":3,
            "contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 겸손과 지속적인 학습의 중요성을 강조하여, 우리가 얼마나 많은 것을 모르는지를 자각하고 성장해 나가야 한다는 철학을 나타낸다."
          },
          "answer02":{
            "answer_count":18,
            "ranking":5,
            "contents":"소크라테스의 말은 '내가 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'로, 겸손과 지속적인 학습의 중요성을 강조하며, 끊임없는 성장과 발전을 장려합니다."
          },
          "answer03":{
            "answer_count":19,
            "ranking":1,
            "contents":"소크라테스의 말 '나는 아는 것이 오직 내가 아무것도 모른다는 것뿐이다'는 자기계발과 겸손의 중요성을 강조하며, 끊임없는 학습과 성장을 촉구하는 철학을 나타냅니다."
          },
          "answer04":{
            "answer_count":27,
            "ranking":2,
            "contents":"소크라테스의 유명한 말은 자기 자신과 타인에 대한 겸손을 강조하며, 지식의 한계를 자각하고 항상 배움에 열린 태도를 장려합니다. 이를 통해 더 나은 사람이 되기 위한 지속적인 성장과 발전을 강조합니다."
          },
          "answer05":{
            "answer_count":30,
            "ranking":4,
            "contents":"소크라테스의 명언은 모든 지식의 기반은 겸손에서 비롯된다는 믿음을 반영하며, 학습의 길에는 끊임없는 탐구와 자기반성이 수반되어야 한다고 주장합니다. 그의 철학은 자기 앞의 무지를 고백함으로써 비로소 진정한 지혜를 얻을 수 있다는 관점을 제시합니다."
          }
        }
      ]
    }

    • PPO 데이터
      - 원천 데이터
    {
      "dataset_info": {
        "dastaset_type":"PPO",
        "last_updated": "230829"
      },
      "data_info": [
        {
          "data_id": "f55f68f1-48c4-4788-9fb4-ef4a4eef7d8d",
          "data_category": {
            "main": "구어체",
            "middle": "보건",
            "sub":"한의"
          },
          "question_type": "구매",
          "question_count": 4,
          "data_lexemes":"일반어",
          "question":"한의학에서 비염을 어떻게 치료하나요?"
        },
        {
        "data_id": "8dc2453d-532b-4d51-92b4-c24ab4b62fd6",
        "data_category": {
          "main": "구어체",
          "middle": "인문",
          "sub":"문학"
        },
        "question_type": "생성",
        "question_count": 7,
        "data_lexemes":"일반어",
        "question":"어두운 분위기의 한국 근대 문학을 추천해 주세요."
        }
      ]
    }

  • 데이터셋 구축 담당자

    수행기관(주관) : 대구경북과학기술원
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    김슬기 010-8943-3496 skkim@dgist.ac.kr 데이터 구축 관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜빅웨이브에이아이 데이터 증강, 유해데이터 및 개인정보 필터링
    ㈜유니바 AI 모델 학습, 데이터 검수
    인하대학교 산학협력단 데이터 획득, 정제, 증강
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    최유진 053-615-1263 dbwls99673@univa.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    최유진 053-615-1263 dbwls99673@univa.co.kr
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    최유진 053-615-1263 dbwls99673@univa.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.