콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어 #문화

BETA 만화·웹툰 생성 데이터

만화·웹툰 생성 데이터 아이콘 이미지
  • 분야문화관광
  • 유형 텍스트 , 이미지
구축년도 : 2023 갱신년월 : 2024-06 조회수 : 159 다운로드 : 4 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2024-06-28 데이터 개방 Beta Version

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-06-28 산출물 공개 Beta Version

    소개

    - 텍스트 기반의 콘텐츠 내용에 맞는 한국형 만화·웹툰 이미지 생성을 위한 Text to Image 데이터
    - 네이버 웹툰 장르 구분을 기준으로 10개 장르 카테고리(로맨스, 판타지, 액션, 일상, 스릴러, 개그, 무협&사극, 드라마, 감성, 스포츠)로 구축함

    구축목적

    - 한국 만화·웹툰 문화와 이미지 생성 기술 발전을 위한 저작권 문제가 해결된 인공지능 학습용 데이터셋 설계 및 구축
  • - 총 데이터 수량

    원천 데이터
    분류 형식 수량 단위
    로맨스  .jpeg  12,687
    드라마  .jpeg  11,920
    판타지  .jpeg  8,787
    스릴러  .jpeg  5,689
    액션  .jpeg  4,838
    개그  .jpeg  4,156
    일상  .jpeg  3,366
    무협&사극  .jpeg  1,003
    감성  .jpeg  577
    스포츠  .jpeg  502
    총합 .jpeg 53,525

     

    라벨링 데이터
    분류 라벨링 유형 객체수 형식 파일 수량 파일 비율
    로맨스 자연어 라벨링 12,687 .json 12,687 1 : 1
    드라마 자연어 라벨링 11,920 .json 11,920 1 : 1
    판타지 자연어 라벨링 8,787 .json 8,787 1 : 1
    스릴러 자연어 라벨링 5,689 .json 5,689 1 : 1
    액션 자연어 라벨링 4,838 .json 4,838 1 : 1
    개그 자연어 라벨링 4,156 .json 4,156 1 : 1
    일상 자연어 라벨링 3,366 .json 3,366 1 : 1
    무협&사극 자연어 라벨링 1,003 .json 1,003 1 : 1
    감성 자연어 라벨링 577 .json 577 1 : 1
    스포츠 자연어 라벨링 502 .json 502 1 : 1
    총합 자연어 라벨링 53,525 .json 53,525 1 : 1

     

    - 학습용 데이터 수량

    원천 데이터
    분류 형식 수량 단위
    로맨스  .jpeg  10,145
    드라마  .jpeg  9,536
    판타지  .jpeg  6,997
    스릴러  .jpeg  4,551
    액션  .jpeg  3,870
    개그  .jpeg  3,324
    일상  .jpeg  2,692
    무협&사극  .jpeg  801
    감성  .jpeg  461
    스포츠  .jpeg  402
    총합 .jpeg 42,779

     

    라벨링 데이터
    분류 라벨링 유형 객체수 형식 파일 수량 파일 비율
    로맨스 자연어 라벨링 10,145 .json 10,145 1 : 1
    드라마 자연어 라벨링 9,536 .json 9,536 1 : 1
    판타지 자연어 라벨링 6,997 .json 6,997 1 : 1
    스릴러 자연어 라벨링 4,551 .json 4,551 1 : 1
    액션 자연어 라벨링 3,870 .json 3,870 1 : 1
    개그 자연어 라벨링 3,324 .json 3,324 1 : 1
    일상 자연어 라벨링 2,692 .json 2,692 1 : 1
    무협&사극 자연어 라벨링 801 .json 801 1 : 1
    감성 자연어 라벨링 461 .json 461 1 : 1
    스포츠 자연어 라벨링 402 .json 402 1 : 1
    총합 자연어 라벨링 42,779 .json 42,779 1 : 1

     

    - 검증용 데이터 수량

    원천 데이터
    분류 형식 수량 단위
    로맨스  .jpeg  1,271
    드라마  .jpeg  1,192
    판타지  .jpeg  895
    스릴러  .jpeg  569
    액션  .jpeg  484
    개그  .jpeg  416
    일상  .jpeg  337
    무협&사극  .jpeg  101
    감성  .jpeg  58
    스포츠  .jpeg  50
    총합 .jpeg 5,373

     

    라벨링 데이터
    분류 라벨링 유형 객체수 형식 파일 수량 파일 비율
    로맨스 자연어 라벨링 1,271 .json 1,271 1 : 1
    드라마 자연어 라벨링 1,192 .json 1,192 1 : 1
    판타지 자연어 라벨링 895 .json 895 1 : 1
    스릴러 자연어 라벨링 569 .json 569 1 : 1
    액션 자연어 라벨링 484 .json 484 1 : 1
    개그 자연어 라벨링 416 .json 416 1 : 1
    일상 자연어 라벨링 337 .json 337 1 : 1
    무협&사극 자연어 라벨링 101 .json 101 1 : 1
    감성 자연어 라벨링 58 .json 58 1 : 1
    스포츠 자연어 라벨링 50 .json 50 1 : 1
    총합 자연어 라벨링 5,373 .json 5,373 1 : 1

     

    - 시험용 데이터 수량

    원천 데이터
    분류 형식 수량 단위
    로맨스  .jpeg  1,271
    드라마  .jpeg  1,192
    판타지  .jpeg  895
    스릴러  .jpeg  569
    액션  .jpeg  484
    개그  .jpeg  416
    일상  .jpeg  337
    무협&사극  .jpeg  101
    감성  .jpeg  58
    스포츠  .jpeg  50
    총합 .jpeg 5,373

     

    라벨링 데이터
    분류 라벨링 유형 객체수 형식 파일 수량 파일 비율
    로맨스 자연어 라벨링 1,271 .json 1,271 1 : 1
    드라마 자연어 라벨링 1,192 .json 1,192 1 : 1
    판타지 자연어 라벨링 895 .json 895 1 : 1
    스릴러 자연어 라벨링 569 .json 569 1 : 1
    액션 자연어 라벨링 484 .json 484 1 : 1
    개그 자연어 라벨링 416 .json 416 1 : 1
    일상 자연어 라벨링 337 .json 337 1 : 1
    무협&사극 자연어 라벨링 101 .json 101 1 : 1
    감성 자연어 라벨링 58 .json 58 1 : 1
    스포츠 자연어 라벨링 50 .json 50 1 : 1
    총합 자연어 라벨링 5,373 .json 5,373 1 : 1
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    - 데이터 전처리

    원천 데이터 전처리 설명 • 모든 데이터의 가로 길이는 1024px로 고정되어 있으나, 세로 길이는 768px 이상으로 서로 다름
    • 생성형 모델인 SDXL은 1024×1024px 사이즈로 전처리가 필요함
    데이터 유형 JPEG 이미지
    방법 및 과정 1. 원천데이터가 잘리지 않도록 가로 및 세로 길이를 동일한 1024px로 리사이징
    2. 만약 여백이 발생한다면 흰색으로 처리함
    원천데이터 (Image) 전처리 과정 이미지
    가공 데이터  전처리 설명 • 생성형 모델인 SDXL 영어에 최적화 되어 있으므로 학습할 때도 영어 텍스트를 사용하는 것이 좋음
    • 본 사업에서 구축된 데이터의 JSON 파일의 value값은 한글로 되어 있으므로 번역할 필요가 있음
    데이터 유형 JSON 텍스트
    방법 및 과정 1. 가공 데이터의 value값인 한글 텍스트들을 추출함
    2. 한글 텍스트들을 AI 번역기를 통해 영어로 전환함
    3. 이 때 사용되는 AI 번역기는 SOTA모델인 KoAlpaca를 사용함
    가공데이터(Text) 전처리 과정 이미지

     

    - 활용 모델

    모델 이름 SDXL 모델 계열 Stable Diffusion
    모델 설명 • Stable Diffusion 모델은 2개의 Diffusion 모델을 합친 형태
    ◯ Forward Diffusion : 본래 이미지에 잡음을 추가해 학습하는 모델
    Forward Diffusion 모델 구조
    ◯ Reverser Diffusion : 잡음에서 시작해 본래 이미지로 되돌아가며 학습하는 모델
    Reverser Diffusion 모델 구조
    • SDXL은 Stable Diffusion 계역 모델 중 SOTA를 기록한 모델
    • 약 66억개의 파라미터를 기반으로 간단한 프롬프트를 이용해 더 나은 퀄리티의 이미지 생성 가능
    • 기본 모델을 FineTuning하여 파생모델을 만들기 쉽다는 장점이 있음

     

    - 모델 결과 지표

    지표명 FID(Frechet Inception Distance)
    모델 설명

    • 실제 이미지와 생성 이미지의 벡터 사이의 거리를 계산하여 유사성을 판단하는 지표
    • FID값이 작을수록 거리가 가깝고 그만큼 유사한 이미지가 생성되었다는 지표

    FID 지표 구조

    지표 수식 FID 지표 수식

     

    지표명 AMTs(Amazon Machine Turks score)
    모델 설명 • 데이터 검증 및 연구 수행부터 설문 조사, 콘텐츠 조정 등이 포함된 Amazon Mechanical Turk (AMT)의 시스템 모방 서비스로, 본 과제에서는 모델에서 생성된 프롬프트-이미지의 매칭 정도를 전문가의 직접 평가를 통해 유효성을 검사
    • 정성 평가 지표로는 리커드 5점 척도를 사용
    질문 입력한 프롬프트에 따라 이미지가 잘 생성되었는가?
    평가 매우 부정 부정 보통 긍정 매우 긍정
    1점 2점 3점 4점 5점
    지표 수식

    • 최종 평가는 각 샘플데이터의 최고점과 최저점을 제외한 평균을 구하고, 각 점수를 0점~100점으로 스케일링한 후 평균 산출

    AMTs 지표 설명 1

    AMTs 지표 설명 2

     

    - 활용 서비스 분야
      - 만화·웹툰 생성 시범 서비스 오픈 예정
      - 영화, 연극, 드라마 등의 분야에서 콘티 및 스토리보드 작업 가능

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    - 데이터 구성

    Key Description Type Child Type
    meta 메타 정보 JsonObject  
    dataset 데이터셋 정보 JsonObject  
    id 메타 식별자 String  
    type 데이터 종류 String  
    source_path 원천 파일 경로 String  
    label_path 라벨 파일 경로 String  
    caption_path 캡션 폴더 경로 String  
    product 작품 정보 JsonObject  
    genre 장르 String  
    title 작품명 String  
    writer 글 작가 String  
    illustrator 그림 작가 String  
    company 제작사 String  
    platform 연재처 String  
    post 연재 게시일 String  
    category 만화/웹툰 유형 String  
    images 이미지 정보 JsonObject  
    type 이미지 파일 확장자 String  
    width 이미지 가로 크기 Number  
    height 이미지 세로 크기 Number  
    label 라벨링 정보 JsonObject  
    character 인물 JsonObject  
    char_num 라벨링 인물 수 Number  
    char_info 인물 정보 JsonArray JsonObject
    [   JsonObject  
    gender 성별 String  
    importance 중요도 String  
    age 연령대 String  
    kind 종족 String  
    shape 신체 모양 String  
    movement 신체 동작 String  
    clothing 의상 String  
    props 소품 String  
    id 인물 식별자 String  
    ]      
    object 객체 JsonObject  
    obj_num 객체 개수 Number  
    obj_info 객체 정보 JsonArray String
    $value$ 객체 종류 String  
    background 배경 JsonObject  
    exist 배경 존재 유무 Boolean  
    background_info 배경 정보 String  
    directing 연출 JsonObject  
    composition 구도 JsonObject  
    angle 앵글 String  
    lighting 조명 String  
    shot 카메라 샷 String  
    contenxt 발화 모음 JsonArray JsonObject
    [   JsonObject  
    dialogue 대사 String  
    bubble 말풍선 String  
    ]      
    effect 효과글 JsonArray String
    $value$ 효과글 종류 String  
    prompt 라벨링 프롬프트 String  
    caption 이미지 캡셔닝 데이터 String  

     

    - 어노테이션 포맷

    No 항목 타입 필수 여부 비고
      한글명 영문명      
    1 메타 정보 meta object Y  
      1 데이터셋 정보 dataset object Y  
      1 메타 식별자 id string Y 과제분류_장르_작품명_회차_분류번호
    2 데이터 종류 type string Y 한국형 만화·웹툰 생성 데이터
    3 원천 파일 경로 source_path string Y ../데이터 종류/원천/장르/파일명.jpeg
    4 라벨 파일 경로 label_path string Y ../데이터 종류/라벨/파일명.json
    5 캡션 폴더 경로 caption_path string Y ../데이터 종류/캡션/장르/파일명.json
    2 작품 정보 product object Y  
      1 장르 genre string Y 로맨스, 드라마, 판타지, 스릴러, 액션, 개그 일상, 무협·사극, 감성, 스포츠
    2 작품명 title string Y  
    3 글 작가 writer string Y  
    4 그림 작가 illustrator string Y  
    5 제작사 company string Y  
    6 연재처 platform string Y  
    7 연재 게시일 post string Y  
    8 만화/웹툰 유형 category string Y 만화, 웹툰
    3 이미지 정보 images obejct Y  
      1 이미지 파일
    확장자
    type string Y  
    2 이미지 가로
    크기
    width number Y 1024 이상
    3 이미지 세로
    크기
    height number Y 768 이상
    2 라벨링 정보 label object Y  
      1 인물 character object Y  
      1 라벨링 인물 수 char_num number Y 0 ~
    2 인물 정보 char_info array N  
      1 개별 인물 정보 [] object N  
      1 인물 식별자 id number N  
    2 중요도 importance string N 주인물, 보조인물
    3 종족 kind string N  
    4 성별 gender string N  
    5 연령층 age string N  
    6 신체 모양 shape string N  
    7 신체 동작 movement string N  
    8 의상 clothing string N  
    9 소품 props string N  
    2 객체 object object Y  
      1 객체 개수 obj_num number Y  
    2 객체 정보 obj_info array N  
      1 객체 종류 obj_info.[] string N  
    3 배경 background object Y  
      1 배경 존재 유무 exist bool Y True : 배경있음 / False : 배경없음
    2 배경 정보 background_
    info
    string N  
    4 연출 directing object Y  
      1 구도 composition object Y  
      1 앵글 angle string Y 하이앵글, 아이레벨, 로우앵글
    2 조명 lighting string Y 전면조명, 상부조명, 하부조명,
    측면조명, 역광조명
    3 카메라 샷 shot string Y 클로즈업 샷, 미디엄 샷, 풀 샷, 롱 샹
    2 발화 모음 context array N  
      1 개별발화 [] object N  
      1 대사 dialogue string N 직접 입력
    2 말풍선 bubble string N 말풍선 종류
    3 효과글 effect array N  
    5 라벨링
    프롬프트
    prompt string Y 위의 라벨링 옵션 선택을 통해 자동생성된 프롬프트를 수동으로 수정 가능
    3 이미지 캡셔닝 caption string Y 직접 입력

     

    - 데이터 포맷

    원천데이터 예시
    원천데이터 예시 이미지
    원천데이터 포맷 JPEG

     

    가공데이터 예시
    {
      "meta": {
        "dataset": {
          "id": "1_로맨스_선비의방_61e_6",
          "type": "한국형 만화·웹툰 생성 데이터",
          "source_path": "../원천/01. 로맨스/SR177671.JPEG",
          "label_path": "../라벨/01. 로맨스/LR177671.json"
        },
        "product": {
          "genre": "로맨스",
          "title": "선비의 방",
          "writer": "이경아",
          "illustrator": "이경아",
          "company": "재담미디어",
          "platform": "네이버 시리즈",
          "post": "2017-07-03",
          "category": "웹툰"
        },
        "images": {
          "type": "JPEG",
          "width": 1024,
          "height": 1192
        }
      },
      "label": {
        "character": {
          "char_num": 1,
          "char_info": [
            {
              "gender": "남성",
              "importance": "주인물",
              "age": "청년",
              "kind": "인간",
              "shape": "살구색,날씬한,불안,묶은 머리,각진형,각진 눈,둥근 귀,얇은 입술",
              "movement": "좌측을 향하는",
              "clothing": "한복(남)",
              "id": 0
            }
          ]
        },
        "object": {
          "obj_num": 0
        },
        "background": {
          "exist": true,
          "background_info": "배경 없음"
        },
        "directing": {
          "composition": {
            "angle": "아이레벨",
            "lighting": "전면조명",
            "shot": "미디엄 샷"
          },
          "context": [
            {
              "dialogue": "그 아이인가.",
              "bubble": "원형/곡선"
            }
          ]
        },
        "prompt": "남성,주인물,청년,인간,살구색,날씬한,불안,묶은 머리,각진형,각진 눈,둥근 귀,얇은 입술,좌측을 향하는,한복(남),배경 없음,아이레벨,전면조명,미디엄 샷"
      },
      "caption": "긴 머리에 슬픈 표정을 짓고 있는 여성이 있다."
    }
    가공데이터 JSON 파일 예시 이미지

    가공데이터 JSON 파일 예시 이미지 1

    가공데이터 JSON 파일 예시 이미지 2

    가공데이터 포맷 JSON
  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜피씨엔
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    이우성 02-565-7740 wooslee@pcninc.co.kr 실무책임
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    재담미디어 데이터 수집/획득 및 정제
    세종대학교 산학합력단 데이터 가공 및 검수
    AI모델 학습
    ㈜비투엔 데이터 품질관리 실무책임
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    이우성 02-565-7740 wooslee@pcninc.co.kr
    AI모델 관련 문의처
    AI모델 관련 문의처
    담당자명 전화번호 이메일
    이수진 02-3408-1867 sju.dep.of.ai@gmail.com
    저작도구 관련 문의처
    저작도구 관련 문의처
    담당자명 전화번호 이메일
    이우성 02-565-7740 wooslee@pcninc.co.kr
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 safezone1@aihub.kr 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.