기본탭
구축량
- MS COCO 캡셔닝 데이터(이미지 약 12만장) 1차 한국어 기계번역 완료, 기계번역 오류 수정
대표 도면

필요성
- 해외 주요국가에서는 시각지능 분야에서 인공지능(AI) 기술개발을 위한 기계학습 데이터 구축 등 관련 인프라를 확보하여 개방
- 미국 ImageNet은 22,000개의 범주로 분류된 약 1,500만장의 이미지를 무료로 개방하여 시각 지능 기술 발전의 기초를 제공
- 국내 인공지능 기술의 활성화를 위해서는 무엇보다 기계학습에 활용할 다양한 패턴의 고품질 이미지 데이터 확보가 중요
- 기존 공개된 이미지 데이터베이스(ImageNet 등)에서 다루지 않은 국내 특화 서비스 및 데이터 개방을 위한 고유의 특성을 가진 이미지 데이터의 구축 필요
구축 내용

1 | 빨간 헬멧을 쓴 남자가 작은 오토바이를 타고 비포장 도로에 있다 |
2 | 시골의 비포장 도로에서 오토바이를 타는 남자 |
3 | 오토바이 뒤에 탄 남자 |
4 | 오토바이 위에 젊은이가 탄 비포장 도로는 다리가 있는 초록빛 지역의 전경과 구름 낀 산의 배경이 있다 |
5 | 빨간 셔츠와 빨간 모자를 쓴 남자가 언덕 쪽 오토바이 위에 있다 |
- MS COCO의 영어 캡션을 한국어 문장으로 번역
- 추후 국내 환경에 적합한 고품질 이미지 데이터 구축 필요
데이터 구조
- JSON 구조의 메타정보로 이미지 연관 정보 전달 (UTF-8)
{
"file_path": "val2014/COCO_val2014_000000391895.jpg",
"id": 391895,
"captions": [
"A man with a red helmet on a small moped on a dirt road. ",
"Man riding a motor bike on a dirt road on the countryside.",
"A man riding on the back of a motorcycle.",
"A dirt path with a young person on a motor bike rests to the foreground of a verdant area with a bridge and a background of cloud-wreathed mountains. ",
"A man in a red shirt and a red hat is on a motorcycle on a hill side."
],
"caption_ko": [
"빨간 헬멧을 쓴 남자가 작은 오토바이를 타고 비포장 도로에 있.",
"시골의 비포장 도로에서 오토바이를 타는 남자",
"오토바이 뒤에 탄 남자",
"오토바이 위에 젊은이가 탄 비포장 도로는 다리가 있는 초록빛 지역의 전경과 구름 낀 산의 배경이 있다.",
"빨간 셔츠와 빨간 모자를 쓴 남자가 언덕 쪽 오토바이 위에 있다."
]
}
활용 예시
- 비전 정보기반 상황 설명
(1-1) 시각 장애인용 스마트 글래스
(1-2) 자동차 주행 중 측/후면 상황 설명
(1-3) 가정용/보안용 CCTV영상-음성 변환
(1-4) 영상 컨텐츠 자막 자동 생성
(1-5) 영상 컨텐츠 줄거리 요약
- 이미지 태깅
(2-1) 대량의 이미지 데이터셋 자동 생성 ex. 뉴럴 네트워크용 데이터셋
(2-2) 검색 엔진 등에서의 이미지 문장 검색 서비스
(2-3) 데일리 로그 자동 생성 (얼굴 인식,메타데이터(gps,촬영 시간 등) 정보를 함께 이용하여 촬영 영상의 설명을 자동 저장)
담당기관 | 책임자명 | 전화번호 | 대표이메일 |
---|---|---|---|
전자부품연구원 | 김보은 | · | kbe36@keti.re.kr |
구축량
- 1차년도: 인물 14명 시내코스 30-45분 주행 데이터
필요성
- 해외 주요국가에서는 시각지능 분야에서 인공지능(AI) 기술개발을 위한 기계학습 데이터 구축 등 관련 인프라를 확보하여 개방
- 국내 인공지능 기술의 활성화를 위해서는 무엇보다 기계학습에 활용할 다양한 패턴의 고품질 이미지 데이터 확보가 중요
- 공개된 얼굴 인식 데이터베이스들에서는 주로 백인 얼굴 데이터에 치중된 분포를 지니고 있기 때문에 한국인에게 맞는 기술을 개발하기 위해서는 한국인에게서 취득한 얼굴 데이터의 구축 필요
구축내용




- 주행 상황에서 운전자의 상태를 확인하기 위해 한국인 얼굴 인식 기능 개발을 위해 필요한 이미지 데이터의 제작, 수집하고 관련 정보를 레이블링
- 얼굴 데이터의 실효성 제고를 위해 다양한 각도, 조도, 가림, 표정등을 반영한 12명의 얼굴(인당 약 1천장)의 이미지 데이터 제작
- 국내 인공지능 기술의 활성화를 위해서는 무엇보다 기계학습에 활용할 다양한 패턴의 고품질 이미지 데이터 확보가 중요
- 얼굴 인식 및 얼굴의 위치까지 확인하기 위하여 바운딩 박스를 이용하여 얼굴의 위치까지 태깅
데이터 구조
- 각 이미지 파일마다 해당 파일과 동일한 이름의 텍스트 파일로 얼굴의 위치를 표시
- 형식은 레이블, 바운딩 박스 중심의 가로 세로 위치와 바운딩 박스의 가로 세로 크기를 순서대로 표시
- 숫자는 해당 좌표를 이미지 전체 크기로 나눈 값
예시) 파일명 “1_1.txt”, 내용 “0 0.317592 0.480555 0.237037 0.237037”
담당기관 | 책임자명 | 전화번호 | 대표이메일 |
---|---|---|---|
연세대학교 | 백경준 | · | bkjbkj12@yonsei.ac.kr |
구축량
- 연기 지망생/연기 전문가 100명, 7가지 감정에 대해 약 100번씩 발화 및 연기, 총 10,351개 영상
필요성
- 이미지 감정인식 관련 기존 공개 데이터중 FER2013의 경우 감정별로 데이터 개수가 큰 차이를 보이며 저화질 데이터로 얼굴 감정 인식에 적합하지 않음. 한편 SFEW와 같은 고화질 데이터셋의 경우 2,000건 정도의 규모에 그침
- 멀티모달 데이터의 측면에서 바라보면, 발화 단위의 감정 데이터까지 포함하고 있는 데이터셋은 CMU-MOSI (Zadeh et al., 2016b) 정도이나 발화 도메인이 영화 리뷰로 한정되어 있기 때문에 감정 분류도 긍정/부정 레벨에 머물러 있음
구축 내용
- 감정 유추가 가능한 대화 데이터를 사람이 연기하여 결과를 저장하고, 동시에 해당 데이터의 감정 상태와 감정 주체 부여
- 연기 지망생/연기 전문가 100명 대상, 7가지 감정에 대해 1인당 약 100번씩 발화 및 연기 수행, 총 10,351개 영상 구축
데이터 구조
- 참가자별 나이/성별 정보는 participant_info.xlsx 파일에서 확인
- 영상 포맷 : FHD, 30fps, m2ts format
- 음성 포맷 : 16 bit, 48 KHz으로 영상에 포함
- 텍스트 : 총 350개의 상황 준비 (script.hwp 참조)
- 영상 파일명은 참가자번호-문장번호 로 되어있으며 문장번호별 감정은 하기와 같음
1~50 : Happiness
51~100 : Surprise
101~150 : Neutral
151~200 : Fear
201~250 : Disgust
251~300 : Anger
301~350 : Sadness
담당기관 | 책임자명 | 전화번호 | 대표이메일 |
---|---|---|---|
㈜ 아크릴 | 이세화 | · | green@iacryl.com |
데이터셋 신청 심사가 완료되었습니다.