소개
AI Starthon 2019
목적
- 우리가 품고 있는 잠재적 능력을 얼마나 보여 줄 수 있을까요? 어쩌면 그 가능성을 보여 줄 수 있는 기회가 없던 것은 아닐까요?
- 인공지능을 통해 다양하고 창의적인 방법으로 문제를 해결해 보세요. AI를 활용한 아이디어와 경험을 현실로 만들 수 있도록 과학기술정보통신부에서 지원합니다.
- 여러분의 반짝이는 아이디어를 발굴하여 비즈니스적 가치를 높이고 기술의 완성도를 높일 수 있도록 과학기술정보통신부에서 AI Starthon을 진행하였습니다.
미션
- 7개의 주제와 20개의 문제로 진행하였습니다.
- 1.에너지 및 대기환경 관련 시계열 예측 문제
- 2.공정데이터 시계열 데이터 예측 문제
- 3.사물 분류 / 조회 / 영역 추출 문제
- 4.경량화 영역 추출 문제
- 5.사람 얼굴 관련 분류 / 복원 / 생성 문제
- 6.자연어 이해 및 QA 문제
- 7.사람 음성 이해 문제
- ❖ AI STARTON 2019에 활용하였던 데이터는 AI데이터 > Open 데이터 > 2019 AI Starthon X 네이버 에서 일부 제공하고 있습니다.
진행사항 및 심사기준
- 운영방식
1. 그룹 1: 예비창업기업 또는 창업 내 3년 미만 기업
2. 그룹 2: 창업 후 3년 이상 된 기업
❖ 그룹 1과 그룹 2는 별개의 리그로 운영 합니다 - 경진대회
약 20개 주제 중 한 팀당 최대 3개 주제 지원 가능
주제별 문제에 대한 누적점수로 최종 순위 반영
상위 30팀 선발 ( 그룹 1: 상위 22 팀 / 그룹 2: 상위 8팀 )
문제구성
미세먼지 예측
- 문제정의: 지역과 날짜 그리고 이전시간대의 미세&초미세 먼지로 부터 다음 시간의 미세&초미세 예측
- Input: 지역, 날짜, t-5 ~ t-1 시간대의 미세 및 초미세 먼지량
- Output: t시간대의 미세 및 초미세먼지
- Metric: Weighted MSE (0.3*미세먼지차이 + 0.7*초미세먼지 차이)
- 데이터 소스: K-weather & 네이버 자체 보관
- 데이터 스펙
- 훈련 및 평가 : TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
정상적인 센서로부터 크레인 동작 정상/비정상 예측 A사
- 문제정의: 크레인 센서 데이터로 부터 동작의 정상/비정상 여부
- Input: 센서의 FFT데이터이며 시간은 유동적 F=500
- Output: 정상/비정상 구분
- Metric: ROC
- 데이터소스: 엠아이큐브
- 데이터스펙
- 각 데이터는 0.5초 주기로 2048개씩 샘플링한 진동 데이터를 FFT한 데이터
- 훈련 데이터: 훈련 50개 모두 정상 / 10개는 정상/비정상 섞임
정상적인 센서로부터 크레인 동작 정상/비정상 예측 B사
- 문제정의: 크레인 센서 데이터로 부터 동작의 정상/비정상 여부
- Input: 센서의 FFT데이터이며 시간은 유동적 F=6150
- Output: 각 step마다 [정상/비정상A/비정상B/비정상C/비정상D/비정상E/비정상F]의 7 class의 예측 확률
- Metric: 7클래스 평균 acc
- 데이터소스: 엠아이큐브
- 데이터스펙
- 훈련 데이터: 48개의 정상 11개의 비정상 (각 파일의 step은 유동적)
- 평가: 1127 step이 정상과 비정상이 섞여 있음
음식 사진으로 음식 종류 분류
- 문제정의: 주어진 음식 이미지로 부터 해당 메인 음식이 무엇인지 분류
- Input: 음식 사진
- Output: 음식 카테고리
- Metric: 음식 카테고리 전체에 대한 평균 F1
- 데이터소스: AI-Hub
- 데이터 스펙
- 150개 종류, 종류별 100장 약 150만장 중 샘플링, 추가 구축한 데이터 평가에 활용
- 훈련/평가 : TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
사람 이미지로부터 얼굴인식 분류하기
- 문제정의: 사람 사진이 주어질 때 (노이즈 추가) 사람이 누구인지 분류
- Input: 사람 사진
- Output: 갤러리에 포함된 사람 중 1인 분류
- Metric: 인물별 평균 F1
- 데이터소스: AI-Hub
- 데이터스펙
- 인물: 200명중 일부를 샘플링하여 훈련과 평가로 분할 예정
- 훈련/평가: TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 음식메뉴사진과 동일한 메뉴 사진조회
- 문제정의: 주어진 음식 이미지로 부터 해당 메인 음식과 동일한 메뉴 사진 조회
- Input: 음식 사진
- Output: 입력과 동일한 메뉴 사진
- Metric: 평균 1-NN accuracy (R@1)
- 데이터소스: AI-Hub
- 데이터 스펙
- 150개 종류, 종류별 100장 약 150만장 중 샘플링, 추가 구축한 데이터 평가에 활용
- 훈련/평가: 150개 종류 (10여만장) / 113종류(약 1800장)
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 차량 모델 사진과 동일한 차량 조회
- 문제정의: 주어진 차량 이미지로 부터 해당 차량과 동일한 차량 사진 조회
- Input: 차량 사진
- Output: 입력과 동일한 차량 사진
- Metric: 평균 1-NN accuracy ( R@1)
- 데이터소스: AI-Hub
- 데이터스펙
- 100종류, 차량당 500장 = 50,000 + 자체구축 데이터
- 훈련/평가: 84종류 (5.3만장) / 78종류(약 1만장)
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
사진 내의 음식 영역 추출하기
- 문제정의: 주어진 음식 이미지로 부터 해당 메인 음식의 영역 추출(Detection)
- Input: 음식 사진
- Output: 메인 음식의 좌측상단 x, y 좌표, 가로, 세로
- Metric: 평균 loU
- 데이터소스: AI-Hub
- 데이터 스펙
- 150개 종류, 종류별 100장 약 150만장 중 샘플링, 추가 구축한 데이터 평가에 활용
- 훈련/평가: TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
5M이내 사진 내의 음식 영역 추출하기
- 문제정의: 파라미터 수 5M이내 주어진 음식 이미지로 부터 해당 메인 음식의 영역 추출(Detection)
- Input: 음식 사진
- Output: 메인 음식의 좌측상단 x, y 좌표, 가로, 세로
- Metric: 평균 loU
- 데이터소스: AI-Hub
- 데이터스펙
- 150개 종류, 종류별 100장 약 150만장 중 샘플링 추가, 구축한 데이터 평가에 활용
- 훈련/평가: TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 차량 사진에서 차량영역 추출
- 문제정의: 주어진 차량 이미지로 부터 차량의 영역 추출
- Input: 차량 사진
- Output: 차량의 좌측상단 x, y 좌표, 가로, 세로
- Metric: 평균 loU
- 데이터소스: AI-Hub
- 데이터스펙
- 100종류, 차량당 500장 = 50,000 + 자체구축 데이터
- 훈련/평가: TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
5M이내 주어진 차량 사진에서 차량영역 추출
- 문제정의: 5M이내로 주어진 차량 이미지로 부터 차량의 영역 추출
- Input: 차량 사진
- Output: 차량의 좌측상단 x, y 좌표, 가로, 세로
- Metric: 평균 loU
- 데이터소스: AI-Hub
- 데이터스펙
- 100종류, 차량당 500장 = 50,000 + 자체구축 데이터
- 훈련/평가: TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
5M이내 얼굴 사진 가려진 부분 복원하기
- 문제정의: 가려진 사람 사진이 주어질 때 사진의 원본을 복원
- Input: 가려진 인물 사진
- Output: 복원된 인물 사진
- Metric: 복원부분 평균 L1
- 데이터소스: AI-Hub
- 데이터스펙
- 인물: 200명중 일부를 샘플링하여 훈련과 평가로 분할 예정
- 훈련/평가: TBD
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
주어진 얼굴 이미지의 얼굴해상도 증가
- 문제정의: 가려진 사람 사진이 주어질 때 인물 사진의 원본을 복원
- Input: 저해상도 인물 사진
- Output: 4배 고해상도 인물 사진
- Metric: PSNR
- 데이터소스: AI-Hub
- 데이터스펙
- 인물: 200명중 일부를 샘플링하여 훈련과 평가로 분할 예정
- 훈련/평가: 48000 / 10000
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
동영상 등장 인물의 감정상태 예측
- 문제정의: 동영상이 주어질 때 동영상에 등장하는 인물의 감정상태를 분류
- Input: 연속된 n장의 이미지 프레임
- Output: 8개 감정상태 중 1개 분류
- Metric: 감정 평균 F1
- 데이터소스: AI-Hub
- 데이터스펙
- 이미지: 180*320 RGB
- 훈련/평가: 25000 / 3000
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
동영상 등장 인물의 나이 예측
- 문제정의: 동영상이 주어질 때 동영상에 등장하는 인물의 나이대를 분류
- Input: 연속된 n장의 이미지 프레임
- Output: 6개 나이대 중 1개 분류
- Metric: 나이대 평균 F1
- 데이터소스: AI-Hub
- 데이터스펙
- 이미지: 180*320 RGB
- 훈련/평가: 25000 / 3000
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
네이버 영화 리뷰에 대한 평점 예측
- 문제정의: 네이버 영화 리뷰글로 부터 평점을 예측
- Input: 네이버 영화 리뷰 문장
- Output: 평점(0~10점 분류)
- Metric: 평점별 평균 F1
- 데이터소스: 네이버 자체 구축 데이터
- 데이터스펙
- 영화 54,183편에 대한 사용자 리뷰 및 평점 데이터
- 훈련 데이터: 10,590,715, 평가 데이터: 1,397,122
- 훈련 데이터내에서 자체 분할 통한 검증 셋 활용
일상 대화 텍스트로부터 의도 분류하기
- 문제정의: 일상 대화 발화 텍스트가 주어졌을 때 화자의 의도 분류
- Input: 일상대화 발화 텍스트 문장
- Output: 화자의 의도 (의도 클래스 약 2000개)
- Metric: 의도별 평균 F1
- 데이터소스: AI-Hub
- 데이터스펙
- AI-Hub 일상 대화 텍스트 + 자체 구축
- 훈련 데이터: 약 40000개 / 평가 데이터: 약 4000개
- 훈련 데이터와 분리된 검증 데이터 4000개 제공
사용자 질의로부터 동일한 질문 여부 분류하기
- 문제정의: 두 개의 사용자 질의가 동일한 질의인지를 판단
- Input: 사용자 질의 쌍
- Output: 동일여부
- Metric: F1
- 데이터소스: 네이버 질의 데이터
- 데이터스펙
- 훈련 데이터: 11만쌍, 평가 데이터: 2만쌍
- 훈련 데이터 외에 분할된 검증 데이터 2만쌍 제공
한국어 뉴스 MRC 데이터로부터 질의에 대한 응답
- 문제정의: 뉴스 본문에 대한 질의가 주어질 때 정확한 답을 제공
- Input: 사용자 질의 쌍
- Output: 동일여부
- Metric: 음절단위 F1
- 데이터소스: 네이버 질의 데이터
- 데이터스펙
- AI-Hub MRC데이터 + 뉴스기반 자체 구축 발화 데이터
- 훈련 데이터: 240000, 평가 데이터: 12000
- 훈련 데이터로부터 분할된 검증 데이터 15000개 제공
한국어 음성데이터로부터 음성인식 결과 예측
- 문제정의: 조용한 환경에서 자유 발화 음성을 텍스트로 전사
- Input: 16KHz/16bits WAV
- Output: 전사된 발화 Text
- Metric: CER
- 데이터소스: AI-Hub
- 데이터스펙
- 전처리: 마침표, 물음표만 사용(느낌->마침), 쉼표제거, 공백은 성능측정 제외
- 훈련 데이터: 150시간, 평가 데이터: 10시간
- 훈련 데이터에서 자체 검증 셋 활용
결과
사업화 지원금 응모 자격 부여 받은 팀 순위(리그1: 22등 까지, 리그2: 8등 까지)
리그1 | 리그2 | ||||
---|---|---|---|---|---|
Rank | Name | Score | Rank | Name | Score |
1 | OpenResearch | 3000 | 1 | 핑퐁 | 1550 |
2 | 춘천닭갈비 | 2300 | 2 | 링크제니시스 | 1178 |
3 | INFINYX | 1600 | 3 | NEXYS | 850 |
3 | 버스트 | 1600 | 4 | AiPod | 590 |
5 | ARTuna | 1500 | 5 | NOTA | 550 |
5 | AICAT | 1500 | 6 | 네오컨번전스 | 450 |
5 | 젠티 | 1500 | 7 | 위드캣 | 392 |
7 | 마키나블랙 | 1450 | 8 | 먀 | 350 |
9 | AWESOME DAVIAN | 1400 | |||
10 | ZEZEDU | 1350 | |||
10 | AI 430 | 1350 | |||
12 | 딩브로 | 1292 | |||
13 | IYun | 1200 | |||
14 | 신들의궁전 | 1081 | |||
15 | Serendipity | 1000 |