BDD(Berkeley DeepDrive Dataset) Use Case

데이터셋 소개

Untitled

BDD100K는 100,000개의 주행 동영상으로 구성된 Computer Vision 데이터셋이다. 각 동영상은 40초 길이, 720p 해상도, 30fps로 제공되며, 수직 차선은 빨간색, 평행 차선은 파란색으로 표시된다. 데이터셋은 객체 인식 및 추적에 유용한 2D Bounding Box 주석이 포함되어 있으며, 각 프레임마다 운전 가능 지역, 차선 표시 등의 정보가 제공된다. BDD100K는 자율 주행 차량, 교통 안전 및 보안, 인간 행동 및 인지 모델링 등 다양한 분야에서 활용될 수 있다.

train 개수 : 70000, val 개수 : 10000

instance 개수

pedestrian: 129262
rider: 6461
car: 1021857
truck: 42963
bus : 16505
train: 179
motorcycle: 4296
bicycle : 10229
traffic light : 265906
traffic sign : 343777

실험 소개

본 실험은 전체 데이터셋 중 training set (약 70%), validation set (10%)이 주어진 상태에서 training set 중 랜덤으로 선별한 10%를 레이블링하여 학습 시킨 상황을 가정하여 시작합니다.

사용된 모델은 yolov5s 이며,현재 10% 학습시킨 상황에서 모델의 정확도 (mAP@50)는 35.3% 입니다.
본 실험의 목표는 가정된 상항에서 10%의 추가 학습 데이터를 선별하여 모델의 성능을 높이는 것입니다.

셀렉트스타의 큐레이션 기법을 사용하여 랜덤 30%와 큐레이션 30%간의 성능을 비교합니다.

큐레이션이란?

테스트 데이터를 기준으로 사용자가 원하는 큐레이션 개수 만큼 k-means 군집을 형성한다.
형성된 테스트 데이터의 기준점을 기준으로 labeling 되지 않은 데이터 중 가장 가까운 데이터를 선택한다.
선택된 데이터 추출 및 추천

Untitled

큐레이션 사용 전

Untitled

큐레이션 사용 후

결과

Untitled K-means 20% 큐레이션 정확도(mAP@50) : 40.0

Untitled Random 20% 정확도(mAP@50) : 38.2

Appendix - model zoo

model	학습 퍼센트	mAP@50
`yolov5s`	랜덤 10%	35.3
`yolov5s`	큐레이션 10%	36.6
`yolov5s`	랜덤 20%	38.2
`yolov5s`	큐레이션 20%	40.0
`yolov5s`	랜덤 30%	41.8
`yolov5s`	큐레이션 30%	42.0
`yolov5l`	랜덤 30%	44.8
`yolov5l`	큐레이션 30%	45.9

BDD(Berkeley DeepDrive Dataset) Use Case

데이터셋 소개​

실험 소개​

큐레이션이란?​

결과​

Appendix - model zoo​

데이터셋 소개

실험 소개

큐레이션이란?

결과

Appendix - model zoo