본문으로 건너뛰기

BDD(Berkeley DeepDrive Dataset) Use Case



데이터셋 소개


Untitled

BDD100K는 100,000개의 주행 동영상으로 구성된 Computer Vision 데이터셋이다. 각 동영상은 40초 길이, 720p 해상도, 30fps로 제공되며, 수직 차선은 빨간색, 평행 차선은 파란색으로 표시된다. 데이터셋은 객체 인식 및 추적에 유용한 2D Bounding Box 주석이 포함되어 있으며, 각 프레임마다 운전 가능 지역, 차선 표시 등의 정보가 제공된다. BDD100K는 자율 주행 차량, 교통 안전 및 보안, 인간 행동 및 인지 모델링 등 다양한 분야에서 활용될 수 있다.


  • train 개수 : 70000, val 개수 : 10000

  • instance 개수

      1: pedestrian: 129262
    2: rider: 6461
    3: car: 1021857
    4: truck: 42963
    5: bus : 16505
    6: train: 179
    7: motorcycle: 4296
    8: bicycle : 10229
    9: traffic light : 265906
    10: traffic sign : 343777



실험 소개


본 실험은 전체 데이터셋 중 training set (약 70%), validation set (10%)이 주어진 상태에서 training set 중 랜덤으로 선별한 10%를 레이블링하여 학습 시킨 상황을 가정하여 시작합니다.

  • 사용된 모델은 yolov5s 이며,현재 10% 학습시킨 상황에서 모델의 정확도 (mAP@50)는 35.3% 입니다.
  • 본 실험의 목표는 가정된 상항에서 10%의 추가 학습 데이터를 선별하여 모델의 성능을 높이는 것입니다.

셀렉트스타의 큐레이션 기법을 사용하여 랜덤 30%와 큐레이션 30%간의 성능을 비교합니다.




큐레이션이란?

  • 테스트 데이터를 기준으로 사용자가 원하는 큐레이션 개수 만큼 k-means 군집을 형성한다.
  • 형성된 테스트 데이터의 기준점을 기준으로 labeling 되지 않은 데이터 중 가장 가까운 데이터를 선택한다.
  • 선택된 데이터 추출 및 추천


Untitled

큐레이션 사용 전



Untitled

큐레이션 사용 후



결과

Untitled K-means 20% 큐레이션 정확도(mAP@50) : 40.0



Untitled Random 20% 정확도(mAP@50) : 38.2



Appendix - model zoo

model학습 퍼센트mAP@50
yolov5s랜덤 10%35.3
yolov5s큐레이션 10%36.6
yolov5s랜덤 20%38.2
yolov5s큐레이션 20%40.0
yolov5s랜덤 30%41.8
yolov5s큐레이션 30%42.0
yolov5l랜덤 30%44.8
yolov5l큐레이션 30%45.9