본문 바로가기
Project/Lane detection

4. 차선인식 데이터셋 (1) - 데이터셋 소개 (tuSimple, CULane)

by Gnaseel 2021. 8. 14.
728x90
반응형

섹션4는 차선인식에 사용되는 데이터셋의 특징을 비교하는 부분이므로, 메소드에만 관심이 있다면 넘어가도 뒤 내용을 이해하는데 지장이 없다.

 

섹션 4에서 다루는 내용

  1. 차선 인식 데이터셋
  2. 데이터셋의 특징 비교
  3. 각 데이터셋 별 벤치마킹 방법 소개

차선 인식 데이터셋

차선인식 데이터셋에는 많은 종류가 있다. 하지만 데이터셋마다의 특징이 있기 때문에 자신이 구현하고자 할 네트워크에 알맞은 데이터셋을 사용해야한다.

 

차선인식 데이터셋 정리, Suvarna Shirke, Lane Datasets for Lane Detection, ICCSP, 2019 

1. tuSimple

 

차선인식 학습과 평가에 빈번하게 사용되는 데이터셋중 하나.
위 표에는 140,000장의 이미지라 되어있는데, 이미지의 개수는 14만장이지만, 라벨링 되어있는 데이터는 1/20인 6000장정도임. 나머지는 흐름을 이해할 수 있도록 추가한 라벨없는 이전 프레임의 이미지.

 

차선 분류

  • 8가지 (But 기본 데이터셋은 유무만 판별하며, 8가지 분류 데이터셋을 활용하려면 분류 코드를 실행해야함)

데이터셋 크기

  • Train - 3626
  • Validation - 358
  • Test - 2782
  • TOTAL 6408

이미지 크기

  • 1280 * 720 ( w * h )

특이사항

  • label이 json형태로 되어있어서, 사용하기 위해서 추가작업 필요
  • 모든 데이터에 대해서 19장의 연속된 이전 프레임 데이터가 있음
  • ( 즉, tuSimple 데이터셋 1개는 20장의 연속된 차선이미지 + 마지막장에 대한 차선 label 로 이루이짐)
  • 다양한 도로 환경의 데이터가 존재함

공식 사이트

https://paperswithcode.com/dataset/tusimple

 

장점

tusimple 데이터셋은 6400여장의 적절한 데이터셋인 만큼 많은 논문에서 사용되고있다. 각 데이터마다 19장의 연속된 데이터도 제공하기 때문에, RNN과같이 이전 데이터를 활용해서 학습하는 네트워크도 학습시킬 수 있다. 아래 후술하겠지만, 차선 데이터를 인스턴스 단위로 분리해서 제공해주는 장점도 있다.

 

그리고 데이터의 양이 많다보니 다양한 도로환경이 담겨있다.

왼쪽 사진과 같이 일반적인 도로환경은 물론이고, 가운데 사진과 같은 흐릿한 차선도, 오른쪽 사진과같은 차선없이 요철로 이루어진 구간의 데이터도 존재한다. 하지만 극적인 날씨에 대한 데이터는 없으니 사용에 주의 (비오거나, 밤, 안개낌 등)

 

단점

 

 하지만 label이 json형태로 주어지고, 픽셀 기반으로 segmentation되어있지 않아 사용에 불편함이 있을 수 있다.

위 왼쪽과 같은 형태로 주어지며, 각 h_sample에 대해 차선이 존재하면 lanes에 기록된다. 즉, lanes의 원소 개수인 4개만큼의 차선 데이터가 있으며, 해당 h_sample 위치에 차선이 존재하면 차선의 width좌표가, 없으면 -2가 기록된다.

위와 같은 형태로 label이 존재하기 때문에, 벤치마킹을 할 때도 위와 같은 형식으로 자신의 출력값을 변환해줘야 하는 불편함이 있다. 

2. CULane

교통과 차선인식에 관련된 연구를 위한 데이터셋으로, 베이징에서 수집되었다.  6개의 카메라를 통해 55시간 분량의 데이터를 수집했으며. 총 133,235프레임으로 구성되어있다. 차선인식을 위한 단일 데이터셋 중 규모가 크기 때문에 차선인식 논문에서 매우 빈번하게 사용된다.

CUlane 데이터셋

 

CUlane 데이터셋을 다운로드 받는 구글 드라이브. 6개의 서로다른 데이터가 저장되어있다. 전부 다운로드 받으면 40기가가 넘는 큰 용량이므로, 단순히 구조를 보고싶다면 크기가 작은 데이터셋만 다운받는 것도 방법.

 

차선 분류

  • 8가지 (But 기본 데이터셋은 유무만 판별하며, 8가지 분류 데이터셋을 활용하려면 분류 코드를 실행해야함)

데이터셋 크기

  • Train - 88880
  • Validation - 9675
  • Test - 34680
  • TOTAL 133235

이미지 크기

  • 1640 * 590 ( w * h )

특이사항

  • 사용하는 이미지가 생각보다 가로로 긴 편
  • 밤에 수집한 어두운 조명 데이터 존재

공식 사이트

https://xingangpan.github.io/projects/CULane.html

 

장점

 

 

장점은 당연히 압도적인 크기의 데이터셋. 총 133235프레임의 데이터가 존재하기 때문에 다양한 환경에 대해서 테스트 가능

 

단점

 

픽셀단위로 세그먼테이션되어있지 않고 위와 같은 형태로 되어있다. json도, csv도 아닌 숫자의 나열이기 때문에 사용이 불편. 더 번거로운 것은, 위에서 볼 수 있다시피 정수가 아닌 소수도 존재하는데, 이는 영상에서 차선 위치를 직접 추출한 것이 아니라, 차선을 그린 후 3차 스플라인(cubic spline) 보간으로 얻은 함수를 제공하기 때문.

 

but 다행히도 공식 홈페이지에서 위 텍스트파일을 픽셀단위 레이블로 변환해주는 코드와 평가과정을 도와주는 코드를 공식적으로 제공해주기 때문에 사용에 불편함은 없다.

 

 

 

 

 

 

 

참조 논문

Suvarna Shirke, Lane Datasets for Lane Detection, ICCSP, 2019

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8698065

 

반응형