Duckietown 專案 – Duckiebot DB21M 基礎操作(五) – Object Detection 物件偵測(上)

想要了解更多有關 Duckietown 系列的操作文章，請參考以下文章 :

一、前言

在上一篇文章 「Duckietown 專案 – Duckiebot DB21M 基礎操作(四) – Camera Calibrate」 中，我們將 Dcukiebot DB21M(以下簡稱小鴨車)的主要感測器 – 相機，使用相機本身校正與定向校正方法，找出相機的針孔成像模型相關參數。相機校正完成後，我們便可以開始使用相機作為主要感測器，去執行各種專案。本篇文章我們將探討最多人使用相機所做的專案 – 物件偵測(Object Detection)。

本篇文章我們將會分成以下三個部分，一步一步討論物件偵測所需要的基礎知識：

高階視覺感知簡介
物件偵測的探討
總結

二、高階視覺感知簡介

在上一篇文章中，我們操作了相機校正以找到參數，讓小鴨車在擷取影像資訊時，不至於與實際環境有過多的誤差出現，這部分使用到的是低階視覺感知技術。但有的時候，我們會需要從一張圖片中，推論更多有意義的物體，例如障礙物，這時就需要使用到「高階視覺感知技術(Advanced Visual Perception)」。對於小鴨車這種自動駕駛車來說，有意義的物體可能會是車子、行人、交通號誌道路標示等等，這些物體都包含了幾何形狀與語義的資訊。接下來，我們將定義一些不同的介紹三個高階視覺感知任務：影像分類、物件偵測與語義分割。

1. 影像分類(Image Classification )

在影像分類的任務中，我們將會給予系統一張圖片，其中包含了一個物體，隨後系統則會正確地辨識出影像中的物體是屬於哪個分類。例如我們給小鴨車一個鴨子的圖片，它可以正確地辨識出－鴨子。在辨識鴨子的任務中，小鴨車僅需要知道影像中的一個物體，並且不需要知道鴨子的位置，位在圖片中的哪個地方。然而這樣子單純的影像分類，並不適合用在自動駕駛車上，因為自動駕駛車還需要知道物體在圖片中的哪個方位，如下圖所示。

2. 物件偵測(Object Detection)

物件偵測是一個比影像分類還要困難的任務，原因在於同一個圖片中，可能會有多種不同的物體出現。在物件偵測任務中，我們需要知道圖片中出現的各種不同物體，並且以「邊界框(Bounding box, 或稱定界框)」來標示出物體在圖片中的方位。但這並不是影像分割，因為物件偵測不需要知道每個像素格所代表的精準分類。物件偵測不會去關注不是物體的區域，而是專注在提供一個完整的註釋給予被邊界框框定的物體，如下圖所示。

3. 語義分割(Semantic segmentation)

語義分割，也稱為圖像分割(Image segmentation)，這項技術的的任務是找出圖片中每一個像素格(Pixel)，所對應的標籤。舉個例子，在一張圖片，有很多隻的小鴨與交通號誌，這時我們就可以使用語義分割，將小鴨與交通號誌所佔有的像素格全部標示出來，這看起來就會像是把小鴨與交通號誌的輪廓畫出來，隨後再給予標籤，如下圖所示。

上述的影像分類、物件偵測、語義分割3個任務說明，是高階視覺感知中常使用的任務，接下來我們將把目標放在本篇文章的重點 – 物件偵測。

三、物件偵測的探討

在這裡我們馬上遇到第一個問題: 要如何評估物件偵測的效能呢?

若是在影像分類中，評估效能的方式相當簡單：辨識的準確度(Accuracy)越高，效能就越好。準確率的意思是在下列所有圖片中，能夠正確的辨識出Duckiebot 圖片類別的比率，化作公式即為：

然而物件偵測並不能這麼直觀地探討效能，因為我們可能會檢測到一些不存在於辨識模型中的物體或是遺失一些應該辨識出的物體。為了探討物件偵測的效能，我們需要了解下列的基礎知識：

混淆矩陣(confusion matrix)
精確度(percision)
召回率(recall)
平均正確率
mean Average Precision
Intersection Over Union

1. 混淆矩陣(confusion matrix)

混淆矩陣是機器學習中，用來評估模型好壞的方法之一。假設現在我們有一個模型，需要用來判斷圖片中的物體，是否為一隻小鴨，則可能會有下列四種情況 :

True Positives(TP) : 圖片中的物體為小鴨，模型預測也是小鴨
True Negative(TN) : 圖片中的物體不是小鴨，模型預測也不是小鴨
False Positives(FP) : 圖片中的物體不是小鴨，模型預測卻是小鴨
Fasle Negative(FN) : 圖片中的物體是小鴨，模型預測卻不是小鴨

這四種情況如果使用表格來表示的話，便會是

	模型預測是小鴨(Positives)	模型預測不是小鴨(Negative)
給予的圖片是小鴨	True Positives(TP)	Fasle Negative(FN)
給予的圖片不是小鴨	False Positives(FP)	True Negative(TN)

透過表格我們便可以知道混淆矩陣所代表的意義：