調整鄰近點距離以增進kNN演算法鑑別帕金森氏疾病的雜訊容忍度
楊偉修
DOI:10.6283/JOCSG.2016.4.2.291
下載PDF檔 ( 已下載次數:1816)
中文摘要 帕金森氏病(Parkinson’s Disease)是老年人中常見的神經系統退化性疾病,症狀表現相當複雜且與其他多種疾病的症狀相似。在資料探勘領域中,近年來已有許多以帕金森氏病為主題的研究,但這些研究中鮮少考慮當訓練資料中含有誤判案例(又稱為類別雜訊)時,對於判別此疾病的影響。而當所獲得之資料品質不佳,並以此含有雜訊的訓練資料建立分類器,一定會減低分類器的功能,因此如何增進kNN演算法鑑別帕金森氏疾病的雜訊容忍度,則成為本研究的主要目的。k最近鄰演算法(k Nearest Neighbor Algorithm,簡稱kNN)是一種非常簡單且常用的機器學習方法。該法辨識未知類別測試資料的過程,是將測試資料與一組已知類別的訓練資料進行相似度比對,也就是先計算測試資料與所有訓練資料間的距離,然後取距離最接近測試資料的k個鄰近點,統計各類別的訓練點數,最後以得票數最多的類別作為測試資料之預測類別。所以選取不同的k值也會產生不同的分類結果,但如何選取最佳的k值,至今依然沒有適當的方法來預先決定,因此設定k=1是最簡單且常見的分類規則(簡稱1NN),可是當訓練資料中含有雜訊時,1NN分類器亦是最易受雜訊影響的分類器。在應用kNN演算法的分類過程中,使用不同的距離計算方法,會產生不同的分類結果,因此有許多的學者致力於發展各種新的距離計算方式,期以提高kNN演算法的分類準確率。Wang et al. (2007)提出A-kNN演算法,該法是先計算每個訓練點與不同類別訓練點間的最近距離(邊界距離),再將測試點對所有的訓練點距離,除以各相對訓練點的邊界距離,以此簡單的邊界距離調整鄰近點的順序,可以有效提升kNN的分類效能,但目前亦無研究探討此演算法之雜訊容忍度。
綜合上述說明,本研究將採用A-kNN演算法計算帕金森氏病資料,並對於此資料加入各種不同程度的類別雜訊(class noise),進一步與kNN比較鑑別結果受雜訊的影響程度。此外,預先將資料以不同的正規化方法進行前置處理,以及使用不同的距離函數計算鄰近點之間的距離,皆會產生不同的kNN分類準確率(Ma et al., 2014),因此本研究中亦預先將資料以四種不同的資料正規化法處理,再分別以常用的歐幾里得距離(Euclidean distance)與曼哈頓距離(Manhattan distance)以A-kNN方法計算,以分析各種情況下A-kNN方法的雜訊容忍度,並以分析結果提出具有高雜訊容忍度與準確率的帕金森氏病分類模型。