衡量模型的標準(1)─談KS值(KS Value)

凡事必須度量，模型也不例外

每件事都有度量的標準，買菜量斤數，運動看體脂肪，在學校的表現看成績、在工作上看KPI...，那麼模型有沒有衡量指標呢? 更精準的說，當做完模型，或是需要監控模型是否還有效果時，就需要度量標準，常見的模型度量標準，必然會想到吉尼係數、KS值、PSI等數值。這些數值有甚麼意義? 他們之間又有甚麼差別呢?

淺談 KS值

首先談談KS值。其定義為「各評分組別中，好壞客戶累積占比差距最大的數值」，該如何理解呢?

舉個例子，想像我們依照過去學生的資料，建立一個模型，想要來預測未來新班級學生成績差的大概有多少，我們如何確定這個模型的效能如何? 假設在建立模型時，我們以過去資料歷史平均成績定義60分以上是成績好，其餘是成績差。然後依照這個模型所預估的分析，我們將學生資料套用到模型中，所有學生區分成未來可能成績為低中高3組。

依據模型的資料，第一組有2個預測成績好的學生，第二組9個，第三組19個，因此，第一組的累計百分比是2/30=7%，第二組的累積百分比就是(2+9)/30=37%。同理可推，預測成績差的學生三組，第一組的累計百分比是16/30=53%，第二組是(16+12)/30=93%，而這個數字代表著，在模型中被我們定義成績差的學生，有93%的人我們也預測他未來的成績會呈現中低表現。

成績好(>=60分)	個數	累計	累計百分比(A)
第一組	2	2	7%
第二組	9	11	37%
第三組	19	30	100%
TOTAL	30

成績差(<60分)	個數	累計	累計百分比(B)	\|A-B\|
第一組	16	16	53%	47%
第二組	12	28	93%	57%
第三組	2	30	100%	0%
TOTAL	30

於是我們將各組的成績好跟成績差相減，並取絕對值，第一組47%、第二組57%、第三組0%,根據KS值的定義，這個模型的KS值就是三組之中的最大值57%(=93%-37%)。由此可以看到，當好壞客戶差距更大時，例如模型在第二組時抓到更少的"成績好學生"(<37%)，或是我們在第二組累績抓到更多的"成績差的學生"(>93%)，則其KS會更高。這在直覺上是容易理解的，因為我們的目的是要讓成績好的學生越多集中在分數高的那組，而成績差的學生多集中於第一組，這樣模型才能達到準確的效果。

所以說，KS值就是取其中一組作為代表，以這一組的差距來代表整體模型的鑑別度。差距越大，就代表裡面的這組好壞累積差距越大，也越能顯示出模型有區別好壞客戶，也就是我們例子所說可以區別成績好跟成績壞的客戶，在未來預測成績上可信度也較高。

那我們剛剛所提到的例子中，57%鑑別力又代表甚麼呢? 根據KS的級距，介於30%以下算是鑑別力不佳，30%~70%鑑別力良好，70%以上鑑別力超好，但要檢視是不是計算錯誤。所以剛剛的例子中，模型的鑑別度算是良好的。

KS值的侷限

從KS的定義中可以看出KS的限制，也就是「以偏概全」，因為只以一個組別做代表，難免產生以偏概全的誤差，因此，在判別模型是否還具有鑑別度之時，必須再搭配吉尼係數或其他衡量標準，以免誤判資料。

參考資料

《信用評等模型的12堂課》

書寫觀點.tw

衡量模型的標準(1)─談KS值(KS Value)

天藍

You might also like

沒有留言:

張貼留言

總網頁瀏覽量

精選文章

《翻轉首爾》那些首爾觀光背後不為人知的風景

如果喜歡我的文章，歡迎追蹤剛成立的專頁~