最小二乘法 最小二乘法的詳細推導過程
導讀作者丁點helper 來源 丁點幫你上一篇文章給大家留了一個思考題,問在假設檢驗時下面哪種寫法是正確的大家都答對了嗎?正確答案是“A”。樣本與總體回歸系數的區分這一點內容看似很簡單,但其實經常有
作者:丁點helper
來源: 丁點幫你
上一篇文章給大家留了一個思考題,問在假設檢驗時下面哪種寫法是正確的:
大家都答對了嗎?正確答案是“A”。
樣本與總體回歸系數的區分
這一點內容看似很簡單,但其實經常有同學犯糊涂,所以,還是值得專門說一下。
回歸系數的計算
借用我們講相關分析時的例子:探討糧食中某種毒素(DON)對骨關節炎評分(OAP)的影響,數據如下:
無論是做回歸還是相關分析,我們拿到數據的第一步應該是先畫一個散點圖:以因變量Y為縱軸,以自變量X為橫軸(如果有多個自變量,則讓Y逐一與X畫散點圖)。
本例我們研究的是DON對OAP的影響,所以以OAP為Y,以DON為X,散點圖如下:
如上圖,兩變量之間正向的線性關系還是很明顯的,隨著DON的提升,OAP也有上升的趨勢,所以推測,糧食中DON毒素可能會導致患者關節炎的發生。
回歸方程在幾何上是一條直線,所以問題歸結于怎么樣找到一條這樣的直線。
因為我們希望回歸直線盡可能最優,所以就需要做出的直線離各散點的綜合距離最小。
如下圖中的u1、u2,代表了散點與回歸直線的距離。
如下圖,我們根據肉眼觀察,對關節炎的數據畫出來兩條線:藍線和紅線,問題是到底選擇哪一條線呢?
肉眼觀察肯定不靠譜,只能通過數學計算來比較判斷,如何判斷呢?本質上這是一個求最小值的問題。
上面說過了,我們希望得到的直線離所有散點的綜合距離最小,怎么把這句話轉變成數學計算呢?
所謂的“綜合距離”最小,用數學的語言來表達就是讓下面這個式子取最小值
綜合起來可以寫成:
別被復雜的式子唬住,其實這里只需要初中或高中的數學就能解決。耐心的小伙伴可以嘗試展開一下,其實就是一個二次函數。
求解出來的結果是:
以上這個過程就是大家總能聽到的“最小二乘法”。
回到我們關節炎的例子,最后得出其回歸方程為:
免責聲明:本文章由會員“王熙東”發布如果文章侵權,請聯系我們處理,本站僅提供信息存儲空間服務如因作品內容、版權和其他問題請于本站聯系