<address id="v5f1t"><meter id="v5f1t"><dfn id="v5f1t"></dfn></meter></address>

<nobr id="v5f1t"><i id="v5f1t"><em id="v5f1t"></em></i></nobr>
      <font id="v5f1t"></font>

    <font id="v5f1t"><ruby id="v5f1t"></ruby></font>

      <listing id="v5f1t"></listing>

        <dfn id="v5f1t"><ruby id="v5f1t"><form id="v5f1t"></form></ruby></dfn>

            <dfn id="v5f1t"></dfn>

            <progress id="v5f1t"><b id="v5f1t"><strike id="v5f1t"></strike></b></progress>

              <font id="v5f1t"></font>

                      representation representation區別

                      導讀蘋果樹結出的果子有品相上乘的,也有蟲蛀壞果。而高端便利店出售的蘋果是 100 完美的水果。從果園到水果店之間,專門有人花費大量時間將壞蘋果剔除或給可以挽救的蘋果涂上一層薄薄的蠟。作為一名機器學習工程

                      蘋果樹結出的果子有品相上乘的,也有蟲蛀壞果。而高端便利店出售的蘋果是 100% 完美的水果。從果園到水果店之間,專門有人花費大量時間將壞蘋果剔除或給可以挽救的蘋果涂上一層薄薄的蠟。作為一名機器學習工程師,您將花費大量的時間挑出壞樣本并加工可以挽救的樣本。即使是非常少量的“壞蘋果”也會破壞掉一個大規模數據集。

                      縮放特征值

                      縮放是指將浮點特征值從自然范圍(例如 100 到 900)轉換為標準范圍(例如 0 到 1 或 -1 到 +1)。如果某個特征集只包含一個特征,則縮放可以提供的實際好處微乎其微或根本沒有。不過,如果特征集包含多個特征,則縮放特征可以帶來以下優勢:

                      • 幫助梯度下降法更快速地收斂。
                      • 幫助避免“NaN 陷阱”。在這種陷阱中,模型中的一個數值變成 NaN(例如,當某個值在訓練期間超出浮點精確率限制時),并且模型中的所有其他數值最終也會因數學運算而變成 NaN。
                      • 幫助模型為每個特征確定合適的權重。如果沒有進行特征縮放,則模型會對范圍較大的特征投入過多精力。

                      您不需要對每個浮點特征進行完全相同的縮放。即使特征 A 的范圍是 -1 到 +1,同時特征 B 的范圍是 -3 到 +3,也不會產生什么惡劣的影響。不過,如果特征 B 的范圍是 5000 到 100000,您的模型會出現糟糕的響應。

                      處理極端離群值

                      下面的曲線圖表示的是加利福尼亞州住房數據集中稱為 roomsPerPerson 的特征。roomsPerPerson 值的計算方法是相應地區的房間總數除以相應地區的人口總數。該曲線圖顯示,在加利福尼亞州的絕大部分地區,人均房間數為 1 到 2 間。不過,請看一下 x 軸。

                      一個非常非常長的尾巴

                      如何最大限度降低這些極端離群值的影響?一種方法是對每個值取對數:

                      對數縮放仍然留有尾巴

                      對數縮放可稍稍緩解這種影響,但仍然存在離群值這個大尾巴。我們來采用另一種方法。如果我們只是簡單地將 roomsPerPerson 的最大值“限制”為某個任意值(比如 4.0),會發生什么情況呢?

                      將特征值限制到 4.0

                      將特征值限制到 4.0 并不意味著我們會忽略所有大于 4.0 的值。而是說,所有大于 4.0 的值都將變成 4.0。這就解釋了 4.0 處的那個有趣的小峰值。盡管存在這個小峰值,但是縮放后的特征集現在依然比原始數據有用。

                      分箱

                      下面的曲線圖顯示了加利福尼亞州不同緯度的房屋相對普及率。注意集群 - 洛杉磯大致在緯度 34 處,舊金山大致在緯度 38 處。

                      每個緯度的房屋數

                      在數據集中,latitude 是一個浮點值。不過,在我們的模型中將 latitude 表示為浮點特征沒有意義。這是因為緯度和房屋價值之間不存在線性關系。例如,緯度 35 處的房屋并不比緯度 34 處的房屋貴 35/34(或更便宜)。但是,緯度或許能很好地預測房屋價值。

                      為了將緯度變為一項實用的預測指標,我們對緯度“分箱”,如下圖所示:

                      分箱值

                      我們現在擁有 11 個不同的布爾值特征(LatitudeBin1、LatitudeBin2、…、LatitudeBin11),而不是一個浮點特征。擁有 11 個不同的特征有點不方便,因此我們將它們統一成一個 11 元素矢量。這樣做之后,我們可以將緯度 37.4 表示為:

                      [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]

                      分箱之后,我們的模型現在可以為每個緯度學習完全不同的權重。

                      清查

                      截至目前,我們假定用于訓練和測試的所有數據都是值得信賴的。在現實生活中,數據集中的很多樣本是不可靠的,原因有以下一種或多種:

                      • 遺漏值。 例如,有人忘記為某個房屋的年齡輸入值。
                      • 重復樣本。 例如,服務器錯誤地將同一條記錄上傳了兩次。
                      • 不良標簽。 例如,有人錯誤地將一顆橡樹的圖片標記為楓樹。
                      • 不良特征值。 例如,有人輸入了多余的位數,或者溫度計被遺落在太陽底下。

                      一旦檢測到存在這些問題,您通常需要將相應樣本從數據集中移除,從而“修正”不良樣本。要檢測遺漏值或重復樣本,您可以編寫一個簡單的程序。檢測不良特征值或標簽可能會比較棘手。

                      除了檢測各個不良樣本之外,您還必須檢測集合中的不良數據。直方圖是一種用于可視化集合中數據的很好機制。此外,收集如下統計信息也會有所幫助:

                      • 最大值和最小值
                      • 均值和中間值
                      • 標準偏差

                      考慮生成離散特征的最常見值列表。例如,country:uk 的樣本數是否符合您的預期?language:jp 是否真的應該作為您數據集中的最常用語言?

                      了解數據

                      遵循以下規則:

                      • 記住您預期的數據狀態。
                      • 確認數據是否滿足這些預期(或者您可以解釋為何數據不滿足預期)。
                      • 仔細檢查訓練數據是否與其他來源(例如信息中心)的數據一致。

                      像處理任何任務關鍵型代碼一樣謹慎處理您的數據。良好的機器學習依賴于良好的數據。

                      免責聲明:本文章由會員“陳夕林”發布如果文章侵權,請聯系我們處理,本站僅提供信息存儲空間服務如因作品內容、版權和其他問題請于本站聯系
                      <address id="v5f1t"><meter id="v5f1t"><dfn id="v5f1t"></dfn></meter></address>

                      <nobr id="v5f1t"><i id="v5f1t"><em id="v5f1t"></em></i></nobr>
                          <font id="v5f1t"></font>

                        <font id="v5f1t"><ruby id="v5f1t"></ruby></font>

                          <listing id="v5f1t"></listing>

                            <dfn id="v5f1t"><ruby id="v5f1t"><form id="v5f1t"></form></ruby></dfn>

                                <dfn id="v5f1t"></dfn>

                                <progress id="v5f1t"><b id="v5f1t"><strike id="v5f1t"></strike></b></progress>

                                  <font id="v5f1t"></font>

                                          国产成人h片视频在线观看