谷歌發布機器學習規則 (Rules of Machine Learning)：關于機器學習工程的最佳實踐（上）

本文作者：汪思穎

2018-05-23 18:29

導語：本文檔旨在幫助已掌握機器學習基礎知識的人員從 Google 機器學習的最佳實踐中受益。

雷鋒網 AI 研習社按，本文來源于谷歌開發者博客，雷鋒網獲其授權轉載。以下為上篇，包含術語、概覽以及在進行機器學習之前的第 1-20 條規則。

作者：馬丁·辛克維奇

本文檔旨在幫助已掌握機器學習基礎知識的人員從 Google 機器學習的最佳實踐中受益。它介紹了一種機器學習樣式，類似于 Google C++ 樣式指南和其他常用的實用編程指南。如果您學習過機器學習方面的課程，或者擁有機器學習模型的構建或開發經驗，則具備閱讀本文檔所必需的背景知識。

術語

在我們討論有效的機器學習的過程中，會反復提到下列術語：

實例：要對其進行預測的事物。例如，實例可以是一個網頁，您希望將其分類為“與貓相關”或“與貓無關”。

標簽：預測任務的答案，它可以是由機器學習系統生成的答案，也可以是訓練數據中提供的正確答案。例如，某個網頁的標簽可能是“與貓相關”。

特征：預測任務中使用的實例的屬性。例如，某個網頁可能具有“包含字詞‘貓’”這一特征。

特征列：一組相關特征，例如用戶可能居住的所有國家/地區的集合。樣本的特征列中可能包含一個或多個特征。“特征列”是 Google 專用的術語。特征列在 Yahoo/Microsoft 使用的 VM 系統中被稱為“命名空間”或場。

樣本：一個實例（及其特征）和一個標簽。

模型：預測任務的統計表示法。您使用樣本訓練一個模型，然后使用該模型進行預測。

指標：您關心的一個數值。也許（但不一定）可以直接得到優化。

目標：算法嘗試優化的一種指標。

管道：機器學習算法的基礎架構。管道包括從前端收集數據、將數據放入訓練數據文件、訓練一個或多個模型以及將模型運用到生產環境。

點擊率：點擊廣告中的鏈接的網頁訪問者所占的百分比。

概覽

要打造優質的產品：

請把自己看成是一位出色的工程師，而不是一位機器學習專家。

實際上，您將面臨的大部分問題都是工程問題。即使在使用出色的機器學習專家掌握的所有資源的情況下，大多數收獲也是由合適的特征（而非精確的機器學習算法）帶來的。所以，進行機器學習的基本方法是：

確保管道從頭到尾都穩固可靠。
從制定合理的目標開始。
以簡單的方式添加常識性特征。
確保管道始終穩固可靠。

上述方法將在長時間內取得很好的效果。只要您仍然可以通過某種簡單的技巧取得進展，就不應該偏離上述方法。增加復雜性會減緩未來版本的發布。

當您充分利用了所有的簡單技巧，或許就到了探索機器學習最前沿技術的時候了。請參閱第三階段的“機器學習項目”部分。

本文檔結構如下：

第一部分可幫助您了解構建機器學習系統的時機是否已經成熟。

第二部分介紹了如何部署第一個管道。

第三部分介紹了在向管道添加新特征時如何進行發布和迭代、如何評估模型，以及如何應對訓練-應用偏差。

最后一部分介紹了當您達到穩定階段時該怎么做。

之后是相關資源列表和附錄，附錄針對多次作為示例在本文檔中提及的系統，提供了一些背景信息。

在進行機器學習之前

第 1 條規則：不要害怕發布未采用機器學習技術的產品。

機器學習技術很酷，但它需要數據。從理論上講，您可以采用來自其他問題的數據，然后針對新產品調整模型，但其效果很可能不如基本的啟發式算法。如果您認為機器學習技術能為您帶來 100% 的提升，那么啟發式算法可為您帶來 50% 的提升。

例如，如果您要對應用市場中的應用進行排名，則可以將安裝率或安裝次數作為啟發式算法指標。如果您要檢測垃圾郵件，則可以濾除以前發送過垃圾郵件的發布商。此外，也不要害怕手動修改。如果您需要對聯系人進行排名，可以按使用聯系人的時間順序由近及遠對其排序（或按字母順序排序）。如果您的產品并非必須使用機器學習技術，則在獲得足夠的數據之前，請勿使用該技術。

第 2 條規則：首先設計并實現指標。

在正式確定機器學習系統的功能之前，盡可能在當前系統中跟蹤指標的值。這樣做的原因如下：

提前行動有助于更輕松地從系統的用戶獲得授權。
如果您認為將來可能需要考慮某個方面，最好立即開始收集相關歷史數據。
如果您在設計系統時考慮到指標測量，將來會省下很多力氣。具體而言，您不希望自己以后在日志中苦苦查找字符串以測量指標！
您將發現哪些內容發生了變化以及哪些內容始終未變。例如，假設您希望直接優化單日活躍用戶數。但是，在早期操縱系統的過程中，您可能會發現用戶體驗的顯著改變并沒有使該指標發生明顯變化。

Google+ 團隊會衡量每次閱讀的展開次數、轉發次數、+1 次數、評論次數，以及每位用戶的評論次數、轉發次數等，然后在應用模型時利用這些數據來衡量帖子的質量。另請注意，實驗框架非常重要，您必須在實驗框架中將用戶分組為多個分桶，并按實驗匯總統計信息。 請參閱第 12 條規則。

通過以更加自由的方式收集指標，您可以更加全面地了解您的系統。發現問題了？添加指標對其進行跟蹤！對上個版本中發生的一些量變激動不已？添加指標對其進行跟蹤！

第 3 條規則：選擇機器學習技術而非復雜的啟發式算法。

簡單的啟發式算法有利于推出產品。但復雜的啟發式算法難以維護。當您獲得足夠的數據并基本確定自己要嘗試實現的目標后，請考慮使用機器學習技術。與大多數軟件工程任務一樣，您需要不斷更新方法（無論是啟發式算法還是機器學習模型），而且您會發現機器學習模型更易于更新和維護（請參閱第 16 條規則）。

機器學習第一階段：您的第一個管道

重點關注第一個管道的系統基礎架構。雖然展望您將要進行的創新性機器學習的方方面面是一件很有趣的事，但如果您不先確認管道的可靠性，則很難弄清楚所發生的情況。

第 4 條規則：確保第一個模型簡單易用，并正確實施基礎架構。

第一個模型可以最有效地提升您的產品質量，因此不需要花哨，簡單易用即可。但是，您會遇到很多預料之外的基礎架構問題。在公開推出您精心構建的新機器學習系統之前，您必須確定以下幾點：

如何為您的學習算法獲取樣本。
初步確定對于您的系統來說，“好”和“壞”的定義是什么。
如何將模型整合到應用中。您可以在線應用模型，也可以離線使用樣本對模型進行預計算，并將結果存儲在表格中。例如，您可能需要對網頁進行預分類并將結果存儲在表格中，但也可能需要在線對聊天消息進行分類。

選擇簡單的特征可以更輕松地確保：

將這些特征正確應用于您的學習算法。
模型學習出合理的權重。
將這些特征正確應用于服務器端。

當您有了能可靠做到上述三點的系統時，則表示您已完成大部分工作。簡單的模型可為您提供基準指標和基準行為，您可以利用這些指標和行為測試更復雜的模型。某些團隊以“中性”作為首次發布的目標 - 在首次發布時明確淡化機器學習成果，以避免分心。

第 5 條規則：撇開機器學習，單獨測試基礎架構。

確保基礎架構可測試，且對系統的學習部分進行封裝，以便測試這些部分之外的方方面面。具體而言：

測試數據導入算法的效果。檢查應填充的特征列是否已填充。在隱私權許可的情況下，手動檢查輸入到訓練算法的數據。如果可能的話，查看管道中的統計信息，并與在其他地方處理的相同數據的統計信息進行比較。
測試從訓練算法得出模型的效果。確保訓練環境中的模型與應用環境中的模型給出的分數相同（請參閱第 37 條規則）。

機器學習具有不可預測性，因此要有用于訓練環境和應用環境中創建樣本的代碼的測試；并確保您可以在應用期間加載和使用固定模型。此外，了解您的數據至關重要：請參閱分析大型復雜數據集的實用建議。

第 6 條規則：復制管道時注意丟棄的數據。

通常，我們通過復制現有管道來創建新管道（即貨物崇拜編程），且舊管道會丟棄一些新管道需要的數據。例如，Google+ 熱門信息的管道會丟棄時間較早的帖子（因為它會不斷嘗試對最新的帖子進行排名）。此管道被復制用于 Google+ 信息流，在信息流中，時間較早的帖子仍然有意義，但舊管道仍會丟棄它們。另一種常見模式是僅記錄用戶看到的數據。因此，如果我們想要對用戶看不到特定帖子的原因進行建模，此類數據就毫無用處，因為管道已丟棄所有負分類樣本。Play 中也曾出現過類似的問題。在處理 Play 應用首頁時，創建了一個新管道，其中還包含來自 Play 游戲著陸頁的樣本，但無任何特征可區分各個樣本的來源。

第 7 條規則：將啟發式算法轉變為特征或在外部處理它們。

通常，機器學習嘗試解決的問題并不是全新的問題。有一個現有的系統，它可用于排名、分類，或解決您正嘗試解決的任何問題。這意味著有多種規則和啟發式算法。使用機器學習進行調整后，此類啟發式算法可為您提供便利。 您應該挖掘自己的啟發式算法，了解它們所包含的任何信息，原因有以下兩點。首先，向機器學習系統的過渡會更平穩。其次，這些規則通常包含大量您不愿意丟棄的關于系統的直覺信息。您可以通過以下四種方法使用現有啟發式算法：

使用啟發式算法進行預處理。如果特征非常好，則可以選擇執行此操作。例如，在垃圾郵件過濾器中，如果發件人已被列入黑名單，則不要試圖重新學習“已列入黑名單”的含義。屏蔽該郵件即可。這種方法最適合在二元分類任務中使用。
創建特征。直接通過啟發式算法創建特征是一種很好的做法。例如，如果您使用啟發式算法來計算查詢結果的相關性分數，則可以將此分數納為一個特征的值。您日后可能想要使用機器學習技術調整該值（例如，將該值轉換為一個有限離散值組中的一個，或與其他特征相組合），但是首先請使用啟發式算法生成的原始值。
挖掘啟發式算法的原始輸入。如果某個應用啟發式算法結合了安裝次數、文本中的字符數以及星期值，考慮將這些內容拆分開來，并作為輸入單獨提供給學習算法。部分適用于集成學習的技巧也適用于此（請參閱第 40 條規則）。
修改標簽。當您感覺啟發式算法會獲取當前標簽中未包含的信息時，可以選擇進行此操作。例如，如果您正在嘗試最大程度地增加下載次數，但同時也想要優質的內容，則可能的解決方案是用標簽乘以應用獲得的平均星數。您可以非常靈活地修改標簽。請參閱“您的第一個目標”。

在機器學習系統中使用啟發式算法時，請務必留意是否會帶來額外的復雜性。在新的機器學習算法中使用舊啟發式算法有助于實現平穩過渡，但思考下是否有可以達到相同效果的更簡單的方法。

監控

在一般情況下，請實行良好的警報安全機制，例如設計解決警報的步驟以及提供“信息中心”頁面。

第 8 條規則：了解您的系統對新鮮程度的要求。

如果您使用一天前的模型，效果會降低多少？一周前的模型呢？一個季度前的模型呢？此類消息有助于您了解需要優先監控哪些方面。如果一天不更新模型會對您的產品質量產生嚴重影響，則最好讓工程師持續觀察相關情況。大多數廣告投放系統每天都有新廣告要處理，并且必須每天更新。例如，如果不更新 Google Play 搜索的機器學習模型，則不到一個月便會產生負面影響。Google+ 熱門信息的某些模型中沒有帖子標識符，因此無需經常導出這些模型。其他具有帖子標識符的模型的更新頻率要高得多。另請注意，新鮮程度會隨著時間而改變，尤其是在向模型中添加特征列或從中移除特征列時。

第 9 條規則：先檢測問題，然后再導出模型。

很多機器學習系統都會經歷導出模型以應用模型的階段。如果導出的模型存在問題，則是面向用戶的問題。

在導出模型之前，請進行健全性檢查。具體而言，確保模型在處理預留數據方面表現合理。或者說，如果您一直認為數據存在問題，請不要導出模型。很多經常部署模型的團隊在導出模型之前，會先檢查 ROC 曲線下面積（簡稱 AUC）。尚未導出的模型存在問題時，需要發送電子郵件提醒；但面向用戶的模型出現問題時，可能需要通過一個頁面進行宣布。 因此，最好先等待檢查完畢并確保萬無一失后再導出模型，以免對用戶造成影響。

第 10 條規則：注意隱藏的問題。

相比其他類型的系統，這種問題更常見于機器學習系統。假設關聯的特定表格不再更新，那么，機器學習系統會進行相應調整，其行為仍然會相當好，但會逐漸變糟。有時，您會發現有些表格已有幾個月未更新，只需刷新一下，就可以獲得比相應季度做出的所有其他改進都更有效的效果提升！特征的覆蓋率可能會因實現變化而發生改變：例如，某個特征列可能在 90% 的樣本中得到填充，但該比率突然下降到 60%。Google Play 曾有一個過時 6 個月的表格，但僅刷新了一下該表格，安裝率就提升了 2%。如果您對數據的統計信息進行跟蹤，并不時地手動檢查數據，就可以減少此類失敗。

第 11 條規則：提供特征列的所有者及相關文檔。

如果系統很大，且有很多特征列，則需要知道每個特征列的創建者或維護者。如果您發現了解某個特征列的人要離職，請確保有人知道相關信息。盡管很多特征列都有說明性名稱，但針對特征的含義、來源以及預計提供幫助的方式提供更詳細的說明，是一種不錯的做法。

您的第一個目標

您會關注很多有關系統的指標或測量結果，但通常只能為您的機器學習算法指定一個目標，即您的算法“嘗試”優化的數值。在這里，我介紹一下目標和指標有何區別：指標是指您的系統報告的任意數字，可能重要，也可能不重要。另請參閱第 2 條規則。

第 12 條規則：選擇直接優化哪個目標時，不要想太多。

您想賺錢，想讓用戶滿意，想讓世界變得更美好。您關注的指標有很多，而且您應該對所有這些指標進行測量（請參閱第 2 條規則）。不過，在早期的機器學習過程中，您會發現這些指標都呈上升趨勢，甚至那些您沒有選擇直接優化的指標也是如此。例如，假設您關注點擊次數和用戶在網站上停留的時間。如果您優化點擊次數，則用戶在網站上停留的時間很可能也會增加。

所以，當您仍然可以輕松增加所有指標時，保持簡單，不要過多考慮如何在不同的指標間實現平衡。但不要過度使用此規則：不要將您的目標與系統最終的運行狀況相混淆（請參閱第 39 條規則）。此外，如果您發現自己增大了直接優化的指標，但決定不發布系統，則可能需要修改某些目標。

第 13 條規則：為您的第一個目標選擇一個可觀察且可歸因的簡單指標。

您往往并不知道真正的目標是什么。您以為自己知道，但當您盯著數據，對舊系統和新的機器學習系統進行對比分析時，您發現自己想調整目標。此外，團隊的不同成員通常無法就什么是真正的目標達成一致意見。機器學習目標應是滿足以下條件的某種目標：易于測量且是“真正的”目標的代理。實際上，通常沒有“真正的”目標（請參閱第 39 條規則）。因此，請對簡單的機器學習目標進行訓練，并考慮在頂部添加一個“策略層”，以便您能夠添加其他邏輯（最好是非常簡單的邏輯）來進行最終排名。

要進行建模，最簡單的指標是可直接觀察到且可歸因到系統操作的用戶行為：

用戶是否點擊了此已排名鏈接？
用戶是否下載了此已排名對象？
用戶是否轉發/回復/使用電子郵件發送了此已排名對象？
用戶是否評價了此已排名對象？
用戶是否將此顯示的對象標記為了垃圾郵件/色情內容/攻擊性內容？

避免一開始對間接影響進行建模：

用戶第二天訪問網站了嗎？
用戶在網站上停留了多長時間？
每日活躍用戶數有多少？

其實，間接影響可成為出色的指標，可以在 A/B 測試和發布決策期間使用。

最后，不要試圖讓機器學習系統弄清楚以下問題：

用戶在使用產品時是否感到滿意？
用戶是否對使用體驗感到滿意？
產品是否提升了用戶的整體滿意度？
這會對公司的整體運行狀況產生什么樣的影響？

所有這些都很重要，但也極難衡量。請改為使用代理指標：如果用戶感到滿意，他們會在網站上停留更長時間。如果用戶感到滿意，他們明天會再次訪問網站。就滿意度和公司運行狀況而言，需要進行人為判斷，以便將任意機器學習目標與您銷售的產品的性質和業務計劃關聯起來。

第 14 條規則：從可解釋的模型著手可更輕松地進行調試。

線性回歸、邏輯回歸和泊松回歸均由概率模型直接推動。每個預測都可看作是一個概率或預期值。這樣一來，相較于使用目標（0-1 損失、各種合頁損失函數等）以嘗試直接優化分類準確度或對效果進行排名的模型，這種模型更易于進行調試。例如，如果在訓練中得出的概率與采用并排分析方式或通過檢查生產系統的方式預測的概率之間存在偏差，則表明存在問題。

例如，在線性回歸、邏輯回歸或泊松回歸中，有一部分平均預測期望值等于平均標簽值（一階矩校準，或只是校準）的數據。假設您沒有正則化且算法已收斂，那么理論上即是如此，實際上也是差不多這種情形。如果您有一個特征，對于每個樣本來說，其值要么是 0，要么是 1，則會校準 3 個特征值為 1 的樣本集。此外，如果您有一個特征，對于每個樣本來說，其值均為 1，則會校準所有樣本集。

借助簡單的模型，您可以更輕松地處理反饋環（請參閱第 36 條規則）。通常情況下，我們會根據這些概率預測來做出決策；例如，以期望值（點擊概率/下載概率等）為標準，按降序對帖子進行排名。 但是，請注意，當選擇要使用的模型時，您的決定比模型給出的數據概率更為重要（請參閱第 27 條規則）。

第 15 條規則：在策略層中區分垃圾內容過濾和質量排名。

質量排名是一門藝術，但垃圾內容過濾就像一場戰爭。對于使用您系統的用戶來說，您使用哪些信號來確定高質量帖子將變得顯而易見，而且這些用戶會調整自己的帖子，使其具有高質量帖子的屬性。因此，您的質量排名應側重于對誠實發布的內容進行排名。您不應該因為質量排名學習器將垃圾內容排在前列而對其應用折扣。同樣，“少兒不宜”的內容也不應該在質量排名中進行處理。 垃圾內容過濾則另當別論。您必須明白，需要生成的特征會不斷變化。通常情況下，您會在系統中設置一些明顯的規則（如果一個帖子收到三次以上的垃圾內容舉報，請勿檢索該帖子等等）。所有學習模型都必須至少每天更新。內容創作者的聲譽會發揮很大作用。

在某個層級，必須將這兩個系統的輸出整合在一起。請注意，與過濾電子郵件中的垃圾郵件相比，在過濾搜索結果中的垃圾內容時，可能應該更加主動。這種說法的前提是您沒有正則化且算法已收斂。一般來說大致是這樣。此外，從質量分類器的訓練數據中移除垃圾內容是一種標準做法。

機器學習第二階段：特征工程

在機器學習系統生命周期的第一階段，重要的問題涉及以下三個方面：將訓練數據導入學習系統、對任何感興趣的指標進行測量，以及構建應用基礎架構。當您構建了一個端到端的可穩定運行的系統，并且制定了系統測試和單元測試后，就可以進入第二階段了。

第二階段的很多目標很容易實現，且有很多明顯的特征可導入系統。因此，機器學習的第二階段涉及導入盡可能多的特征，并以直觀的方式將它們組合起來。在這一階段，所有的指標應該仍然呈上升趨勢，您將會多次發布系統，并且非常適合安排多名工程師，以便整合創建真正出色的學習系統所需的所有數據。

第 16 條規則：制定發布和迭代模型計劃。

不要指望您現在正在構建的模型會是您將要發布的最后一個模型，也不要指望您會停止發布模型。因此，請考慮此次發布中增加的復雜性是否會減緩未來版本的發布。很多團隊多年來每季度都會發布一個或多個模型。發布新模型的三個基本原因如下所示：

您將要添加新特征。
您將要調整正則化并以新方式組合舊特征。
您將要調整目標。

無論如何，構建模型時多考慮考慮并沒有什么壞處：查看提供到樣本中的數據有助于發現新信號、舊信號以及損壞的信號。因此，在構建模型時，請考慮添加、移除或重新組合特征的難易程度。考慮創建管道的全新副本以及驗證其正確性的難易程度。考慮是否可以同時運行兩個或三個副本。最后，不必擔心此版本的管道有沒有納入第 16 個特征（共 35 個），下個季度會將其納入。

第 17 條規則：從可直接觀察和報告的特征（而不是經過學習的特征）著手。

這一點可能存在爭議，但可以避免許多問題。首先，我們來介紹一下什么是學習的特征。學習的特征是由外部系統（例如非監督式集群系統）或學習器本身（例如通過因子模型或深度學習）生成的特征。這兩種方式生成的特征都非常有用，但會導致很多問題，因此不應在第一個模型中使用。

如果您使用外部系統創建特征，請注意，外部系統有其自己的目標。外部系統的目標與您當前的目標之間可能僅存在一點點關聯。如果您獲取外部系統的某個瞬間狀態，它可能就會過期。如果您從外部系統更新特征，則特征的含義可能會發生變化。如果您使用外部系統提供特征，請注意，采用這種方法需要非常小心。

因子模型和深度模型的主要問題是，它們是非凸模型。因此，無法保證能夠模擬或找到最優解決方案，且每次迭代時找到的局部最小值可能不同。這種變化導致難以判斷系統發生的某次變化的影響是有意義的還是隨機的。通過創建沒有深度特征的模型，您可以獲得出色的基準效果。達到此基準后，您可以嘗試更深奧的方法。

第 18 條規則：探索可跨情境泛化的內容的特征。

機器學習系統通常只是更大系統中的一小部分。例如，想象熱門信息中可能會使用的帖子，在其顯示到熱門信息之前，很多用戶已經對其進行 +1、轉發或評論了。如果您將這些統計信息提供給學習器，它就會對在正在優化的情景中沒有數據的新帖子進行推廣。 YouTube 的“接下來觀看”可以使用來自 YouTube 搜索的觀看次數或連看次數（觀看完一個視頻后觀看另一個視頻的次數）或明確的用戶評分來推薦內容。最后，如果您將一個用戶操作用作標簽，在其他情境中看到用戶對文檔執行該操作可以是很好的特征。借助所有這些特征，您可以向該情境中引入新內容。請注意，這與個性化無關：先弄清楚是否有人喜歡此情境中的內容，然后再弄清楚喜歡程度。

第 19 條規則：盡可能使用非常具體的特征。

對于海量數據，學習數百萬個簡單的特征比學習幾個復雜的特征更簡單。正在被檢索的文檔的標識符以及規范化的查詢不會提供很多泛化作用，但可以讓您的排名與頻率靠前的查詢的標簽保持一致。因此，請不要害怕具有以下特點的特征組：每個特征適用于您的一小部分數據但總體覆蓋率在 90％以上。您可以使用正則化來消除適用樣本過少的特征。

第 20 條規則：組合和修改現有特征，以便以簡單易懂的方式創建新特征。

有多種方式可以組合和修改特征。借助 TensorFlow 等機器學習系統，您可以通過轉換對數據進行預處理。最標準的兩種方法是“離散化”和“組合”。

“離散化”是指提取一個連續特征，并從中創建許多離散特征。以年齡這一連續特征為例。您可以創建一個年齡不滿 18 周歲時其值為 1 的特征，并創建年齡在 18-35 周歲之間時其值為 1 的另一個特征，等等。不要過多考慮這些直方圖的邊界：基本分位數給您帶來的影響最大。

“組合”方法是指組合兩個或更多特征列。在 TensorFlow 中，特征列指的是同類特征集（例如，{男性, 女性}、{美國, 加拿大, 墨西哥} 等等）。組合指的是其中包含特征的新特征列，例如，{男性, 女性} × {美國, 加拿大, 墨西哥}。此新特征列將包含特征（男性, 加拿大）。如果您使用的是 TensorFlow，并讓 TensorFlow 為您創建此組合，則此（男性, 加拿大）特征將存在于表示加拿大男性的樣本中。請注意，您需要擁有大量數據，才能使用具有三個、四個或更多基準特征列的組合學習模型。

生成非常大的特征列的組合可能會過擬合。例如，假設您正在執行某種搜索，您的某個特征列包含查詢中的字詞，另一個特征列包含文檔中的字詞。這時，您可以使用“組合”方法將這些特征列組合起來，但最終會得到很多特征（請參閱第 21 條規則）。

處理文本時，有兩種備用方法。最嚴苛的方法是點積。點積方法采用最簡單的形式時，僅會計算查詢和文檔間共有字詞的數量。然后將此特征離散化。另一種方法是交集：如果使用交集方法，當且僅當文檔和查詢中都包含“pony”一詞時，才會出現一個特征；當且僅當文檔和查詢中都包含“the”一詞時，才會出現另一個特征。

下篇參見谷歌發布機器學習規則 (Rules of Machine Learning)：關于機器學習工程的最佳實踐（下）

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

13人收藏

汪思穎

編輯

關注AI學術，例如論文

發私信

當月熱門文章

谷歌發布機器學習規則 (Rules of Machine Learning)： 關于機器學習工程的最佳實踐（上）

谷歌發布機器學習規則 (Rules of Machine Learning)：關于機器學習工程的最佳實踐（上）