幾個月前,我在悉尼參加了一個會議。會上fast.ai向我介紹了一門在線機器學習課程,那時候我根本沒注意。這周在Kaggle競賽尋找提高分數(shù)的方法時,我又遇到了這門課程。我決定試一試。
這是我從第一堂課中學到的東西,這是一個1小時17分鐘的視頻,介紹了隨機森林。
課的主題是隨機森林,杰里米(講師)提供了一些基本信息以及使用Jupyter Notebook的提示和技巧。
Jeremy談到的一些重要的事情是,數(shù)據(jù)科學并不等同于軟件工程。在數(shù)據(jù)科學中,我們做的是設計模型。雖然軟件工程有自己的一套實踐,但數(shù)據(jù)科學也有自己的一套最佳實踐。
模型構(gòu)建和原型設計需要一個交互的環(huán)境,是一個迭代的過程。我們建立一個模型。然后,我們采取措施來改善它。重復直到我們對結(jié)果滿意為止。
隨機森林
我聽說過“隨機森林”這個詞,我知道它是現(xiàn)有的機器學習技術(shù)之一,但是老實說,我從來沒有想過要去了解它。我一直熱衷于更多地了解深度學習技術(shù)。
從這次演講中,我了解到隨機森林確實很棒。
它就像一個通用的機器學習技術(shù),既可以用于回歸,也可以用于分類。這意味著你可以使用隨機森林來預測股票價格以及對給定的醫(yī)療數(shù)據(jù)樣本進行分類。
一般來說,隨機森林模型不會過擬合,即使它會,它也很容易防止過擬合。
對于隨機森林模型,不需要單獨的驗證集。
隨機森林只有一些統(tǒng)計假設。它也不假設你的數(shù)據(jù)是正態(tài)分布的,也不假設這些關(guān)系是線性的。
它只需要很少的特征工程。
因此,如果你是機器學習的新手,它可以是一個很好的起點。
其他概念
維數(shù)詛咒是一個概念,意思是你擁有的數(shù)據(jù)特征越多,數(shù)據(jù)點就會越分散。這意味著兩點之間的距離沒有意義。
Jeremy確信,在實踐中,情況并非如此,事實上,你的數(shù)據(jù)擁有的特征越多,對模型的訓練效果就越好。
沒有免費午餐定理是這樣一個概念:沒有一個模型可以完美地適用于任何類型的數(shù)據(jù)。
技巧和竅門
1.你可以在Jupyter Notebook中使用!來執(zhí)行bash命令,例如。
2.在Python 3.6中追加字符串的新方法。
3.不需要離開Jupyter notebook就可以查看python函數(shù)。在函數(shù)名前使用?獲取它的文檔。
4.如果你想閱讀源代碼,可以使用??在函數(shù)名稱前。
5.通過使用tofeather方法保存處理過的數(shù)據(jù)集,將數(shù)據(jù)集以存儲在RAM中的相同格式保存到磁盤??梢允褂胷eadfeather方法從保存的文件中讀取數(shù)據(jù)。注意,為了使用這些方法,你需要安feather-format庫。
-
機器學習
+關(guān)注
關(guān)注
67文章
8565瀏覽量
137226 -
隨機森林
+關(guān)注
關(guān)注
1文章
22瀏覽量
4449
發(fā)布評論請先 登錄
機器學習中的數(shù)據(jù)質(zhì)量雙保障:從“驗證”到“標記”
算法工程師需要具備哪些技能?
如何在LTspice仿真中實現(xiàn)偽隨機數(shù)和真隨機數(shù)的生成
機器學習和深度學習中需避免的 7 個常見錯誤與局限性
英卡電子 | 第八屆全國森林消防和應急救援裝備展邀請函
針對AES算法的安全防護設計
國密系列算法簡介及SM4算法原理介紹
量子機器學習入門:三種數(shù)據(jù)編碼方法對比與應用
永銘超級電容SLM系列賦能森林防火監(jiān)控系統(tǒng),凸顯關(guān)鍵電容優(yōu)勢
真隨機數(shù)和偽隨機數(shù)的區(qū)別
AI 驅(qū)動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用
機器學習的隨機森林算法簡介
評論