深度學習 - MBA智库百科

2024-11-17

文章推薦指數： 80 %

投票人數：10人

深度學習（Deep Learning，DL）深度學習是指多層的人工神經網路和訓練它的方法。

一層神經網路會把大量矩陣數字作為輸入，通過非線性激活方法取權重，再產生另一個數據 ... 深度學習用手机看条目扫一扫，手机看条目出自MBA智库百科(https://wiki.mbalib.com/) 深度學習（DeepLearning，DL）目錄 1什麼是深度學習 2深度學習的基本思想 3深度學習和淺層學習 4深度學習與神經網路 5深度學習的訓練過程 6相關條目 7參考文獻 [編輯]什麼是深度學習　　深度學習是指多層的人工神經網路和訓練它的方法。

一層神經網路會把大量矩陣數字作為輸入，通過非線性激活方法取權重，再產生另一個數據集合作為輸出。

這就像生物神經大腦的工作機理一樣，通過合適的矩陣數量，多層組織鏈接一起，形成神經網路“大腦”進行精準複雜的處理，就像人們識別物體標註圖片一樣。

　　深度學習是從機器學習中的人工神經網路發展出來的新領域。

早期所謂的“深度”是指超過一層的神經網路。

但隨著深度學習的快速發展，其內涵已經超出了傳統的多層神經網路，甚至機器學習的範疇，逐漸朝著人工智慧的方向快速發展。

[編輯]深度學習的基本思想　　假設我們有一個系統S，它有n層（S1,…Sn），它的輸入是I，輸出是O，形象地表示為：I=>S1=>S2=>…..=>Sn=>O，如果輸出O等於輸入I，即輸入I經過這個系統變化之後沒有任何的信息損失，保持了不變，這意味著輸入I經過每一層Si都沒有任何的信息損失，即在任何一層Si，它都是原有信息（即輸入I）的另外一種表示。

現在回到我們的主題DeepLearning，我們需要自動地學習特征，假設我們有一堆輸入I（如一堆圖像或者文本），假設我們設計了一個系統S（有n層），我們通過調整系統中參數，使得它的輸出仍然是輸入I，那麼我們就可以自動地獲取得到輸入I的一系列層次特征，即S1，…,Sn。

　　對於深度學習來說，其思想就是對堆疊多個層，也就是說這一層的輸出作為下一層的輸入。

通過這種方式，就可以實現對輸入信息進行分級表達了。

　　另外，前面是假設輸出嚴格地等於輸入，這個限制太嚴格，我們可以略微地放鬆這個限制，例如我們只要使得輸入與輸出的差別儘可能地小即可，這個放鬆會導致另外一類不同的DeepLearning方法。

上述就是DeepLearning的基本思想。

[編輯]深度學習和淺層學習　　淺層學習是機器學習的第一次浪潮。

　　20世紀80年代末期，用於人工神經網路的反向傳播演算法（也叫BackPropagation演算法或者BP演算法）的發明，給機器學習帶來了希望，掀起了基於統計模型的機器學習熱潮。

這個熱潮一直持續到今天。

人們發現，利用BP演算法可以讓一個人工神經網路模型從大量訓練樣本中學習統計規律，從而對未知事件做預測。

這種基於統計的機器學習方法比起過去基於人工規則的系統，在很多方面顯出優越性。

這個時候的人工神經網路，雖也被稱作多層感知機（Multi-layerPerceptron），但實際是種只含有一層隱層節點的淺層模型。

　　20世紀90年代，各種各樣的淺層機器學習模型相繼被提出，例如支撐向量機（SVM，SupportVectorMachines）、Boosting、最大熵方法（如LR，LogisticRegression）等。

這些模型的結構基本上可以看成帶有一層隱層節點（如SVM、Boosting），或沒有隱層節點（如LR）。

這些模型無論是在理論分析還是應用中都獲得了巨大的成功。

相比之下，由於理論分析的難度大，訓練方法又需要很多經驗和技巧，這個時期淺層人工神經網路反而相對沉寂。

　　深度學習是機器學習的第二次浪潮。

　　2006年，加拿大多倫多大學教授、機器學習領域的泰斗GeoffreyHinton和他的學生RuslanSalakhutdinov在《科學》上發表了一篇文章，開啟了深度學習在學術界和工業界的浪潮。

這篇文章有兩個主要觀點：1）多隱層的人工神經網路具有優異的特征學習能力，學習得到的特征對數據有更本質的刻畫，從而有利於可視化或分類；2）深度神經網路在訓練上的難度，可以通過“逐層初始化”（layer-wisepre-training）來有效剋服，在這篇文章中，逐層初始化是通過無監督學習實現的。

　　當前多數分類、回歸等學習方法為淺層結構演算法，其局限性在於有限樣本和計算單元情況下對複雜函數的表示能力有限，針對複雜分類問題其泛化能力受到一定製約。

深度學習可通過學習一種深層非線性網路結構，實現複雜函數逼近，表徵輸入數據分散式表示，並展現了強大的從少數樣本集中學習數據集本質特征的能力。

（多層的好處是可以用較少的參數表示覆雜的函數）　　深度學習的實質，是通過構建具有很多隱層的機器學習模型和海量的訓練數據，來學習更有用的特征，從而最終提升分類或預測的準確性。

因此，“深度模型”是手段，“特征學習”是目的。

區別於傳統的淺層學習，深度學習的不同在於：1）強調了模型結構的深度，通常有5層、6層，甚至10多層的隱層節點；2）明確突出了特征學習的重要性，也就是說，通過逐層特征變換，將樣本在原空間的特征表示變換到一個新特征空間，從而使分類或預測更加容易。

與人工規則構造特征的方法相比，利用大數據來學習特征，更能夠刻畫數據的豐富內在信息。

[編輯]深度學習與神經網路　　深度學習是機器學習研究中的一個新的領域，其動機在於建立、模擬人腦進行分析學習的神經網路，它模仿人腦的機制來解釋數據，例如圖像，聲音和文本。

深度學習是無監督學習的一種。

　　深度學習的概念源於人工神經網路的研究。

含多隱層的多層感知器就是一種深度學習結構。

深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征，以發現數據的分散式特征表示。

　　Deeplearning本身算是machinelearning的一個分支，簡單可以理解為neuralnetwork的發展。

大約二三十年前，neuralnetwork曾經是ML領域特別火熱的一個方向，但是後來確慢慢淡出了，原因包括以下幾個方面：　　1）比較容易過擬合，參數比較難tune，而且需要不少trick；　　2）訓練速度比較慢，在層次比較少（小於等於3）的情況下效果並不比其它方法更優；　　所以中間有大約20多年的時間，神經網路被關註很少，這段時間基本上是SVM和boosting演算法的天下。

但是，一個痴心的老先生Hinton，他堅持了下來，並最終（和其它人一起Bengio、Yann.lecun等）提成了一個實際可行的deeplearning框架。

　　Deeplearning與傳統的神經網路之間有相同的地方也有很多不同。

　　二者的相同在於deeplearning採用了神經網路相似的分層結構，系統由包括輸入層、隱層（多層）、輸出層組成的多層網路，只有相鄰層節點之間有連接，同一層以及跨層節點之間相互無連接，每一層可以看作是一個logisticregression模型；這種分層結構，是比較接近人類大腦的結構的。

　　而為了剋服神經網路訓練中的問題，DL採用了與神經網路很不同的訓練機制。

傳統神經網路中，採用的是backpropagation的方式進行，簡單來講就是採用迭代的演算法來訓練整個網路，隨機設定初值，計算當前網路的輸出，然後根據當前輸出和label之間的差去改變前面各層的參數，直到收斂（整體是一個梯度下降法）。

而deeplearning整體上是一個layer-wise的訓練機制。

這樣做的原因是因為，如果採用backpropagation的機制，對於一個deepnetwork（7層以上），殘差傳播到最前面的層已經變得太小，出現所謂的gradientdiffusion（梯度擴散）。

[編輯]深度學習的訓練過程　　如果對所有層同時訓練，時間複雜度會太高；如果每次訓練一層，偏差就會逐層傳遞。

這會面臨跟上面監督學習中相反的問題，會嚴重欠擬合（因為深度網路的神經元和參數太多了）。

　　2006年，hinton提出了在非監督數據上建立多層神經網路的一個有效方法，簡單的說，分為兩步，一是每次訓練一層網路，二是調優，使原始表示x向上生成的高級表示r和該高級表示r向下生成的x'儘可能一致。

方法是：　　1）首先逐層構建單層神經元，這樣每次都是訓練一個單層網路。

　　2）當所有層訓練完後，Hinton使用wake-sleep演算法進行調優。

　　將除最頂層的其它層間的權重變為雙向的，這樣最頂層仍然是一個單層神經網路，而其它層則變為了圖模型。

向上的權重用於“認知”，向下的權重用於“生成”。

然後使用Wake-Sleep演算法調整所有的權重。

讓認知和生成達成一致，也就是保證生成的最頂層表示能夠儘可能正確的複原底層的結點。

比如頂層的一個結點表示人臉，那麼所有人臉的圖像應該激活這個結點，並且這個結果向下生成的圖像應該能夠表現為一個大概的人臉圖像。

Wake-Sleep演算法分為醒（wake）和睡（sleep）兩個部分。

　　1）wake階段：認知過程，通過外界的特征和向上的權重（認知權重）產生每一層的抽象表示（結點狀態），並且使用梯度下降修改層間的下行權重（生成權重）。

也就是“如果現實跟我想象的不一樣，改變我的權重使得我想象的東西就是這樣的”。

　　2）sleep階段：生成過程，通過頂層表示（醒時學得的概念）和向下權重，生成底層的狀態，同時修改層間向上的權重。

也就是“如果夢中的景象不是我腦中的相應概念，改變我的認知權重使得這種景象在我看來就是這個概念”。

　　deeplearning訓練過程具體如下：　　1）使用自下上升非監督學習（就是從底層開始，一層一層的往頂層訓練）：　　採用無標定數據（有標定數據也可）分層訓練各層參數，這一步可以看作是一個無監督訓練過程，是和傳統神經網路區別最大的部分（這個過程可以看作是featurelearning過程）：　　具體的，先用無標定數據訓練第一層，訓練時先學習第一層的參數（這一層可以看作是得到一個使得輸出和輸入差別最小的三層神經網路的隱層），由於模型capacity的限制以及稀疏性約束，使得得到的模型能夠學習到數據本身的結構，從而得到比輸入更具有表示能力的特征；在學習得到第n-1層後，將n-1層的輸出作為第n層的輸入，訓練第n層，由此分別得到各層的參數；　　2）自頂向下的監督學習（就是通過帶標簽的數據去訓練，誤差自頂向下傳輸，對網路進行微調）：　　基於第一步得到的各層參數進一步fine-tune整個多層模型的參數，這一步是一個有監督訓練過程；第一步類似神經網路的隨機初始化初值過程，由於DL的第一步不是隨機初始化，而是通過學習輸入數據的結構得到的，因而這個初值更接近全局最優，從而能夠取得更好的效果；所以deeplearning效果好很大程度上歸功於第一步的featurelearning過程。

[編輯]相關條目人工智慧 [編輯]參考文獻 Zouxy.DeepLearning（深度學習）學習筆記整理系列取自"https://wiki.mbalib.com/zh-tw/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0" 本條目對我有幫助13 赏 MBA智库APP 扫一扫，下载MBA智库APP 分享到：下载MBA智库，阅读全文温馨提示复制该内容请前往MBA智库App 立即前往App 如果您認為本條目還有待完善，需要補充新內容或修改錯誤內容，請編輯條目或投訴舉報。

本條目相關文檔知行合一：從深度學習到深度增強學習36頁知行合一：從深度學習到深度增強學習36頁百度深度學習61頁經典深度學習136頁基於集成學習和深度學習的應用研究5頁深度學習研究報告之四：趨勢策略的深度學習增強24頁語音識別與深度學習57頁深度學習與認知計算3頁深度學習入門講座40頁深度學習的昨天、今天和明天7頁更多相關文檔本条目相关课程本条目由以下用户参与贡献 Mis铭. 頁面分類:電腦評論(共0條)提示:評論內容為網友針對條目"深度學習"展開的討論，與本站觀點立場無關。

發表評論請文明上網，理性發言並遵守有關規定。

导航首页文档百科课堂商学院资讯国际MBA 商城企业服务個人工具用戶登錄創建新帳號打开APP 搜索全球专业中文经管百科，由121,994位网友共同编写而成，共计432,255个条目首页管理营销经济金融人力资源咨询财务品牌证券物流贸易商学院法律人物分类索引查看條目討論編輯收藏简体中文繁体中文工具▼ 鏈入頁面鏈出更改上載文件特殊頁面可列印版永久链接導航最新資訊最新评论最新推荐热门推荐编辑实验使用帮助创建条目随便看看 INTJ鈍感力德國巴斯夫集團成吉思汗《極簡學習法》INFP馬斯洛人類需求五層次理論ISTP（人格特質理論）柳青影響世界的100個經典管理定律奶頭樂理論蘑菇管理定律猴子管理法則情緒ABC理論100個最流行的管理辭彙垃圾人定律21天效應破窗效應SWOT分析模型墨菲定律以上内容根据网友推荐自动排序生成最後更改17:14,2016年3月9日. 智库首页- 百科首页- 关于百科- 客户端- 人才招聘- 广告合作- 权利通知- 联系我们- 免责声明 -友情链接 ©2022MBAlib.com,Allrightsreserved. 闽公网安备35020302032707号问题分类类型反馈内容添加图片(选填)0/9 联系方式取消提交提交成功反馈结果请前往MBA智库App查看（我的>帮助与反馈>我的反馈）知道了