久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

機器學習的入門知識點有哪些

173次閱讀
沒有評論

共計 5541 個字符,預(yù)計需要花費 14 分鐘才能閱讀完成。

本文丸趣 TV 小編為大家詳細介紹“機器學習的入門知識點有哪些”,內(nèi)容詳細,步驟清晰,細節(jié)處理妥當,希望這篇“機器學習的入門知識點有哪些”文章能幫助大家解決疑惑,下面跟著丸趣 TV 小編的思路慢慢深入,一起來學習新知識吧。

機器學習(Machine Learning,ML)是一門多領(lǐng)域交叉的學科,它涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復(fù)雜度理論等多門學科。機器學習研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學習是人工智能的一個重要分支,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域。

機器學習的定義

機器學習是相對人的學習而言。簡單來講,機器學習是研究如何使用機器來模擬人類學習活動的一門學科。

稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問。Simon 對學習的定義是:“如果一個系統(tǒng)能夠通過執(zhí)行某種過程而改進它的性能,這就是學習”。這個定義有三個要點:

第一,學習是一個過程;

第二,學習是對一個系統(tǒng)而言的;

第三,學習可以改變系統(tǒng)性能。概況起來就是過程、系統(tǒng)與改變性能。

對上述說法,第一點是自然的。第二點中的系統(tǒng)則相當復(fù)雜,一般是指一臺計算機,但是,也可以是計算系統(tǒng),甚至是包括人的人機計算系統(tǒng)。第三點則只強調(diào)“改進系統(tǒng)性能”,而未限制這種“改進”的方法。

機器學習的過程

一般來說,一個完整的機器學習系統(tǒng)應(yīng)包括環(huán)境、學習單元、知識庫、執(zhí)行單元,如圖 1 - 5 所示。計算機通過各種軟硬件從環(huán)境中感知、獲取信息,利用學習單元將信息加工為有用的知識,保存在知識庫中。使用知識指導執(zhí)行單元產(chǎn)生動作,包括決策、任務(wù)的執(zhí)行等。觀察執(zhí)行效果并反饋給學習單元。

圖 1 機器學習模型

機器學習的分類

按照訓練的數(shù)據(jù)有無標簽,可以將機器學習分為監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習,以及其他算法,如圖 2 所示。

監(jiān)督學習是利用一組已知類別的樣本訓練、調(diào)整分類器的參數(shù),使其達到所要求性能的過程,也稱為監(jiān)督訓練或有教師學習。監(jiān)督學習是從標記的訓練數(shù)據(jù)來推斷一個功能的機器學習任務(wù)。訓練數(shù)據(jù)包括一套訓練示例。在監(jiān)督學習中,每個實例都是由一個輸入對象(通常為包含多個特征的矢量)和一個期望的輸出值(也稱為監(jiān)督信號)組成。監(jiān)督學習算法分析該訓練數(shù)據(jù),并產(chǎn)生一個推斷。其可以用于映射出新的實例。一個最佳的方案將允許該算法來正確地決定那些看不見的實例的類標簽。這就要求學習算法是在一種 合理 的方式下,從一種訓練數(shù)據(jù)在看不見的情況下形成。常用的監(jiān)督學習算法有:線性回歸,邏輯回歸,決策樹,神經(jīng)網(wǎng)絡(luò),支持向量機等。

如果所有訓練數(shù)據(jù)都沒有標簽,則稱為無監(jiān)督學習。例如聚類算法,降維算法。聚類的目標是尋找一個方案,將一組樣本劃分成若干簇,使得每個簇內(nèi)的實例盡可能相似,而不同簇的元素盡可不相似。

如果訓練數(shù)據(jù)的一部分是有標簽的,另一部分沒有標簽,而沒標簽數(shù)據(jù)的數(shù)量常常極大于有標簽數(shù)據(jù)數(shù)量,這時候稱為半監(jiān)督學習。半監(jiān)督學習依據(jù)的規(guī)律是數(shù)據(jù)的分布必然不是完全隨機的,通過一些有標簽數(shù)據(jù)的局部特征,以及更多沒標簽數(shù)據(jù)的整體分布,就能得到可以接受甚至是非常好的分類結(jié)果。

此外,還有一些學習方法,不能歸為以上三種方法,例如強化學習、推薦算法、元學習等,不再一一詳述。

典型機器學習方法

目前,人們已經(jīng)提出了許多機器學習方法。這些方法在解決不同問題時能夠表現(xiàn)出比較出色的性能。比較常用、典型的機器學習方法有:回歸分析、分類(決策樹、支持向量機、神經(jīng)網(wǎng)絡(luò))、聚類(K-means)、降維、特征抽取等,如圖 3 所示。

回歸算法

回歸分析是在掌握大量觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達式,稱為回歸方程式。回歸分析中,當研究的因果關(guān)系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關(guān)系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。因此,根據(jù)自變量的個數(shù),可以是一元回歸,也可以是多元回歸。此外,還依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)表達式是線性還是非線性,分為線性回歸分析和非線性回歸分析。

決策樹

決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過遞歸地分析各個屬性的重要程度,構(gòu)成樹狀決策結(jié)構(gòu)。由于這種方法以屬性為節(jié)點、以屬性值為分支,畫成圖形很像一棵樹的枝干,故稱決策樹。在機器學習中,決策樹是一個預(yù)測模型,它代表的是對象屬性與對象值之間的一種映射關(guān)系。樹中每個節(jié)點表示某個對象,而每個分叉路徑則代表某個可能的屬性值,而每個葉結(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點所經(jīng)歷的路徑所表示的對象的值。決策樹僅有單一輸出,若要有復(fù)數(shù)輸出,可以建立獨立的決策樹以處理不同輸出。

決策樹使用信息熵(Entropy)刻畫系統(tǒng)的凌亂程度,使用某個屬性對樣本集進行分類后,樣本向有序化方向變化。計算使用該屬性分類過的樣本集信息熵,與分類前的信息熵對比,可得信息增益。信息增益代表了樣本從無序化向有序化方向變化的程度。因此,哪個屬性對樣本分類后的信息增益大,說明哪個屬性就比較重要。選取最重要的屬性作為根屬性,對其它屬性遞歸的分別計算在上次分類后的信息增益,最終可以得到從輸入到輸出的一個樹狀結(jié)構(gòu)。從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術(shù)叫做決策樹學習,通俗點說就是決策樹。決策樹是一種十分常用的分類方法。常用的決策樹算法有 ID3,C4.5,CART 等。

神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是由大量的、簡單的處理單元(稱為神經(jīng)元)廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),它反映了人腦功能的許多基本特征,是一個高度復(fù)雜的非線性動力學習系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲和處理、自組織、自適應(yīng)和自學能力,特別適合處理需要同時考慮許多因素和條件的、不精確和模糊的信息處理問題。理論上,神經(jīng)網(wǎng)絡(luò)可以充分逼近任意復(fù)雜的非線性關(guān)系。

神經(jīng)網(wǎng)絡(luò)有多個神經(jīng)元相互連接形成。網(wǎng)絡(luò)中分成輸入層、隱藏層、輸出層。輸入層負責接收信號,隱藏層負責對數(shù)據(jù)的分解與處理,最后的結(jié)果被整合到輸出層。每層中的一個節(jié)點代表一個處理單元,可以認為是模擬了一個神經(jīng)元。若干個處理單元組成了一個層,若干個層再組成了一個網(wǎng)絡(luò),也就是神經(jīng)網(wǎng)絡(luò)。在神經(jīng)網(wǎng)絡(luò)中,每個處理單元事實上就是一個邏輯回歸模型,邏輯回歸模型接收上層的輸入,把模型的預(yù)測結(jié)果作為輸出傳輸?shù)较乱粋€層次。通過這樣的過程,神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類。

目前,主要的神經(jīng)網(wǎng)絡(luò)模型有 BP 網(wǎng)絡(luò),Hopfield 網(wǎng)絡(luò),ART 網(wǎng)絡(luò)和 Kohonen 網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)已經(jīng)在自動控制、組合優(yōu)化問題、模式識別、圖像處理、信號處理、機器人控制、保健醫(yī)療、經(jīng)濟等許多領(lǐng)域得到了廣泛的應(yīng)用。

支持向量機 SVM(Support Vector Machine)

在分類問題中,數(shù)據(jù)點是 n 維實空間中的點。分類的目標是希望能夠把這些點通過一個 n - 1 維的超平面分開。通常這個被稱為線性分類器。有很多分類器都符合這個要求。但是人們還希望找到分類最佳的平面,即使得屬于兩個不同類的數(shù)據(jù)點間隔最大的那個面,該面亦稱為最大間隔超平面。如果能夠找到這個面,那么這個分類器就稱為最大間隔分類器。

SVM 正是這樣一種努力最小化結(jié)構(gòu)風險的算法。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。建立方向合適的分隔超平面使兩個與之平行的超平面間的距離最大化。其假定為,平行超平面間的距離或差距越大,分類器的總誤差越小,從而實現(xiàn)結(jié)構(gòu)風險最小的目的。所謂支持向量是指那些在間隔區(qū)邊緣的訓練樣本點。

SVM 的關(guān)鍵在于核函數(shù)。低維空間向量集通常難于劃分,解決的方法是將它們映射到高維空間。但這個辦法帶來的困難就是計算復(fù)雜度的增加,而核函數(shù)正好巧妙地解決了這個問題。它雖然將問題映射到高維空間,但是依然在低維空間進行計算。只要選用適當?shù)暮撕瘮?shù),就可以得到高維空間的分類函數(shù),卻不增加計算的復(fù)雜度。在 SVM 理論中,采用不同的核函數(shù)將導致不同的 SVM 算法。常用的核函數(shù)有線性核、多項式核、高斯核、拉普拉斯核、Sigmoid 核。

聚類算法

如果訓練數(shù)據(jù)都沒有類標簽,也就是說,不知道樣本屬于哪個類,可以通過訓練,推測出這些數(shù)據(jù)的標簽。這類算法即無監(jiān)督算法。無監(jiān)督算法中最典型的代表就是聚類算法。

簡單來說,聚類算法計算種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群。每個簇內(nèi)的樣本距離盡量的小,而不同簇的元素間距離盡量的大。聚類算法中最典型的代表是 K -Means 算法。

K 均值聚類算法的基本思想是:隨機選取 K 個對象作為初始的聚類中心;然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。一旦全部對象都被分配了,每個聚類的聚類中心會根據(jù)聚類中現(xiàn)有的對象被重新計算。這個過程將不斷重復(fù)直到滿足某個終止條件。終止條件可以是沒有(或最小數(shù)目)對象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中心再發(fā)生變化,誤差平方和局部最小。

其它聚類方法還有均值漂移聚類、基于密度的聚類方法、用高斯混合模型(GMM)的最大期望(EM)聚類、凝聚層次聚類等。

降維算法

降維算法也是一種無監(jiān)督學習算法,其主要特點是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實表示的是數(shù)據(jù)的特征量的大小。降維算法的主要作用是壓縮數(shù)據(jù)與提升機器學習其他算法的效率。通過降維算法,可以將具有幾千個特征的數(shù)據(jù)壓縮至若干個特征。另外,降維算法的另一個好處是數(shù)據(jù)的可視化,例如,將 5 維的數(shù)據(jù)壓縮至 2 維,然后可以用 2 維平面來可視化觀察。降維算法的主要代表是 PCA 算法(即主成分分析算法)。

深度學習

深度學習是機器學習研究中的一個新的領(lǐng)域,其動機在于建立、模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機制來解釋圖像、聲音、文本等數(shù)據(jù)。深度學習的概念源自對人工神經(jīng)網(wǎng)絡(luò)的研究。含多個隱層的多層感知器就是一種深度學習結(jié)構(gòu)。它通過組合低層特征,形成更加抽象的高層,表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

2006 年,Hinton 等人提出了深度學習的概念,為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來希望,隨后提出多層自動編碼器深層結(jié)構(gòu)。此外,Lecun 等人提出卷積神經(jīng)網(wǎng)絡(luò),它是第一個真正的多層結(jié)構(gòu)學習算法,它利用空間相對關(guān)系來減少參數(shù)數(shù)目以提高訓練性能。

同機器學習方法一樣,深度機器學習方法也有監(jiān)督學習與無監(jiān)督學習之分.不同的學習框架下建立的學習模型很是不同。例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱 CNNs)就是一種深度的監(jiān)督學習下的機器學習模型,而深度置信網(wǎng)(Deep Belief Nets,簡稱 DBNs)就是一種無監(jiān)督學習下的機器學習模型。機器學習的一般步驟 一般來說,機器學習可以分為 4 個步驟,即分析和定義問題,數(shù)據(jù)預(yù)處理,模型(算法)選擇、模型訓練、評價和優(yōu)化,模型部署應(yīng)用,如圖 4 所示。 

分析和定義問題

分析和定義問題即根據(jù)面對的實際問題,分析問題的目標、性質(zhì)和類型,明確是分類問題、聚類問題、回歸問題,還是其他類型的問題。數(shù)據(jù)預(yù)處理

所有的機器學習算法都是建立在數(shù)據(jù)的基礎(chǔ)之上的。在進入模型訓練之前,必須要進行數(shù)據(jù)預(yù)處理。

首先是收集數(shù)據(jù)的過程,如讀取數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)文件,使用網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)等。

之后是進行數(shù)據(jù)清洗,包括數(shù)據(jù)格式的轉(zhuǎn)化,將數(shù)據(jù)轉(zhuǎn)換成算法所能處理的形式;處理噪聲數(shù)據(jù)、缺失值;數(shù)據(jù)的采樣(有可能并不需要這么多的數(shù)據(jù));數(shù)據(jù)的等價轉(zhuǎn)換,包括統(tǒng)一數(shù)據(jù)的度量(這在距離計算時非常重要)、零均值化、標準化、屬性的分解以及合并等。

有時還需要對數(shù)據(jù)進行初步分析,以對數(shù)據(jù)有一些初步了解。如果是有標簽的數(shù)據(jù),可以弄清楚類別的分布,這樣可以知道模型分類時準確率的下限。還可以做的更多的一點是,獲取屬性間的關(guān)聯(lián)性。如果有關(guān)聯(lián)的話,關(guān)聯(lián)度有多大。這樣有助于去除一些冗余屬性,進行數(shù)據(jù)的降維,以及知道哪些屬性對結(jié)果的影響比較大,以進行權(quán)值選擇。還經(jīng)常需要對數(shù)據(jù)進行可視化操作,以初步判斷數(shù)據(jù)的特征、分布、關(guān)聯(lián)性,如柱狀圖、散點圖、箱型圖等。柱狀圖是描述出每一維度的值與其類標簽之間的關(guān)系,也可以從圖形中看出每一維的數(shù)據(jù)是服從何種分布的。對每兩組屬性畫出其散點圖,這樣可以較為容易地看出屬性之間的關(guān)聯(lián)性。

算法選擇、模型訓練、評價和優(yōu)化

對于一個具體的問題,有時有很多種算法可以求解,那么是不是需要對每一種方法都進行一次嘗試呢?并不需要,因為那樣太費時間,而且并不是所有的算法都能有效。抽查就是對多個算法進行快速驗證,以決定對哪一個算法進行進一步的訓練。

在進行算法的抽查時,并不需要使用數(shù)據(jù)集中的所有數(shù)據(jù)進行訓練,只需要使用較小的一部分。在選擇完算法之后,再使用所有數(shù)據(jù)進行進一步的訓練。可以使用交叉驗證的方法來進行該過程。

在進行算法抽查時,處于候選集中的算法的種類越多越好,這樣才能測試出哪種類型的算法更能學習到數(shù)據(jù)中的結(jié)構(gòu)。在選擇完算法之后,并不一定直接使用該算法進行進一步的學習,可能會使用基于該算法的改進版本。

在該部分中,還有很重要的一塊內(nèi)容就是訓練集、測試集的劃分,結(jié)果衡量標準的選擇,以及結(jié)果的可信度。

模型部署應(yīng)用

當訓練的模型能夠較好地解決一個問題的時候,將其與實際的系統(tǒng)或產(chǎn)品相結(jié)合,用于預(yù)測、指導生產(chǎn)生活中的各類實際問題。

讀到這里,這篇“機器學習的入門知識點有哪些”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領(lǐng)會,如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注丸趣 TV 行業(yè)資訊頻道。

正文完
 
丸趣
版權(quán)聲明:本站原創(chuàng)文章,由 丸趣 2023-08-03發(fā)表,共計5541字。
轉(zhuǎn)載說明:除特殊說明外本站除技術(shù)相關(guān)以外文章皆由網(wǎng)絡(luò)搜集發(fā)布,轉(zhuǎn)載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 和林格尔县| 板桥市| 拉萨市| 呼图壁县| 常熟市| 安义县| 皋兰县| 荔浦县| 襄樊市| 郸城县| 分宜县| 小金县| 梁平县| 屏山县| 岳阳市| 阿坝县| 洞口县| 慈利县| 额济纳旗| 余姚市| 郸城县| 特克斯县| 上饶县| 蓬溪县| 永安市| 原平市| 遵义县| 定西市| 密山市| 金溪县| 连云港市| 兴安盟| 靖江市| 安阳市| 丰镇市| 滕州市| 宁明县| 梅州市| 朝阳县| 广昌县| 福州市|