欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

什么是監(jiān)督學(xué)習(xí)

01 什么是監(jiān)督學(xué)習(xí)

要進(jìn)行監(jiān)督學(xué)習(xí),我們需要從一組樣本數(shù)據(jù)開始,每個樣本都帶有計算機(jī)可以學(xué)習(xí)的標(biāo)簽。比如:

如你所見,樣本可以是許多不同的東西:數(shù)據(jù)、文本、聲音、視頻等。另外,標(biāo)簽可以是數(shù)值,也可以是類型。數(shù)值標(biāo)簽只是一個數(shù)值,就像溫度–檸檬水轉(zhuǎn)換器一樣。類型標(biāo)簽表示預(yù)先定義的集合中的某個類別,比如在犬種檢測器的例子中。

使用一些想象力,你可以想出許多其他例子來預(yù)測一些事物,根據(jù)數(shù)值亦或類型的標(biāo)簽來預(yù)測其他事物。

我們假設(shè)已經(jīng)收集了一些標(biāo)記過的樣本。現(xiàn)在可以進(jìn)行監(jiān)督學(xué)習(xí)的兩個階段:

階段1:訓(xùn)練階段

我們將帶有標(biāo)簽的樣本提供給一個用于發(fā)現(xiàn)模式的算法。比如,該算法可能會注意到,所有的肺炎掃描圖片都具有某些共同的特征(可能是某些不透明的區(qū)域),而這些特征在非肺炎掃描圖片中是沒有的。這個階段稱為訓(xùn)練階段,因?yàn)樗惴〞槐橛忠槐榈赜^看樣本數(shù)據(jù),并學(xué)習(xí)識別這些模式。

階段2:預(yù)測階段

現(xiàn)在算法已經(jīng)知道了肺炎的樣子,于是切換到預(yù)測階段。我們可以在這個階段收獲訓(xùn)練工作的成果。向訓(xùn)練過的算法展示未被標(biāo)注的X光掃描圖片,算法會告訴我們它是否具有肺炎特征。

這里還有關(guān)于監(jiān)督學(xué)習(xí)的另一個例子——一種可以識別動物類型的系統(tǒng)。每個輸入數(shù)據(jù)是一張關(guān)于某種動物的圖片,每個樣本的標(biāo)簽是圖片中動物的物種。在訓(xùn)練階段,我們向算法展示帶標(biāo)簽的圖像。在預(yù)測階段,我們向算法展示一張未被標(biāo)注的不帶標(biāo)簽的圖像,要求算法對該圖像的標(biāo)簽進(jìn)行猜測。

前面已經(jīng)說過,計算機(jī)程序可以在機(jī)器學(xué)習(xí)的過程中“算出”數(shù)據(jù)。監(jiān)督學(xué)習(xí)就是這種過程的一個例子。在傳統(tǒng)的編程過程中,可以編寫一個程序讓計算機(jī)由輸入算出輸出;在監(jiān)督學(xué)習(xí)中,只要給出程序輸入和輸出的樣本數(shù)據(jù),計算機(jī)就能自己學(xué)會怎樣從一個輸入算出一個輸出。

既然你已經(jīng)閱讀了關(guān)于監(jiān)督學(xué)習(xí)的一種高屋建瓴的解釋,那么可能會有比初學(xué)時更多的問題。我們說過,監(jiān)督學(xué)習(xí)程序在樣本數(shù)據(jù)中“注意共同的特征”,并“發(fā)現(xiàn)模式”—但它是怎樣做到的呢?讓我們從一個抽象的層次開始,看看這個魔法是怎樣實(shí)現(xiàn)的。

02 魔法背后的數(shù)學(xué)原理

監(jiān)督學(xué)習(xí)系統(tǒng)使用函數(shù)擬合這一數(shù)學(xué)概念來理解樣本數(shù)據(jù)與其標(biāo)簽之間的關(guān)系。下面我們結(jié)合具體實(shí)例來介紹這個數(shù)學(xué)概念的基本原理。

想象一下,你家屋頂上有一塊太陽能板。你就像是一個監(jiān)督學(xué)習(xí)系統(tǒng)一樣,學(xué)習(xí)太陽能板怎樣產(chǎn)生能量,并預(yù)測在未來某個時間段內(nèi)產(chǎn)生能量的大小。

預(yù)測太陽能板的能量輸出需要時間、天氣等變量。時間應(yīng)該是一個重要變量,所以你決定致力于時間這個變量。對于真正的監(jiān)督學(xué)習(xí)過程,你應(yīng)該從收集每天不同時段太陽能板所產(chǎn)生能量大小的樣本數(shù)據(jù)開始。經(jīng)過幾周時間的隨機(jī)取樣之后,你得到了如下數(shù)據(jù)列表:

上表中的每一行都是包羅輸入變量(時間)與標(biāo)簽(產(chǎn)生的能量值)的樣本數(shù)據(jù),就像那個識別動物的系統(tǒng)一樣,動物圖片是輸入,動物名稱是標(biāo)簽。

假如你將這些樣本數(shù)據(jù)繪成一幅圖表,那么就能很形象地看到時間與太陽能板產(chǎn)能值之間的關(guān)系:

我們一看就知道,太陽能板不會在夜間產(chǎn)生能量,并且能量值在中午的時間達(dá)到了頂峰。如下圖所示,雖說監(jiān)督學(xué)習(xí)系統(tǒng)沒有人腦那樣機(jī)敏,不過它能夠?qū)颖緮?shù)據(jù)近似擬合成某個函數(shù),由此實(shí)現(xiàn)對數(shù)據(jù)的理解。

尋找與樣本數(shù)據(jù)比較接近的擬合函數(shù)并不是一件容易的事情。不過,隨后的預(yù)測階段就要簡單得多。系統(tǒng)會忘記所有的樣本信息,并使用找到的擬合函數(shù)來預(yù)測太陽能板在未來某個時間所產(chǎn)生的能量,比如在正午時產(chǎn)生的能量如下圖所示:

這就是我所說的監(jiān)督學(xué)習(xí)通過函數(shù)擬合的方式實(shí)現(xiàn)算法功能。監(jiān)督學(xué)習(xí)系統(tǒng)接收的實(shí)際樣本數(shù)據(jù)通常是混亂且不完整的。在數(shù)據(jù)訓(xùn)練階段,我們通常需要構(gòu)造一個比較簡單的函數(shù)來近似擬合比較復(fù)雜的實(shí)際數(shù)據(jù)。在預(yù)測階段,則使用所構(gòu)造的擬合函數(shù)實(shí)現(xiàn)對未知數(shù)據(jù)的預(yù)測。

作為一名程序員,你已經(jīng)習(xí)慣于考慮許多有可能出錯的情形。故此,你可能已經(jīng)在考慮將樣本數(shù)據(jù)的處理復(fù)雜化的方法。比如,太陽能電池板的能量輸出除了與時間有關(guān)之外,還會受到其他因素的影響,譬如云層或月份的影響。

假如收集了所有這些變量的數(shù)據(jù),那么我們將會得到一個多維的點(diǎn)云,將無法使用一個簡單的圖表對這些點(diǎn)云數(shù)據(jù)進(jìn)行可視化表示。同樣,對于太陽能電池板,我們需要預(yù)測的是數(shù)值標(biāo)簽。你可能想知道怎樣將這種數(shù)值標(biāo)簽轉(zhuǎn)換成非數(shù)值標(biāo)簽(如動物的名稱),即類別標(biāo)簽。

你現(xiàn)在只需要知道一點(diǎn):不管你在上面疊加了多少復(fù)雜的東西,監(jiān)督學(xué)習(xí)的基本思想就和我們剛才所描述的一樣——找一堆樣本數(shù)據(jù),再找到一個可以近似擬合這些樣本數(shù)據(jù)的函數(shù)。

現(xiàn)代監(jiān)督學(xué)習(xí)系統(tǒng)非常擅長這種擬合工作。事實(shí)上,這種擬合功能可以強(qiáng)大到足以擬合出極其復(fù)雜的函數(shù)關(guān)系——比如X光掃描圖片和診斷結(jié)論之間的關(guān)系。當(dāng)然,用于擬合這些對應(yīng)關(guān)系的函數(shù)對于我們?nèi)祟惗詴欠浅?fù)雜的。然而,對于計算機(jī)系統(tǒng)而言則是小菜一碟。

猜你喜歡