少樣本學習是指使用非常少量的訓練數(shù)據(jù)來開發(fā)人工智能模型的各種算法和技術(shù)。少樣本學習努力讓 AI 模型在接觸相對較少的訓練實例后識別和分類新數(shù)據(jù)。Few-shot訓練與訓練機器學習模型的傳統(tǒng)方法形成對比,傳統(tǒng)方法通常使用大量訓練數(shù)據(jù)。少鏡頭學習主要用于計算機視覺。
為了對小樣本學習有更好的直覺,讓我們更詳細地研究一下這個概念。我們將研究小樣本學習背后的動機和概念,探索一些不同類型的小樣本學習,并在高層次上介紹小樣本學習中使用的一些模型。最后,我們將研究一些小樣本學習的應(yīng)用。
什么是少量學習?
“Few-shot learning”描述了用最少的數(shù)據(jù)訓練機器學習模型的實踐。通常,機器學習模型是在大量數(shù)據(jù)上訓練的,越大越好。然而,由于幾個不同的原因,few-shot learning是一個重要的機器學習概念。
使用少樣本學習的一個原因是它可以顯著減少訓練機器學習模型所需的數(shù)據(jù)量,從而減少標記大型數(shù)據(jù)集所需的時間。同樣,在使用通用數(shù)據(jù)集創(chuàng)建不同樣本時,少樣本學習減少了為各種任務(wù)添加特定特征的需要。少樣本學習可以理想地使模型更健壯,并且能夠基于更少的數(shù)據(jù)識別對象,從而創(chuàng)建更通用的模型,而不是標準的高度專業(yè)化模型。
少樣本學習最常用于計算機視覺領(lǐng)域,因為計算機視覺問題的性質(zhì)需要大量數(shù)據(jù)或靈活的模型。
子類別
短語“few-shot”學習實際上只是一種使用很少訓練示例的學習。由于您只使用“少數(shù)”訓練示例,因此有一些小樣本學習的子類別也涉及使用最少數(shù)據(jù)量的訓練。“一次性”學習是另一種類型的模型訓練,包括教模型在看到該對象的一張圖像后識別該對象。one-shot 學習和few-shot 學習中使用的一般策略是相同的。請注意,術(shù)語“few-shot”學習可能被用作一個總稱,用于描述使用非常少的數(shù)據(jù)訓練模型的任何情況。
少樣本學習的方法
大多數(shù)小樣本學習方法可以歸為以下三類之一:數(shù)據(jù)級方法、參數(shù)級方法和基于度量的方法。
數(shù)據(jù)級方法
小樣本學習的數(shù)據(jù)級方法在概念上非常簡單。當你沒有足夠的訓練數(shù)據(jù)時,為了訓練一個模型,你可以得到更多的訓練數(shù)據(jù)。數(shù)據(jù)科學家可以使用多種技術(shù)來增加他們擁有的訓練數(shù)據(jù)量。
類似的訓練數(shù)據(jù)可以備份您正在訓練分類器的確切目標數(shù)據(jù)。例如,如果您正在訓練分類器以識別特定種類的狗,但缺少許多您嘗試分類的特定物種的圖像,您可以包含許多狗的圖像,這將有助于分類器確定構(gòu)成狗的一般特征.
數(shù)據(jù)增強可以為分類器創(chuàng)建更多的訓練數(shù)據(jù)。這通常涉及對現(xiàn)有訓練數(shù)據(jù)應(yīng)用轉(zhuǎn)換,例如旋轉(zhuǎn)現(xiàn)有圖像,以便分類器從不同角度檢查圖像。GAN 還可用于根據(jù)他們從您擁有的少數(shù)真實訓練數(shù)據(jù)示例中學到的知識生成新的訓練示例。
參數(shù)級方法
元學習
少樣本學習的一種參數(shù)級方法涉及使用一種稱為“元學習”的技術(shù)。元學習涉及教模型如何學習哪些特征在機器學習任務(wù)中很重要。這可以通過創(chuàng)建一種方法來規(guī)范如何探索模型的參數(shù)空間來實現(xiàn)。
元學習使用兩種不同的模型:教師模型和學生模型。“教師”模式和“學生”模式。教師模型學習如何封裝參數(shù)空間,而學生算法學習如何識別和分類數(shù)據(jù)集中的實際項目。換句話說,教師模型學習如何優(yōu)化模型,而學生模型學習如何分類。教師模型的輸出用于訓練學生模型,向?qū)W生模型展示如何協(xié)商因訓練數(shù)據(jù)太少而導致的大參數(shù)空間。因此,元學習中的“元”。
少樣本學習模型的主要問題之一是它們很容易過度擬合訓練數(shù)據(jù),因為它們經(jīng)常具有高維空間。限制模型的參數(shù)空間解決了這個問題,雖然它可以通過應(yīng)用正則化技術(shù)和選擇適當?shù)膿p失函數(shù)來完成,但使用教師算法可以顯著提高少數(shù)模型的性能。
小樣本學習分類器模型(學生模型)將努力基于其提供的少量訓練數(shù)據(jù)進行泛化,并且通過教師模型引導其通過高維參數(shù)空間,其準確性可以提高。這種通用架構(gòu)被稱為“基于梯度的”元學習器。
訓練基于梯度的元學習器的全過程如下:
創(chuàng)建基礎(chǔ)學習者(教師)模型
在支持集上訓練基礎(chǔ)學習器模型
讓基礎(chǔ)學習器返回查詢集的預測
訓練元學習者(學生)因分類錯誤而產(chǎn)生的損失
元學習的變化
模型無關(guān)元學習是一種用于增強我們上面介紹的基本基于梯度的元學習技術(shù)的方法。
正如我們在上面提到的,基于梯度的元學習器使用教師模型獲得的先前經(jīng)驗來微調(diào)自身并為少量訓練數(shù)據(jù)提供更準確的預測。然而,從隨機初始化的參數(shù)開始意味著模型仍然可能過度擬合數(shù)據(jù)。為了避免這種情況,通過限制教師模型/基礎(chǔ)模型的影響來創(chuàng)建“模型無關(guān)”元學習器。不是直接針對教師模型做出的預測的損失來訓練學生模型,而是針對其自身預測的損失對學生模型進行訓練。
對于訓練與模型無關(guān)的元學習器的每一集:
創(chuàng)建當前元學習器模型的副本。
副本在基礎(chǔ)模型/教師模型的幫助下進行訓練。
副本返回訓練數(shù)據(jù)的預測。
計算損失用于更新元學習器。
度量學習
設(shè)計少量學習模型的度量學習方法通??常涉及使用基本距離度量來比較數(shù)據(jù)集中的樣本。余弦距離等度量學習算法用于根據(jù)查詢樣本與支持樣本的相似性對它們進行分類。對于圖像分類器,這意味著僅根據(jù)表面特征的相似性對圖像進行分類。在選擇支持圖像集并將其轉(zhuǎn)換為嵌入向量后,對查詢集進行相同操作,然后比較兩個向量的值,分類器選擇與向量化查詢集具有最接近值的類.
更先進的基于度量的解決方案是“原型網(wǎng)絡(luò)”。原型網(wǎng)絡(luò)將數(shù)據(jù)點聚類在一起,將聚類模型與上述基于度量的分類相結(jié)合。與 K-means 聚類一樣,為支持和查詢集中的類計算聚類的質(zhì)心。然后應(yīng)用歐幾里德距離度量來確定查詢集和支持集的質(zhì)心之間的差異,將查詢集分配給更接近的支持集類。
大多數(shù)其他小樣本學習方法只是上述核心技術(shù)的變體。
小樣本學習的應(yīng)用
小樣本學習在數(shù)據(jù)科學的許多不同子領(lǐng)域都有應(yīng)用,例如計算機視覺、自然語言處理、機器人技術(shù)、醫(yī)療保健和信號處理。
計算機視覺空間中的小樣本學習應(yīng)用包括高效的字符識別、圖像分類、對象識別、對象跟蹤、運動預測和動作定位。用于小樣本學習的自然語言處理應(yīng)用包括翻譯、句子完成、用戶意圖分類、情感分析和多標簽文本分類。小樣本學習可用于機器人領(lǐng)域,幫助機器人通過幾次演示了解任務(wù),讓機器人學習如何執(zhí)行動作、移動和導航周圍的世界。少數(shù)藥物發(fā)現(xiàn)是人工智能醫(yī)療保健的新興領(lǐng)域。最后,few-shot learning可應(yīng)用于聲學信號處理,即分析聲音數(shù)據(jù)的過程。