亚洲成人一区二区久久-97精品久久人妻人人搡人人玩-亚洲黄色mv在线观看-欧美三级不卡在线视频

當前位置:首頁 > 最新資訊 > 行業(yè)資訊

人工智能系統(tǒng)中的不確定性量化

基于AI(人工智能)的系統(tǒng)前景廣闊,且被愈來愈多地用于協(xié)助完成各種復(fù)雜任務(wù)。但由于存在不確定性的挑戰(zhàn),結(jié)果并不完全可靠。不確定性量化(UQ)在減少優(yōu)化和決策過程中的不確定性方面起著關(guān)鍵作用,可用于解決科學(xué)、商業(yè)和工程領(lǐng)域的各種實際應(yīng)用。

本文簡要介紹了不確定性的概念、來源、類型和測量方法,然后總結(jié)了使用貝葉斯技術(shù)的大量UQ方法,指出了現(xiàn)有文獻中存在的問題和差距,并提出進一步的發(fā)展方向,并對打擊AI金融犯罪的應(yīng)用案例進行了概述。

引言

近年來,人們愈來愈需要使用基于AI的系統(tǒng),這些系統(tǒng)本質(zhì)上是主動系統(tǒng),需要根據(jù)環(huán)境中的事件或變化自動采取行動。這些系統(tǒng)跨愈許多領(lǐng)域,從活動數(shù)據(jù)庫到驅(qū)動當今企業(yè)核心業(yè)務(wù)流程的應(yīng)用程序。然而,在許多情況下,系統(tǒng)必須響應(yīng)的事件不是由監(jiān)控工具生成的,而是必須根據(jù)復(fù)雜的時態(tài)謂詞從其他事件中推斷出來的。機器學(xué)習(ML)模型根據(jù)其訓(xùn)練數(shù)據(jù)生成最優(yōu)解。在許多應(yīng)用中,這樣的推理本質(zhì)上是不確定的。然而,如果不考慮數(shù)據(jù)和模型參數(shù)中的不確定性,這種最佳解決方案在現(xiàn)實世界部署中仍然存在很高的失敗風險。

典型的基于AI的系統(tǒng)管道包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、選擇模型從數(shù)據(jù)中學(xué)習、選擇學(xué)習算法訓(xùn)練所需模型以及從所學(xué)習的模型中得出推論等環(huán)節(jié)。然而,這些步驟中的每一步都存在固有的不確定性。例如,數(shù)據(jù)不確定性可能源于無法可靠地收集或表示真實世界的數(shù)據(jù)。數(shù)據(jù)預(yù)處理中的缺陷——無論是在固化、清洗還是標記過程中——也會造成數(shù)據(jù)不確定性。由于模型僅作為現(xiàn)實世界的代理,而學(xué)習和推理算法依賴于各種簡化假設(shè),因此它們導(dǎo)致了建模和推理中的不確定性。

AI系統(tǒng)做出的預(yù)測容易受到所有這些不確定性來源的影響,可靠的不確定性評估為AI系統(tǒng)的開發(fā)者和用戶提供了重要的判斷依據(jù)。例如,高數(shù)據(jù)不確定性可能意味著改進數(shù)據(jù)描述過程,而高模型不確定性可能意味著需要收集更多數(shù)據(jù)。對于用戶來說,準確的不確定性,尤其是與有效的溝通策略相結(jié)合時,可以增添一個透明度和信任度的關(guān)鍵層,這對于更優(yōu)的AI輔助決策至關(guān)重要。給予AI系統(tǒng)這種信任對于它們在醫(yī)學(xué)、金融和社會科學(xué)等高風險應(yīng)用中的可靠部署至關(guān)重要。

AI系統(tǒng)中已經(jīng)提出了許多改進UQ的方法,然而選擇一種特定的UQ方法取決于許多因素:基礎(chǔ)模型、機器學(xué)習任務(wù)的類型(回歸、分類與分割)、數(shù)據(jù)的特征、機器學(xué)習模型的透明度和最終目標等等。如果使用不當,特定的UQ方法可能會產(chǎn)生較差的不確定性估計,并誤導(dǎo)用戶。此外,如果溝通不暢,即使是高度準確的不確定性估計也可能會產(chǎn)生誤導(dǎo)。

本文對不確定性的類型及其來源進行了擴展介紹,討論了UQ方法,將不確定性建模形式化,并闡述了其在復(fù)雜系統(tǒng)中的概念。本文概述了ML中使用貝葉斯技術(shù)量化不確定性的不同方法。此外,在不同的機器學(xué)習任務(wù)中,如分類、回歸和分割,不確定性測量的評估也受到關(guān)注。本文提供了UQ方法中的校準術(shù)語,填補了文獻中的空白,展示了UQ在金融犯罪領(lǐng)域的實際應(yīng)用,并為此類系統(tǒng)制定了通用評估框架。

任意不確定性

任意不確定性(Aleatoric Uncertainty,又稱為“統(tǒng)計不確定性”),代表每次進行相同實驗時不同的未知量。任意不確定性是指由于概率可變性而產(chǎn)生的固有不確定性。這種類型的不確定性是不可減少的,因為基本變量總是存在可變性。這些不確定性以概率分布為特征。例如,使用機械弓箭發(fā)射的一支箭在每次發(fā)射完全相同(相同的加速度、高度、方向和最終速度),由于箭桿的隨機和復(fù)雜振動,不會影響目標上的同一點,無法充分確定這類知識以消除由此造成的碰撞點分散。

認知不確定性

認知不確定性(Epistemic Uncertainty,又稱“系統(tǒng)不確定性”)是指那些由于人們在原則上可以知道但在實踐中卻不知道的事情。認知不確定性是過程模型中的科學(xué)不確定性,這是因為數(shù)據(jù)和知識有限。認知不確定性以替代模型為特征。對于離散隨機變量,認知不確定性采用替代概率分布建模。這種不確定性來源的一個例子是一項旨在測量地球表面附近重力加速度的實驗。常用的9.8m/s²重力加速度忽略了空氣阻力的影響,但我們可以測量物體的空氣阻力并將其納入實驗,以減少重力加速度計算中產(chǎn)生的不確定性。

任意性和認知不確定性相互作用

任意不確定性和認知不確定性也可以在單個術(shù)語中同時發(fā)生——例如,當實驗參數(shù)顯示任意不確定性并且這些實驗參數(shù)被輸入計算機模擬時。如果用于不確定性量化,則使用替代模型,例如高斯過程或者多項式混沌展開(Polynomial Chaos Expansion),是從計算機實驗中得知的,這樣的替代表現(xiàn)出認知不確定性,它依賴于實驗參數(shù)的任意不確定性,或與之相互作用。這種不確定性不能再單獨歸類為任意性或認知性,而是一種更普遍的推理不確定性。在實際應(yīng)用中,這兩種不確定性都存在。不確定性量化旨在分別明確表示這兩種類型的不確定性。

任意不確定性的量化可能相對簡單,其中傳統(tǒng)(頻繁)概率是最基本的形式。例如蒙特卡羅方法等經(jīng)常被使用的技術(shù)。為了評估認知不確定性,需要努力理解對于系統(tǒng)、過程或機制相關(guān)知識的缺乏。認知不確定性通常是通過貝葉斯概率的視角來理解的,因為概率被解釋為表明理性的人對某一特定主張的確定程度。

模型與數(shù)據(jù)不確定性

模型不確定性包括由模型缺陷引起的不確定性,這些缺陷可能是由于訓(xùn)練過程中使用了不充分的模型結(jié)構(gòu)所導(dǎo)致的錯誤,或者是由于未知樣本或訓(xùn)練數(shù)據(jù)集覆蓋率差而導(dǎo)致的知識缺乏。與此相反,數(shù)據(jù)不確定性與直接源于數(shù)據(jù)的不確定性有關(guān)。數(shù)據(jù)不確定性是由在數(shù)據(jù)樣本中表示真實世界并表示分布時的信息丟失引起的。模型不確定性包括由模型缺陷引起的不確定性,這些缺陷可能是由于訓(xùn)練過程中的錯誤、模型結(jié)構(gòu)不足,或由于未知樣本或訓(xùn)練數(shù)據(jù)集覆蓋率差而導(dǎo)致的知識缺乏。與此相反,數(shù)據(jù)不確定性與直接源于數(shù)據(jù)的不確定性有關(guān)。數(shù)據(jù)不確定性是由在數(shù)據(jù)樣本中表示真實世界和表示分布時的信息丟失引起的。

例如,在回歸任務(wù)中,輸入和目標測量中的噪聲會導(dǎo)致網(wǎng)絡(luò)無法學(xué)會糾正的數(shù)據(jù)不確定性。在分類任務(wù)中,如果樣本包含的信息不足以100%確定地識別一個類別,則會導(dǎo)致預(yù)測數(shù)據(jù)的不確定性。信息丟失是測量系統(tǒng)的結(jié)果,例如,因為使用某種具體分辨率的圖像像素來表示真實世界的信息所導(dǎo)致,或通過標記過程中的錯誤所導(dǎo)致。

雖然理論上可以通過改進體系結(jié)構(gòu)、學(xué)習過程或訓(xùn)練數(shù)據(jù)集來減少模型的不確定性,但無法解釋數(shù)據(jù)的不確定性。

預(yù)測不確定性

根據(jù)輸入數(shù)據(jù)域,預(yù)測不確定性也可分為三大類:

域內(nèi)不確定性:表示與從假定等于訓(xùn)練數(shù)據(jù)分布的數(shù)據(jù)分布中提取的輸入相關(guān)的不確定性。域內(nèi)不確定性源于深度神經(jīng)網(wǎng)絡(luò)由于缺乏域內(nèi)知識而無法解釋域內(nèi)樣本。從建模者的角度來看,域內(nèi)的不確定性是由設(shè)計錯誤(模型不確定性)和手頭問題的復(fù)雜性(數(shù)據(jù)不確定性)引起的。根據(jù)域內(nèi)不確定性的來源,可以通過提高訓(xùn)練數(shù)據(jù)(集)或訓(xùn)練過程的質(zhì)量來減少不確定性。

域轉(zhuǎn)移不確定性:表示與從訓(xùn)練分布的轉(zhuǎn)移版本中提取的輸入相關(guān)的不確定性。這種分布變化是由于訓(xùn)練數(shù)據(jù)的覆蓋率不足以及現(xiàn)實情況固有的可變性造成的。由于DNN無法在訓(xùn)練時解釋基于樣本的域轉(zhuǎn)移樣本,域轉(zhuǎn)移可能會增加不確定性。可以對一些導(dǎo)致域轉(zhuǎn)移不確定性的錯誤進行建模,從而可以減少相應(yīng)的錯誤。

域外不確定性:表示與來自未知數(shù)據(jù)子空間的輸入相關(guān)的不確定性。未知數(shù)據(jù)的分布與訓(xùn)練分布大有差異。例如,當域轉(zhuǎn)移不確定性描述諸如狗的模糊圖像等現(xiàn)象時,域外不確定性就是學(xué)習貓和狗分類的網(wǎng)絡(luò)被要求預(yù)測鳥的情況。域外不確定性的來源是深度神經(jīng)網(wǎng)絡(luò)(DNN)由于缺乏域外知識而無法解釋域外樣本。從建模者的角度來看,域外不確定性是由輸入樣本引起的,其中網(wǎng)絡(luò)不打算對訓(xùn)練數(shù)據(jù)進行預(yù)測或者訓(xùn)練數(shù)據(jù)不足。

圖1:不確定性類型

不確定性與可變性

技術(shù)專家經(jīng)常被要求估算不確定量的“范圍”。重要的是,他們要區(qū)分是被要求提供可變性范圍還是不確定性范圍。同樣,對于建模者來說,了解他們是否正在構(gòu)建可變性或不確定性的模型以及它們之間的關(guān)系(如果有的話)也很重要。

不確定性的來源

參數(shù)不確定性:它來自于輸入到數(shù)學(xué)模型中的模型參數(shù),但其精確值對實驗人員來說是未知的,在物理實驗中無法控制或者其值無法通過統(tǒng)計方法精確推斷。例如,落物實驗中的局部自由落體加速度計算中就包含了參數(shù)不確定性。

參數(shù)可變性:它來自模型輸入變量的可變性。例如,數(shù)據(jù)中的尺寸可能與假設(shè)的尺寸不完全相同,這將導(dǎo)致在高維數(shù)據(jù)集上訓(xùn)練的模型的性能發(fā)生變化。

結(jié)構(gòu)不確定性:又名模型不足、模型偏差或模型差異,它源于對問題的基本物理或原理缺乏了解??紤]到模型幾乎總是接近現(xiàn)實,這取決于數(shù)學(xué)模型在現(xiàn)實生活中描述真實系統(tǒng)的準確程度。例如,使用自由落體模型對下落物體的過程進行建模時,模型本身是不準確的,因為總是存在空氣摩擦。在這種情況下,即使模型中沒有未知參數(shù),模型和真實物理之間仍然存在差異。當我們對模型輸出不確定時,就會出現(xiàn)結(jié)構(gòu)不確定性,因為我們對模型的功能形式尚不確定。

算法不確定性:又名數(shù)值不確定性,或離散不確定性。這種類型來自每個計算機模型實現(xiàn)的數(shù)值誤差和數(shù)值近似值。大多數(shù)模型太復(fù)雜,無法精確求解。例如,可以使用有限元法或有限差分法來近似解偏微分方程(這會引入數(shù)值誤差)。

實驗不確定性:又名觀測誤差。它來自于實驗測量的可變性。實驗不確定性是不可避免的,可以通過對所有輸入/變量使用完全相同的設(shè)置進行多次重復(fù)測量來發(fā)現(xiàn)此種不確定性。

插值不確定性:這是因為缺乏從模型模擬和/或?qū)嶒灉y量中收集的可用數(shù)據(jù)。對于沒有模擬數(shù)據(jù)或?qū)嶒灉y量的其他輸入設(shè)置時,必須進行插值或外推,以便預(yù)測相應(yīng)的響應(yīng)數(shù)據(jù)。

問題類型

不確定性量化中有兩類主要問題:一種是不確定性的正向傳播(不確定性的各種來源通過模型傳播,以預(yù)測系統(tǒng)響應(yīng)中的整體不確定性),另一種是模型不確定性和參數(shù)不確定性的反向評估(使用測試數(shù)據(jù)同時校準模型參數(shù))。

不確定性的正向傳播

不確定性傳播是對不確定性輸入傳播的系統(tǒng)輸出中的不確定性進行量化。它著重于不確定性來源中列出的參數(shù)可變性對輸出的影響。不確定性傳播分析的目標可以是:

評估輸出的低階矩,即均值和方差

評估輸出的可靠性

評估輸出的完整概率分布

模型不確定性和參數(shù)不確定性的反向評估

假如已經(jīng)取得了系統(tǒng)的一些實驗測量數(shù)據(jù)及其數(shù)學(xué)模型的一些計算機模擬結(jié)果,反向不確定性量化既估計實驗和數(shù)學(xué)模型之間的差異(稱為偏差校正),也估計模型中存在的未知參數(shù)值(稱為參數(shù)校準或簡單校準)。一般來說,這是一個比正向不確定性傳播困難得多的問題,但因為它通常在模型更新過程中實現(xiàn)所以非常重要。

反向不確定性量化有幾種情況:

僅偏差修正:偏差修正量化了模型的不足,即實驗和數(shù)學(xué)模型之間的差異。

僅參數(shù)校準:參數(shù)校準會估計數(shù)學(xué)模型中一個或多個未知參數(shù)的值。

偏差修正和參數(shù)校準:考慮具有一個或多個未知參數(shù)的不準確模型,其模型更新公式將兩者結(jié)合在一起:這是最全面的模型更新公式,包括所有可能的不確定性來源,需要盡最大努力解決。

圖2:不確定性量化中的問題類型

數(shù)學(xué)表示

正如我們前面所提及的(圖1),預(yù)測不確定性由兩部分組成:認知不確定性和任意不確定性,可以像下面這樣寫成這兩部分的總和:

認知不確定性可以表示為模型參數(shù)的概率分布。

令:

表示包含以下輸入的訓(xùn)練數(shù)據(jù)集:

與它們的相應(yīng)分類:

其中:C表示分類的數(shù)量。目的是優(yōu)化生成期望的輸出結(jié)果的以下函數(shù)的ω參數(shù):

為了實現(xiàn)這一點,使用貝葉斯方法定義了一個模型似然函數(shù):

對于分類,可使用下面的softmax似然函數(shù):

等式1

對于回歸,可以假設(shè)高斯似然:

等式2

上式中,τ表示模型精度。而后驗分布:

針對一個給定的數(shù)據(jù)集(在ω上的訓(xùn)練):

通過應(yīng)用Bayes定理,可以寫出如下形式:

等式3

對于給定的樣本x*,關(guān)于p(ω|x,y)的分類標簽可以預(yù)測為:

等式4

這個過程被稱為推理或邊緣化。然而:

不能用解析方法計算,但可以用變分參數(shù)來近似:

其目的是近似一個分布,該分布接近由該模型獲得的后驗分布。因此,關(guān)于精度τ的Kullback-Leibler(KL)散度需要最小化。這兩種分布之間的相似程度可以通過以下方式衡量:

等式5

預(yù)測分布可以通過最小化KL散度來近似,如下所示:

等式6

其中:

代表目標表明。KL散度最小化也可以重新安排為證據(jù)下界(ELBO)最大化:

等式7

其中:

通過最大化第一項,能夠很好地描述數(shù)據(jù),通過最小化第二項,能夠盡可能接近前一項。這個過程被稱為變分推理(VI)。Dropout變分推理是最常用方法之一,已在復(fù)雜模型中廣泛用于近似推理。最小化目標如下:

等式8

其中N和P分別代表樣本數(shù)和丟棄概率。要獲得與數(shù)據(jù)相關(guān)的不確定性,上面等式2中的精度τ可表示為數(shù)據(jù)的函數(shù)。獲得認知不確定性的一種方法是混合兩種函數(shù)。其中,

預(yù)測平均值函數(shù)是fθ(x),模型精度函數(shù)是gθ(x)。

這樣的話,似然函數(shù)可以寫成:

將先驗分布置于模型的權(quán)重之上,然后計算給定數(shù)據(jù)樣本的權(quán)重變化量。歐幾里德距離損失函數(shù)可以調(diào)整如下:

等式9

預(yù)測方差可通過以下方式獲得:

等式10

可選方法

人們已經(jīng)做了很多研究來解決不確定性量化問題,盡管其中大多數(shù)是處理不確定性傳播的問題。在過去的一到二十年中,人們還開發(fā)了許多反向不確定性量化的方法,并已證明對大多數(shù)中小型問題有用。

圖3:不確定性量化的選擇性方法

正向傳播

基于模擬的方法:蒙特卡羅模擬、重要性抽樣、自適應(yīng)抽樣等。

基于代理的通用方法:在非侵入性方法中,可以使用一種學(xué)習代理模型來實現(xiàn)廉價且快速的近似代替實驗或模擬之目的。基于代理的方法也可以以完全貝葉斯的方式來使用。當采樣成本(例如計算成本高昂的模擬)過高時,這種方法會特別有效。

基于局部展開的方法:泰勒級數(shù)、攝動法等。這些方法在處理相對較小的輸入變量和不表現(xiàn)高度非線性的輸出時具有優(yōu)勢。這些線性或線性化方法在不確定性傳播有關(guān)文章中有詳細介紹。

基于函數(shù)展開的方法:Neumann展開、正交或Karhunen–Loeve展開(KLE),以及作為特例的多項式混沌展開(PCE)和小波展開。

基于最可能點(MPP)的方法:一階可靠性方法(FORM)和二階可靠性方法(SORM)。

基于數(shù)值積分的方法:全因子數(shù)值積分(FFNI)和降維(DR)。

對于非概率方法,區(qū)間分析、模糊理論、可能性理論和證據(jù)理論是應(yīng)用最廣泛的方法之一。

概率方法被認為是工程設(shè)計中最嚴格的不確定性分析方法,因為它與決策分析理論一致。它的基石是計算抽樣統(tǒng)計的概率密度函數(shù)。對于可以通過高斯變量變換獲得的隨機變量,這點可以嚴格執(zhí)行從而得到精確的置信區(qū)間。

反向不確定性

1.頻率學(xué)派:參數(shù)估計的標準誤差很容易獲得,可以擴展為置信區(qū)間。

2.貝葉斯學(xué)派:貝葉斯框架下存在幾種反向不確定性量化方法。最復(fù)雜的方向是解決偏差校正和參數(shù)校準的問題。這些問題的挑戰(zhàn)不僅包括模型不足和參數(shù)不確定性的影響,還包括缺乏來自計算機模擬和實驗的數(shù)據(jù)。一種常見的情況是,在實驗和模擬中輸入環(huán)境不同。另一種常見情況是,從實驗中得出的參數(shù)被輸入到模擬中。對于計算成本較高的模擬,通常需要一個替代模型,例如高斯過程或多項式混沌展開,從而定義一個反向問題,以便找到最接近模擬的替代模型。

3.模塊化方法:反向不確定性量化的方法是模塊化貝葉斯方法。模塊化貝葉斯方法的名字來源于其中的四個模塊的過程。除了當前可用的數(shù)據(jù)外,還應(yīng)指定未知參數(shù)的先驗分布。

針對模型的高斯過程建模:為了解決缺乏仿真結(jié)果的問題,將計算機模型替換為高斯過程(GP)模型

針對差異函數(shù)的高斯過程建模:類似地,對于第一個模塊,用GP模型替換異函數(shù)

未知參數(shù)的后驗分布:貝葉斯定理用于計算未知參數(shù)的后驗分布

實驗反應(yīng)和差異函數(shù)的預(yù)測

4. 完全方法:完全貝葉斯方法不僅要分配未知參數(shù)的先驗,還要分配其他超參數(shù)的先驗。

圖4:使用貝葉斯技術(shù)的不確定性量化

機器學(xué)習中的不確定性量化

圖5:機器學(xué)習中不確定性量化的分類

評估分類

分類任務(wù)中的測量數(shù)據(jù)不確定性:給定預(yù)測,概率向量表示分類分布,即它為每個類別分配一個概率,使其成為正確的預(yù)測。由于預(yù)測不是作為一個顯式類別而是作為一個概率分布給出的,因此可以直接從預(yù)測中得出不確定性估計。一般來說,這種逐點預(yù)測可以被視為估計數(shù)據(jù)的不確定性。然而,模型對數(shù)據(jù)不確定性的估計受到模型不確定性的影響,必須單獨考慮。為了評估預(yù)測數(shù)據(jù)不確定性的數(shù)量,可以應(yīng)用最大分類概率或熵度量。最大概率表示確定性的直接表示,而熵表示隨機變量中的平均信息水平。盡管如此,我們無法從一個單一的預(yù)測中分辨出影響這一特定預(yù)測的模型不確定性有多大。

分類任務(wù)中的測量模型不確定性:學(xué)習模型參數(shù)的近似后驗分布有助于獲得更優(yōu)的不確定性估計。有了這種后驗分布,就有可能評估隨機變量的變化,即不確定性。最常見的測量方法是互信息(MI)、預(yù)期Kullback-Leibler散度(EKL)和預(yù)測方差?;旧希羞@些度量都是計算隨機輸出和預(yù)期輸出之間的預(yù)期差異。當有關(guān)模型參數(shù)的知識不會增加最終預(yù)測中的信息時,MI最小。因此,MI可以解釋為模型不確定性的度量。Kullback-Leibler散度度量兩個給定概率分布之間的散度。EKL可用于測量可能輸出之間的(預(yù)期)差異,也可解釋為對模型輸出不確定性的測量,因此代表模型不確定性。即使對于分析描述的分布來說,參數(shù)不確定性在預(yù)測中的傳播幾乎在所有情況下也都是難以解決的;因此,必須用蒙特卡羅近似來近似。

圖6:模型的可視化和分類模型的分布不確定性

測量分類任務(wù)中的分布不確定性:雖然這些不確定性度量被廣泛用于捕捉來自貝葉斯神經(jīng)網(wǎng)絡(luò)的多個預(yù)測之間的可變性,但集成方法無法捕捉輸入數(shù)據(jù)或分布外樣本中的分布變化,這可能會導(dǎo)致推理過程存在一定偏見并產(chǎn)生虛假的置信結(jié)果。如果所有預(yù)測因子都將高概率質(zhì)量歸因于同一(錯誤)類別標簽,這將導(dǎo)致估計值之間的低可變性。因此,系統(tǒng)似乎對其預(yù)測是確定的,而預(yù)測本身的不確定性也在下面進行評估。

圖7:模型的可視化和分類模型的分布不確定性

完整數(shù)據(jù)集上的性能度量:上述度量用來評估單個預(yù)測的性能,其他度量則用于評估這些度量在一組樣本上的使用情況。不確定性度量可用于區(qū)分正確分類和錯誤分類的樣本,或域內(nèi)樣本和分布外樣本。為此,樣本分為兩組,例如域內(nèi)和分布外,或正確分類和錯誤分類。兩種最常見的是接收器操作特性曲線(Receiver Operating Characteristic,簡稱“ROC”)和精確率-召回率曲線(Precision-Recall,簡稱“PR”)。這兩種方法都基于基礎(chǔ)度量的不同閾值生成曲線。雖然ROC和PR曲線都給出了一個直觀的概念,說明了基本度量在多大程度上適合于分離兩個考慮過的測試用例,但它們并沒有給出一個定性度量。為了達到這一點,可以評估曲線下的面積(AUC)。簡要來看,AUC給出了一個概率值,即隨機選擇的陽性樣本比隨機選擇的陰性樣本導(dǎo)致更高的測量值。

評估回歸

回歸預(yù)測中的測量數(shù)據(jù)不確定性:與分類任務(wù)相比,回歸任務(wù)只預(yù)測逐點估計,沒有任何數(shù)據(jù)不確定性的暗示。處理這一問題的常用方法是,讓網(wǎng)絡(luò)預(yù)測概率分布的參數(shù),例如,平均向量和正態(tài)分布不確定性的標準偏差,這樣就直接給出了數(shù)據(jù)不確定性的度量。標準偏差的預(yù)測允許(未知)真實值在特定區(qū)域內(nèi)的分析描述。以一定概率覆蓋真值的區(qū)間(假設(shè)預(yù)測分布是正確的)是分位數(shù)函數(shù),即累積概率函數(shù)的倒數(shù)。對于給定的概率值,分位數(shù)函數(shù)給出了一個邊界。分位數(shù)假設(shè)某種概率分布,并將給定的預(yù)測解釋為分布的預(yù)期值。

與此相反,其他方法則是直接預(yù)測所謂的預(yù)測區(qū)間(PI),其中假設(shè)存在預(yù)測。這樣的區(qū)間會導(dǎo)致不確定性以均勻分布的形式出現(xiàn),而不會給出具體的預(yù)測。顧名思義,這種方法的確定性可以通過預(yù)測區(qū)間的大小直接衡量。平均預(yù)測區(qū)間寬度(MPIW)可用于評估模型的平均確定性。為了評估預(yù)測間隔的正確性,可以應(yīng)用預(yù)測間隔覆蓋概率(PICP)。PCIP代表落入預(yù)測區(qū)間的測試預(yù)測的百分比。

回歸預(yù)測中測量模型不確定性:模型不確定性主要由模型的結(jié)構(gòu)、訓(xùn)練過程和訓(xùn)練數(shù)據(jù)中代表性不足的區(qū)域引起。因此,回歸和分類任務(wù)之間的模型不確定性的原因和影響沒有真正的區(qū)別;如此一來,回歸任務(wù)中的模型不確定性可以像分類任務(wù)中已經(jīng)描述的那樣進行等效測量,例如在大多數(shù)情況下,通過近似平均預(yù)測和測量單個預(yù)測之間的差異來進行。

圖8:模型的可視化和回歸模型的分布不確定性

圖9:模型的可視化和回歸模型的分布不確定性

評估分割任務(wù)中的不確定性:評估分割任務(wù)中的不確定性與評估分類問題非常相似。分割任務(wù)中的不確定性使用貝葉斯推理的近似方法估計。在分割上下文中,像素級分割中的不確定性使用置信區(qū)間、預(yù)測方差、預(yù)測熵或互信息(MI)來測量。結(jié)構(gòu)估計中的不確定性是通過對所有像素不確定性估計進行平均得到的。體積不確定性的質(zhì)量通過評估變異系數(shù)、平均Dice分數(shù)或聯(lián)合上的交點來評估。這些指標以成對的方式測量多個估計值之間在面積重疊方面的一致性。理想情況下,錯誤分割會導(dǎo)致像素和結(jié)構(gòu)不確定性增加。為了驗證是否存在這種情況,應(yīng)評估像素級的真陽性率,以及不同不確定度閾值下保留像素的假檢測率和ROC曲線。

校準

如果推導(dǎo)出的預(yù)測置信度代表了實際正確性概率的良好近似值,則稱預(yù)測值為校準良好。因此,為了使用不確定度量化方法,必須確保系統(tǒng)經(jīng)過良好校準。對于回歸任務(wù),可以定義校準,預(yù)測的置信區(qū)間應(yīng)與根據(jù)數(shù)據(jù)集經(jīng)驗計算的置信區(qū)間相匹配。

通常,校準誤差是由與模型不確定性相關(guān)的因素引起的。這一點從直覺上很容易理解,因為數(shù)據(jù)不確定性代表了潛在的不確定性,即輸入x和目標y代表相同的真實世界信息。接下來,正確預(yù)測的數(shù)據(jù)不確定性將導(dǎo)致一個完美校準的系統(tǒng)。這一點很清楚,因為這些方法分別量化了模型和數(shù)據(jù)的不確定性,旨在減少預(yù)測中的模型不確定性。除了通過降低模型不確定性來改進校準的方法外,大量且不斷增長的文獻還研究了顯式降低校準誤差的方法。下節(jié)將介紹這些方法以及量化校準誤差的措施。需要注意的是,這些方法不會減少模型的不確定性,而是將模型的不確定性傳播到數(shù)據(jù)不確定性的表示上。

例如,如果二元分類器被過度擬合,并以概率1將測試集的所有樣本預(yù)測為A類別,而一半的測試樣本實際上是B類別,則重新校準方法可能會將網(wǎng)絡(luò)輸出映射到0.5,以獲得可靠的置信度。0.5的概率不等于數(shù)據(jù)不確定性,但表示傳播到預(yù)測數(shù)據(jù)不確定性上的模型不確定性。

校準方法

根據(jù)應(yīng)用步驟,校準方法可分為三大類:

在訓(xùn)練階段應(yīng)用的規(guī)范方法:這些方法修改目標、優(yōu)化和/或規(guī)范過程,以構(gòu)建內(nèi)在校準的系統(tǒng)和網(wǎng)絡(luò)。

在模型的訓(xùn)練過程之后應(yīng)用的后處理方法:這些方法需要一個保留的校準數(shù)據(jù)集來調(diào)整預(yù)測分數(shù)以進行重新校準。需要注意的是,它們只能在假設(shè)遺漏驗證集的分布等同于基于推理的分布的情況下才可以工作。因此,驗證數(shù)據(jù)集的大小也會影響校準結(jié)果。

神經(jīng)網(wǎng)絡(luò)不確定性估計方法:通過使用減少神經(jīng)網(wǎng)絡(luò)置信度預(yù)測中模型不確定性的方法,也會產(chǎn)生更好的校準預(yù)測值。這是因為剩余的預(yù)測數(shù)據(jù)不確定性更好地代表了預(yù)測的實際不確定性。例如,此類方法基于貝葉斯方法或深度集成(圖4)。

真實世界的應(yīng)用

NICE Actimize是以色列一家為區(qū)域和全球金融機構(gòu)以及政府監(jiān)管機構(gòu)提供多種金融犯罪、風險和合規(guī)解決方案的供應(yīng)商,他們利用創(chuàng)新技術(shù)保護機構(gòu)、消費者以及投資者的資產(chǎn),能夠識別金融犯罪、防止欺詐并保障監(jiān)管合規(guī)。該公司能夠提供實時、跨渠道的欺詐預(yù)防、反洗錢檢測和交易監(jiān)控解決方案,從而有助于解決支付欺詐、網(wǎng)絡(luò)犯罪、制裁監(jiān)控、市場濫用、客戶盡職調(diào)查和內(nèi)幕交易等問題。

基于AI的系統(tǒng)和高級分析解決方案可以更早更快地發(fā)現(xiàn)異常行為,消除從盜竊、欺詐、監(jiān)管處罰到制裁的財務(wù)損失。這樣一來,有助于公司或組織減少各種損失、提高調(diào)查人員的工作效率,并改善法律合規(guī)和監(jiān)督質(zhì)量。

隨著基于AI的系統(tǒng)在金融犯罪中的使用增多,量化和處理不確定性變得愈來愈重要。一方面,不確定性量化在風險最小化方面發(fā)揮著重要作用,這是預(yù)防欺詐所必需的。另一方面,有一些具有挑戰(zhàn)性的數(shù)據(jù)源為欺詐調(diào)查提供了補充,只是這些數(shù)據(jù)很難核實。這使得生成可信的“地面真相”成為一項非常具有挑戰(zhàn)性的任務(wù)。

Actimize公司的通用評估框架

為了應(yīng)對上述問題,Activize公司提出了一個評估協(xié)議,其中包含各種具體的基線數(shù)據(jù)集和評估指標,涵蓋了所有類型的不確定性,有助于推動不確定性量化研究。此外,他們還考慮了風險規(guī)避和最壞情況下的評估問題。這種通用協(xié)議使數(shù)據(jù)科學(xué)家們能夠輕松地將不同類型的方法與既定基準與真實世界的數(shù)據(jù)集進行比較。

結(jié)論

不確定性量化(UQ)是基于AI的系統(tǒng)和決策過程的關(guān)鍵部分之一,它在評估各種實際應(yīng)用中的不確定性時變得愈來愈普遍。如今,不確定性已經(jīng)成為傳統(tǒng)機器和深度學(xué)習方法不可分割的一部分,因此本文也對傳統(tǒng)機器學(xué)習和深度學(xué)習中最重要的UQ概念和方法進行了一個相對全面的概述。

原文標題:??Uncertainty Quantification in Artificial Intelligence-based Systems??,作者:Danny Butvinik

猜你喜歡