為什么人工智能設(shè)計必須優(yōu)先考慮數(shù)據(jù)隱私

沃卡惠
行業(yè)資訊
2022-06-05 09:59:01
193

AI是醫(yī)療保健、技術(shù)和其他領(lǐng)域發(fā)展不可或缺的一部分，但人們對如何監(jiān)管數(shù)據(jù)隱私感到擔(dān)憂。

數(shù)據(jù)隱私對于獲得公眾對技術(shù)進步的信任至關(guān)重要。

數(shù)據(jù)隱私通常與基于消費者數(shù)據(jù)的AI(人工智能)模型相關(guān)聯(lián)?？梢岳斫獾氖牵脩魧Λ@取和使用其數(shù)據(jù)的自動化技術(shù)持謹慎態(tài)度，其中可能包括敏感信息。由于AI模型依賴于數(shù)據(jù)質(zhì)量來提供顯著的結(jié)果，因此它們的持續(xù)存在取決于隱私保護是其設(shè)計不可或缺的一部分。

良好的隱私和數(shù)據(jù)管理實踐不僅僅是消除客戶恐懼和擔(dān)憂的一種方式，與企業(yè)的核心組織價值觀、業(yè)務(wù)流程和安全管理有很大關(guān)系。隱私問題已被廣泛研究和宣傳，隱私感知調(diào)查數(shù)據(jù)表明，隱私保護是消費者關(guān)注的重要問題。

從上下文中解決這些問題至關(guān)重要，對于使用面向消費者的AI的公司來說，有幾種方法和技術(shù)可以幫助解決通常與AI相關(guān)的隱私問題。

有些產(chǎn)品和服務(wù)需要數(shù)據(jù)，但它們不需要侵犯任何人的隱私

使用AI的企業(yè)在隱私方面已經(jīng)面臨公眾的質(zhì)疑。根據(jù)歐洲消費者組織2020年的一項調(diào)查顯示，45-60%的歐洲人同意AI將導(dǎo)致更多的個人數(shù)據(jù)濫用。

有許多流行的在線服務(wù)和產(chǎn)品依賴于大型數(shù)據(jù)集來學(xué)習(xí)和改進他們的AI算法。即使是最不注重隱私的用戶，這些數(shù)據(jù)集中的一些數(shù)據(jù)也可能被認為是私有的。來自網(wǎng)絡(luò)、社交媒體頁面、手機和其他設(shè)備的數(shù)據(jù)流增加了企業(yè)用來訓(xùn)練機器學(xué)習(xí)系統(tǒng)的信息量。由于一些企業(yè)過度使用個人數(shù)據(jù)和管理不善，隱私保護正在成為世界各地的公共政策問題。

我們收集的大部分敏感數(shù)據(jù)都是為了改進支持AI的流程。許多分析的數(shù)據(jù)也是由機器學(xué)習(xí)采用驅(qū)動的，因為復(fù)雜的算法需要根據(jù)這些數(shù)據(jù)集實時做出決策。搜索算法、語音助手和推薦引擎只是利用基于現(xiàn)實世界用戶數(shù)據(jù)的大型數(shù)據(jù)集的AI的少數(shù)解決方案。

海量數(shù)據(jù)庫可能包含廣泛的數(shù)據(jù)，最緊迫的問題之一是這些數(shù)據(jù)可能是個人可識別和敏感的。實際上，教算法做出決策并不依賴于知道數(shù)據(jù)與誰相關(guān)。因此，此類產(chǎn)品背后的公司應(yīng)專注于將其數(shù)據(jù)集私有化，幾乎沒有方法來識別源數(shù)據(jù)中的用戶，并制定措施從其算法中刪除邊緣情況以避免逆向工程和識別。

數(shù)據(jù)隱私和AI之間的關(guān)系非常微妙。雖然某些算法可能不可避免地需要私人數(shù)據(jù)，但有一些方法可以以更安全和非侵入性的方式使用它。以下方法只是使用私有數(shù)據(jù)的公司如何成為解決方案的一部分的一些方法。

考慮隱私的AI設(shè)計

我們已經(jīng)討論了逆向工程的問題，其中不良行為者會發(fā)現(xiàn)AI模型中的漏洞并從模型的輸出中識別潛在的關(guān)鍵信息。逆向工程是為什么在面臨這一挑戰(zhàn)的情況下更改和改進數(shù)據(jù)庫和學(xué)習(xí)數(shù)據(jù)對于 AI 使用至關(guān)重要。

例如，在機器學(xué)習(xí)過程(對抗性學(xué)習(xí))中組合沖突的數(shù)據(jù)集是區(qū)分AI算法輸出中的缺陷和偏差的好選擇。也有使用不使用實際個人數(shù)據(jù)的合成數(shù)據(jù)集的選項，但它們的有效性仍然存在問題。

醫(yī)療保健是AI和數(shù)據(jù)隱私治理的先驅(qū)，尤其是處理敏感的私人數(shù)據(jù)。它還在同意方面做了大量工作，無論是對于醫(yī)療程序還是處理他們的數(shù)據(jù)——風(fēng)險很高，并且已得到法律強制執(zhí)行。

對于 AI 產(chǎn)品和算法的整體設(shè)計，通過匿名化和聚合的方式將數(shù)據(jù)與用戶解耦是任何使用用戶數(shù)據(jù)訓(xùn)練其 AI 模型的企業(yè)的關(guān)鍵。

有很多考慮可以加強 AI 公司的隱私保護：

以隱私為核心：將隱私保護放在開發(fā)者的雷達上，并找到有效加強安全性的方法。

匿名化和聚合數(shù)據(jù)集，刪除所有個人標(biāo)識符和唯一數(shù)據(jù)點。

嚴格控制公司中誰可以訪問特定數(shù)據(jù)集，并持續(xù)審核這些數(shù)據(jù)的訪問方式，因為這是過去一些數(shù)據(jù)泄露背后的原因。

更多的數(shù)據(jù)并不總是最好的解決方案。使用最少的數(shù)據(jù)測試您的算法，以了解您需要收集和處理的最少數(shù)據(jù)量，從而使您的用例可行。

必須提供一種簡化的方法來根據(jù)用戶的要求消除個人數(shù)據(jù)。只對用戶數(shù)據(jù)進行偽匿名化的公司應(yīng)該使用最新的數(shù)據(jù)不斷地重新訓(xùn)練他們的模型。

利用強大的去標(biāo)識化策略，例如，具有完全匿名化的聚合和合成數(shù)據(jù)集，用于算法訓(xùn)練、審計和質(zhì)量保證等的不可逆標(biāo)識符。

通過重新思考從第三方獲取和使用關(guān)鍵信息的方式來保護用戶的自主權(quán)和隱私——仔細檢查數(shù)據(jù)源，只使用那些在用戶明確和知情同意的情況下收集數(shù)據(jù)的源。

考慮風(fēng)險：攻擊是否可能從您的 AI 系統(tǒng)輸出中危及用戶隱私?

數(shù)據(jù)隱私和AI的未來是什么?

AI系統(tǒng)需要大量數(shù)據(jù)，如果沒有用于訓(xùn)練AI算法的個人數(shù)據(jù)，一些頂級的在線服務(wù)和產(chǎn)品就無法運行。然而，有很多方法可以改進數(shù)據(jù)的獲取、管理和使用，包括算法本身和整體數(shù)據(jù)管理。尊重隱私的AI需要尊重隱私的公司。

本文作者：Einaras von Gravrock，CUJO AI 首席執(zhí)行官兼創(chuàng)始人

上一篇：什么是邊緣人工智能如何實現(xiàn)邊緣人工智能

下一篇：患者如何從人工智能中獲益