當前位置:   金科網 > 人工智能 > 正文

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

  機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

  金科網 AI 科技評論按:計算機編程發展至今,bug 和軟件就一直如影隨形。多年來,軟件開發人員已經創建了一套在部署之前進行測試和調試的最佳方法,但這些方法并不適用于如今的深度學習系統。現在,機器學習的主流方法是基于訓練數據集來訓練系統,然后在另一組數據集上對其進行測試。雖然這樣能夠顯示模型的平均性能,但即使在最壞的情況下,保證穩健或可被接受的高性能也是至關重要的。對此,DeepMind 發布文章介紹了能夠嚴格識別和消除學習預測模型中的 bug 的三種方法:對抗測試(adversarial testing)、魯棒學習(robust learning)和形式化驗證(formal verification)。金科網(公眾號:金科網) AI 科技評論編譯如下。

  機器學習系統默認設置的魯棒性較差。一旦引入細微誤差,那么即使在特定領域中表現優于人類的系統,可能連簡單問題都解決不了。例如,考慮圖像擾動的問題:如果在輸入圖像中加入少量經仔細計算的噪聲,那么一個比人類更擅長做圖像分類任務的神經網絡就很容易將樹懶誤分類為賽車。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

  覆蓋在典型圖像上的對抗輸入可能導致分類器將樹懶錯誤地分類為賽車。兩個圖像在每個像素中最多相差 0.0078。第一張圖像被歸類為三趾樹懶,置信度> 99%。第二張概率>99% 的圖像被歸類為賽車。

  這不是一個全新的問題。計算機程序一直都存在 bug。幾十年來,軟件工程師從單元測試到形式化驗證上裝了很多技術工具包。這些方法在傳統軟件上運行良好,但是由于這些模型的規模問題和結構不完整(可能包含數億個參數),因此采用這些方法來嚴格測試神經網絡等機器學習模型是非常具有挑戰性的。這就需要開發用于確保機器學習系統部署更可靠的新方法。

  從程序員的角度來看,bug 就是所有不符合系統規范(即預期功能)的行為。作為「智能化」任務的一部分,我們需要對評估一致性的技術進行研究,即機器學習系統不僅要與訓練集和測試集一致,還要與描述系統期望屬性的規范列表一致。這些屬性可能包括對輸入中微小擾動的魯棒性,避免災難性故障的安全限制,或產生符合物理定律的預測。

  我們共同致力于嚴格開發和部署與所需規格可靠一致的機器學習系統,在本文中,我們將討論機器學習領域面臨的三個重要技術挑戰。

  1、有效地測試與規范的一致性。我們探索有效的方法來測試機器學習系統是否與設計者和系統用戶所期望的屬性(例如不變性或魯棒性)一致。這是用于顯示模型可能與期望行為不一致的情況的一種方法,即在評估期間系統地搜索最壞情況的結果。

  2、訓練與規范一致的機器學習模型。即使有大量的訓練數據,標準的機器學習算法訓練出的預測模型也可以得出與具有魯棒性和公平性的期望規范不一致的預測結果,這就要求我們重新考慮訓練算法,要求這些算法不僅能夠很好地擬合訓練數據,還要能夠符合預期規范。

  3、形式化驗證機器學習模型與規范的一致性。這需要這樣一種算法,即對于所有有可能的輸入,該算法都能證明模型的預測結果與規范之間是一致且可被證明的。雖然形式化驗證領域幾十年來一直在研究這種算法,盡管進展不錯,但該方法并不能輕易地擴展到當今的深度學習系統。

  測試與規格的一致性對抗樣本的魯棒性是深度學習中研究相對較好的一項工作。從這項工作中引申出的一個主要任務是評估強對抗樣本的重要性,以及設計可以做有效分析的透明模型。在和業界其他研究者合作時,我們發現許多模型在面對弱對抗樣本時看起來很穩健,然而,在面臨更強的對抗因子時,模型顯示出的對抗精確度基本為 0%(Athalye et al,2018,Uesato et al,2018,Carlini and Wagner,2017)。

  雖然在監督學習下,大多數工作都關注一些罕見錯誤(其中以圖片分類任務居多),但是將這些方法擴展到其他場景中也是一件需要關注的事情。在最近關于發現重大錯誤的對抗方法的研究中,我們將這些方法應用于測試強化學習的智能體,這些智能體主要被應用在對安全性要求很高的場景中。開發自主系統的一個挑戰是,由于小錯誤可能會導致很嚴重的后果,因此我們容不得出現一點失誤。

  我們的目標是設計一個「攻擊者」,以便我們提前檢測到一些錯誤(例如,在受控環境中)。如果「攻擊者」可以有效地識別給定模型的最壞情況輸入,則能夠讓我們在部署模型之前捕捉到一些罕見失誤。與圖像分類器一樣,面對一個弱的「攻擊者」進行評估會在部署期間造成一種錯覺,即這是安全的。這類似于「紅隊研判法(red teaming)的軟件實踐」,不過對惡意攻擊者造成的失誤進行了延展,同時還包括了自然出現的失誤,例如泛化不足造成的失誤。

  針對于強化學習智能體的對抗測試,我們開發了兩種互補的方法。首先,我們使用無導數優化來直接最小化智能體的預期回報。在第二部分中,我們學習了一種對抗價值函數,該函數根據經驗預測哪些情況最有可能導致智能體失誤。然后,我們使用學習好的函數進行優化,將評估重點放在最有問題的輸入上。這些方法只構成了某個豐富且正在增長的潛在算法空間的一小部分,同時,對于嚴格評估智能體方面未來的發展,我們也感到非常激動。

  相比于隨機測試,這兩種方法已經實現了很大的改善。使用我們的方法,可以在幾分鐘內檢測到原需要花費數天才能發現甚至根本無法發現的失誤(Uesato et al,2018b)。我們還發現,對抗測試會定性地發現我們智能體的行為和在隨機測試集評估的預測結果之間存在的差異。特別是,使用對抗性環境構造,我們發現智能體在執行 3D 導航任務上的平均水平可與人類在同一任務上的表現相媲美,不過,它在十分簡單的迷宮上卻任務上,還不能夠完整地找到目標(Ruderman et al,2018)。此外,這項工作還強調,我們需要設計的系統除了要能對抗「攻擊者」,還要能夠抵御自然失誤。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

  使用隨機抽樣,我們幾乎從不觀察具有高失敗概率的地圖,但是對抗測試表明這樣的地圖確實存在。即使在移除了許多墻壁,變成比原始地圖更簡單的地圖后,這些地圖上的失敗概率依然很高。

  訓練與規范一致的模型對抗測試旨在找到違反規范的反例。因此,它往往會高估模型與這些規范的一致性。在數學上,規范是必須在神經網絡的輸入和輸出之間保持的某種關系。這可以采用某些鍵輸入和輸出參數的上限和下限的形式。

  受此觀察的啟發,一些研究人員(Raghunathan et al,2018; Wong et al,2018; Mirman et al,2018; Wang et al,2018),包括我們在 DeepMind 的團隊(Dvijotham et al,2018; Gowal et al.,2018),研究了與對抗測試程序無關的算法(用于評估與規范的一致性)。這可以從幾何學上理解,我們可以通過約束一組給定輸入情況下的輸出空間來約束與規范相差最大的情況(例如,使用間隔邊界傳播; Ehlers 2017,Katz et al,2017,Mirman et al,2018)。如果此區間相對于網絡參數是可微分的并且可以快速計算,則可以在訓練期間使用它。然后可以通過網絡的每個層傳播原始邊界框。

  

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

  我們證明了「間隔邊界傳播」(interval bound propagation)是快速且有效的方法,并且與先前的信念相反,這種方法可以獲得更加強大的結果(Gowal et al,2018)。特別地,我們證明它可以降低在 MNIST 和 CIFAR-10 數據集上的用于圖像分類的現有技術的可證明的錯誤率(即,任何「攻擊者」可實現的最大錯誤率)。

  該領域未來的下一步,將會是學習正確的幾何抽象以計算更嚴格的輸出空間過度概率。我們還希望訓練出能夠與更復雜的規范一致的網絡,從而捕捉到理想的行為,例如上面提到的不變性和與物理定律的一致性。

  形式化驗證嚴格的測試和訓練非常有助于構建強大的機器學習系統。但是,沒有多少測試可以形式化地確保系統的行為符合我們的要求。在大規模的模型中,由于輸入擾動有無窮多種,因此我們很難列舉出給定輸入集(例如,對圖像的無窮小擾動)所有可能的輸出。但是,與在訓練中的情況一樣,我們可以通過在輸出集上設置幾何區域來找到更有效的方法。形式化驗證是 DeepMind 正在進行的研究主題。

  關于如何計算網絡輸出空間上的精確幾何區域,機器學習研究界已經提出了幾個的有趣的 idea(Katz et al,2017,Weng et al,2018; Singh et al,2018)。我們的方法(Dvijotham et al,2018),則基于優化和二元性,包括將驗證問題表述為一個試圖找到被驗證的屬性中最大的違規行為的優化問題。同時,該問題通過在優化中使用二元性的思想而變得更易于計算。這就會帶來了額外的約束,其使用所謂的「切割平面」來細化經「間隔邊界傳播」計算得來的邊界框。這種方法雖然合理但不完整:可能存在興趣屬性為真,但此算法計算的區域范圍不足以證明該屬性的情況。但是,一旦我們得到了區域范圍,這就形式化的保證了不會有違反屬性的行為。下圖以圖形方式說明了該方法。

  

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

  這種方法使我們能夠將驗證算法的適用性擴展到更廣泛的網絡(激活函數,體系結構)、一般規范和更復雜的深度學習模型(例如生成模型、神經過程等)以及對抗魯棒性以外的規范(Qin,2018)。

  總結在高風險情況下部署機器學習帶來了獨特的挑戰,并且需要開發相應的能夠可靠地檢測故障模式的評估手技術。更具體而言就是,我們認為,相比于僅僅從訓練數據中隱含地生成規范的方法而言,學習與規范的一致性的方法能夠帶來更有效的改進。我們對于正在進行的對抗評估、魯棒性模型學習和形式化規范驗證的研究,都感到非常興奮。

  為了確保現實世界中的 AI 系統能夠做出「正確的事情」,我們還需要做更多的工作來創建自動化工具。我們對以下方向的進展特別感興趣:

  1、學習對抗性評估和驗證:隨著 AI 系統的擴展和復雜程度不斷增加,設計能很好擬合 AI 模型的對抗性評估和驗證算法將變得越來越困難。如果我們可以利用 AI 的強大功能來促進評估和驗證,那么將大大加速這項研究的進展。

  2、開發用于對抗性評估和驗證的工具并對外開放:為 AI 工程師和從業者提供易于使用的工具非常重要,這些工具可以在 AI 系統導致廣泛的負面影響之前,就讓研究者知道其可能的故障模式。這需要對對抗性評估和驗證算法實現某種程度上的標準化。

  3、擴大對抗樣本的范圍:到目前為止,大多數關于對抗樣本的工作都集中在對小擾動(通常是圖像)的模型不變性上。這為開發對抗性評估、魯棒學習和驗證方法提供了極好的測試平臺。我們已經開始探索與現實世界直接相關屬性的替代規范,并對未來在這方面的研究感到興奮。

  4、學習規范:在 AI 系統中捕獲「正確」行為的規范通常難以進行精準陳述。當我們可以構建能夠展示復雜行為并在非結構化環境中行動的更加智能的智能體時,我們將能夠創建能夠使用部分人類規劃的系統,但這些系統還需要從可評估的反饋中更加深入地學習規范。

  DeepMind 通過負責任地進行機器學習系統開發和部署,致力于對社會產生積極的影響。為了確保開發人員的貢獻是有積極意義的,我們還需要應對許多技術挑戰。我們致力于參與這項工作,并很高興能夠與更多人合作解決這些挑戰。

  via:https://deepmind.com/blog/robust-and-verified-ai/金科網 AI 科技評論報道

  金科網原創文章,未經授權禁止轉載。詳情見轉載須知。

機器學習模型中的 bug 太難找?DeepMind 呈上了三種好方法!

415事件 415事件 IFO abcc交易所 ama事件 bibox bitfinex bitshares bitstamp btcguild btcguild主頁 btcc btcguild btc論壇 chain coin coinbase coinmarket coinmarketcap dc資訊 deepbit ether ethereum filecoin fiscobcos hotstuff huobi huobiwang hyperledger ico比特幣 imtoken kncminer kyle lsk mtgox破產 nervos okcoin okcoin okcoin交易平臺 okex公眾號被封 purpleline purse r3 ripple thundernetwork usdt暴跌 vdf zcash 愛德華·斯諾登 暗黑幣 巴菲特比特幣 巴西比特幣洗錢案 百度區塊鏈白皮書 斑馬社 比特幣8000美元 比特幣價格 比特幣暴漲 比特幣跌破 比特幣風險 比特幣工廠 比特幣匯率 比特幣交易平臺 比特幣交易網 比特幣今日價格 比特幣勒索 比特幣論壇 比特幣騙局 比特幣期貨 比特幣世界 比特幣是什么 比特幣聽證會 比特幣現金 比特幣行情 比特大陸 比特股 比特論壇 比特現金 比原鏈 幣貝 幣創網 幣網 幣盈網 幣眾籌 博納云 蔡欣 超主權貨幣 傳銷組織售暗黑幣 達世幣 復雜美區塊鏈 公信寶 共享財經 狗狗幣 關于防范比特幣風險的通知 韓鋒 韓國vs委內瑞拉 荷蘭皇家殼牌集團 荷蘭式拍賣 賀華成 恒星幣 火幣網 基亞索 極度貪婪 加密貨幣 蔣旭憲 金磊 矩陣元 烤貓 老貓 雷霆網 量化交易 鄰萌寶 孟巖 摩根幣官網 魔獸世界密保卡 旁氏騙局 區塊鏈 區塊鏈知乎 區塊鏈是什么 區塊鏈游戲 區域鏈 全球區塊鏈大會 榮格財經 瑞波幣 瑞波幣交易平臺 塞浦路斯事件 閃電網絡 什么是區塊鏈 史玉柱女兒史靜 首家互聯網法院 數秦科技 溯源鏈 算力吧 特朗普任命幕僚長 填補空白 萬向區塊鏈 王峰十問 王瑞錫 網易王磊 微寬網 維卡幣官網 烏克蘭前總理 西湖龍井資訊平臺 下架幣 小企股 小喵 迅雷在美遭遇訴訟 迅雷資訊 央行比特幣 以太 以太幣 以太坊 以太坊官網 以太坊價格 隱私云 于佳寧 元界 張海寧 賬本 質數幣 中本聰 朱波 朱嘉明 資本實驗室 資產上鏈 1噸tnt的威力 1噸tnt的威力 2016深圳雙創周 2016影響因子 2017新增院士名單公示 2017院士增選名單 2017支付寶掃碼領紅包 21噸tnt 2g物聯網芯片 360ak47 360百度大戰 360ak47 360百度大戰 360大戰百度 360和百度大戰 360黑匣子 360手機ak47 360與百度大戰 5.3寸手機 9505和9500區別 SmartisanOS發布會 bada論壇 build2017大會 csdn泄密 cv狗狗 dubike官網 evad3rs官網 facebook時間線 flappybird記錄 google資訊 gpu是什么 icloud艷照門 inwatch官網 ios7支持機型 iphone5nanosim卡 iphone5宣傳片 iphone5最新消息 iphone6mini iphone7或成愛瘋最終形態 i美股 jwotch腕寶 lbs觀景臺 lily無人機 lytro光場相機 miuiv6發布會直播 mobileye被收購 myo腕帶 nasa最新消息 nest恒溫器 norse黑客大戰 okex公眾號被封 pepper機器人 pornhubcom日本視頻 prynt手機殼 pythonmatplot繪圖 qq火炬 qq天降紅包 smartphone手機 sophone官網 tegra3四核處理器 ttg優惠券 vr愛情動作片在線播放 vr愛情動作片資源 vr左右格式愛情動作片 wifi怎么讀 wp7越獄 阿里巴巴上市視頻直播 阿里巴巴新任ceo 阿里無人超市 艾薇兒艷照事件 愛搞機 愛稀奇網 安卓挖礦蠕蟲 暗黑機器人 奧巴馬僵尸粉 奧迪男 百步淘 百度財報 百度360大戰 百度財報 百度美拍 百度通訊錄 百融 暴風播控云 暴風資訊 貝利珠 便利貼相機 播控云 草榴最新 草榴11 草榴客戶端 草榴色導航 草榴色區 草榴時光 草榴網站 暢呼吸 超光速引擎 車國網 陳小同 陳孝良 池澤彩野花 錘子手機發布會2016 垂直搜索引擎有哪些 春運車票四大陷阱 大旗網 大旗網首頁 大色魚網站 戴珊 地溝油航班首飛行 點滴網絡 點心os 點心rom 電信董事長調任移動 電蟒 丁道師 丁香園用藥助手 獨立調查員 兌吧積分商城 多聽v電臺 發改委罰高通60億 發現應用克隆漏洞 凡宇資訊 飛飛發 風火輪滑板 符德坤 福島電站輻射爆表 福島核電站輻射爆表 高通8064 工業互聯網 宮爆老奶奶bug 共享女友項目被罰 狗眼看世界 谷歌資訊 廣告資訊 桂花網 桂衛華 郭佳 郭子威 國產手機信息網 國外選美辣眼睛 海爾透明電視 韓寒的雜志 航芯一號 毫米波 黑莓a10 虹膜支付 紅米首發新品 紅星操作系統 后pc時代 胡時偉 互聯網最新資訊 華納資訊 華佗智能醫生 黃網 黃修源 徽劍 機器人技術 機器人記者崛起 極飛科技 極幕 極幕vr眼鏡 集群飛行器 計算機圖形學 記憶球 記者700元買同事行蹤 賈躍亭令計劃 監聽門 江蘇快3上宏發玩 街旁app 金蝶微博 金立e7發布會 京東金融更名 京東數據泄露 九又vr 凱文·米特尼克 考拉班車 考拉盒子 科大訊飛教育 科技媒體 科學家探測到引力波 空中巴鐵 酷開vr 酷六網 快按鈕 快播咨詢 快播資訊 快播資訊首頁 快播最新 雷峰 雷鋒 雷鋒電影 雷鋒2012 雷鋒報 雷鋒的 雷鋒的電影 雷鋒的死因 雷鋒的頭像 雷鋒的真相 雷鋒電影 雷鋒介紹 雷浪聲 李開復寫的書 李文棟 李一舟 李一舟微博 李一周 量子態隱形傳輸 林德康 林志穎iphone5 劉成敏 劉明輝 劉韌磊 劉世康 路寶盒子 鹿晗清晗基金陷色情門 羅永浩西門子 美國大選實時 美立知 蒙特卡洛樹搜索 猛犸4瀏覽器 米多娛樂 覓創 明日合伙人 爬行者 潘翔 蘋果ceo年薪 蘋果飛行器 蘋果新ceo 蘋果最新消息 ⑵槳宓縋宰钚倫恃?企業社交網絡 搶購信息 喬治·霍茲 親心小號 邱懿武 曲奇單車 趣店數據疑似外泄 仁寶回應樂視欠款 人工智能圖普科技. 人工智能技術 人工智能建站系統 人工智能圖普科技 人魔網 日志寶 如果云 三星gearvr-vive 山寨iphone5 舌尖上的元素周期表 申威1600 申威1600處理器 深航app劫持微信 深圳車牌 神舟天宮對接成功 沈向洋 視頻壓縮算法 試用目錄 手機氣壓感應器 手機水貨和行貨的區別 手機水貨與行貨的區別 數據丟失 數字化醫療 斯諾登事件最新消息 私家車不允許當專車 宋黎明 孫冰 孫丕恕 索尼honami 探針盒子 唐楊林 特斯拉處破產邊緣 特斯拉進入迪拜 騰訊安全反病毒實驗室 騰訊創業服務平臺 騰訊優圖實驗室 同盾科技 圖片搜索引擎大全 玩客幣騙局 玩客云騙局 汪滔 王漢華 王思聰吐槽ios9 王星 王自如致歉 網紅臉識別大戰 網紅臉識別人機大戰 網易郵箱密碼泄露 網易郵箱泄露 微軟補丁 微軟漏洞 微軟面試題 微軟宣布完成收購 微信5.5 為盲胞讀書 溫州電視臺被黑 溫州廣電被黑 溫州有線電視被黑 文件大師 無人機配件清單 吳俊杰 西湖論劍 夏航 先聲教育 鮮果聯播 小米2013年度發布會 小米4c發布會 小米iot 小米暢聊 小米資訊網 肖恩·范寧 肖力 新浪輕博客 嗅探 虛擬房間 迅雷大數據 迅雷新聞 迅雷資訊 迅雷資訊首頁 亞航客機失聯8大事實 巖田聰 遙控直升機原理 業界新聞 一噸tnt的威力 一數科技 醫療問答平臺 伊莉 移動互聯 易趴網 銀行數據挖掘 印度發104顆衛星 英偉達收購mellanox 硬件資訊 優談寶寶 游戲畫風讓人流鼻血 有鵬出行 俞太尉 俞揚 約翰斯卡利 岳路平 月餅事件 云罐 責令運營商整改 宅客 窄播 張嘉偉 張夢華 張首晟去世 張溪夢 哲也 臻識 臻識科技 織點智能 智慧 智能 智能網站 智適應 智鈾科技 周鴻祎天天向上 周路明 朱坤 抓小三軟件 追氣球的熊孩子 咨詢快播 資訊快播 資訊快播下載 自動駕駛出租車 最新病毒信息 最新色情片 最新艷照 汶川地震6周年 炫輪 睿醫智能醫生 魅藍metal發布會 魅族mx四核評測 chengren游戲 chengren游戲 htc視頻 htc游戲 htc游戲免費下載 h單機游戲下載 vr評測 vr世界 vr體驗館 vr網站 vr下載 vr虛擬現實 vr游戲 vr資訊 vr資源 安卓h游戲 安卓成人游戲 安卓手機成人游戲 奧秘世界 暴風魔鏡4 北京虛擬現實 成年網絡游戲 成仁游戲 成仁游戲單機 成人網頁游戲 成人網游 成人游戲 成人h單機游戲 成人h游戲下載 成人youxi 成人單擊游戲 成人單機版游戲 成人單機小游戲下載 成人單機游戲排行榜 成人單機游戲網 成人單機游戲下載 成人單機游戲下載基地 成人電腦單機游戲 成人電腦游戲 成人網絡游戲 成人網頁 成人網頁小游戲 成人網頁游戲 成人網游下載 成人游戲 成人游戲單機版 成人游戲電腦版 成人游戲機 成人游戲免費下載 成人游戲排行榜 成人游戲下載網站 成人游戲迅雷下載 成人娛樂 成人娛樂中心 成人之家 承認游戲 大朋看看 單機版成人游戲 單機成人小游戲 單機成人游戲 單機成人游戲下載 多哚 風云客 極維客 九又vr 樂客vr 羅技游戲方向盤 色請游戲 體感游戲 外星人alw17er 網頁成人游戲 微軟眼鏡 虛擬現實游戲 虛擬現實中國社區 移動vr 掌網 最新h單機游戲 嗨鏡