第一av在线_日韩成人久久久_亚洲人成电影网站色_精品精品导航_亚洲综合中文_精品国产91久久久久久_可以在线观看的黄色_99热这里有精品

您當(dāng)前的位置 :環(huán)球傳媒網(wǎng)>科技 > 正文
新工具可以在運(yùn)行的語言模型影響用戶之前發(fā)現(xiàn)并修復(fù)其有害行為
2022-02-18 09:48:30 來源:DeepTech深科技 編輯:

語言賦予人類表達(dá)思想、交流概念、創(chuàng)造記憶和相互理解的能力,開發(fā)和研究強(qiáng)大的語言模型有助于構(gòu)建安全高效的高級(jí)人工智能系統(tǒng)。

此前,研究人員通過使用人工注釋器手寫測(cè)試用例來識(shí)別語言模型部署前的有害行為。這種方法是有效的,但由于人工注釋成本高昂,測(cè)試用例的數(shù)量和多樣性被大大限制。

近日,谷歌 DeepMind 團(tuán)隊(duì)發(fā)表了一項(xiàng)新研究,他們提供了一種名為“紅隊(duì)”(Red Teaming)的工具,可以在運(yùn)行的語言模型影響用戶之前發(fā)現(xiàn)并修復(fù)其有害行為。

在這項(xiàng)研究中,DeepMind 使用經(jīng)過訓(xùn)練的分類器來評(píng)估目標(biāo)語言模型對(duì)生成測(cè)試用例的回復(fù)情況,并檢測(cè)其中的冒犯性內(nèi)容。最終,該團(tuán)隊(duì)在參數(shù)達(dá) 280B 的語言模型聊天機(jī)器人中發(fā)現(xiàn)上萬條冒犯性回復(fù)。

據(jù)悉,DeepMind 通過即時(shí)工程來檢測(cè)語言模型生成的測(cè)試用例,以發(fā)現(xiàn)各種其他危害,包括自動(dòng)查找聊天機(jī)器人的攻擊性回復(fù)、被聊天機(jī)器人濫用的私人電話號(hào)碼、以及在生成文本中泄露的私人訓(xùn)練數(shù)據(jù)等。

生成式語言模型有時(shí)會(huì)以意料不到的方式危害到用戶,其可能會(huì)輸出不良的文本內(nèi)容。而在實(shí)際應(yīng)用程序中,哪怕只有極小的可能性會(huì)對(duì)用戶造成傷害,也是不被允許的。

2016 年,微軟推出了能夠自動(dòng)發(fā)布推文給用戶的 Tay 機(jī)器人。但在上線的 16 小時(shí)內(nèi),有幾名用戶利用 Tay 機(jī)器人的漏洞,讓其將帶有種族主義和性意味的推文發(fā)送給了超過 5 萬名用戶,之后微軟將該機(jī)器人關(guān)閉。

然而,這并不是因?yàn)槲④浀氖韬觥N④浉笨偛帽说?middot;李(Peter Lee)表示,“我們已經(jīng)做好了應(yīng)對(duì)許多類系統(tǒng)濫用行為的準(zhǔn)備,而且我們對(duì)這一特定攻擊進(jìn)行了關(guān)鍵監(jiān)督。”

癥結(jié)在于,會(huì)致使語言模型輸出有害文本的場(chǎng)景數(shù)不勝數(shù),研究人員無法在語言模型被部署到現(xiàn)實(shí)中之前找出一切可能發(fā)生的情況。

正如大家所熟知的強(qiáng)大語言模型 GPT-3,盡管其能夠輸出高質(zhì)量的文本內(nèi)容,但卻不容易在真實(shí)世界中完成部署。

圖 | GPT-3 模型用于法語語法更正(來源:OpenAI)

據(jù)了解,DeepMind 的目標(biāo)是通過自動(dòng)查找故障案例來對(duì)手寫測(cè)試用例進(jìn)行補(bǔ)充,從而減少關(guān)鍵疏忽的數(shù)量。

為此,DeepMind 使用語言模型本身生成測(cè)試用例,從零觸發(fā)生成到監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),DeepMind 探索了多種方法來生成具有不同多樣性和難度的測(cè)試用例,這將有助于獲得高測(cè)試覆蓋率及模擬對(duì)抗性案例。

此外,DeepMind 使用分類器檢測(cè)測(cè)試用例上的以下各種有害行為:

首先是冒犯性語言,模型有時(shí)會(huì)發(fā)表具有歧視、仇恨、色情等意味的內(nèi)容;其次是數(shù)據(jù)外泄行為,模型濫用訓(xùn)練時(shí)給到的數(shù)據(jù)庫,包括私人的身份信息;再次是聯(lián)系信息的濫用,模型會(huì)發(fā)送無意義的電子郵件或通過電話打擾到其他真實(shí)用戶;然后是群體認(rèn)知偏差,即在輸出的文本內(nèi)容中包含對(duì)某些人群不公正的偏見類言論;最后,模型還會(huì)在與用戶對(duì)話時(shí),作出有攻擊性等不良意味的回復(fù)。

在明確哪些行為會(huì)給用戶造成傷害后,如何去修復(fù)這些行為就不是難事了,DeepMind 主要采取了以下幾種方式:

例如,通過禁止語言模型使用在不良內(nèi)容中高頻率出現(xiàn)的詞組,來盡量避免模型輸出有害文本;在迭代階段,篩選并刪除語言模型在訓(xùn)練時(shí)使用過的攻擊性對(duì)話數(shù)據(jù);強(qiáng)化語言模型的意識(shí),訓(xùn)練時(shí)嵌入特定類型輸入所需的行為案例;在標(biāo)準(zhǔn)測(cè)試中對(duì)模型進(jìn)行最初輸出文本的訓(xùn)練,最大化避免輸出有害文本的情況。

總的來說,基于語言模型的“紅隊(duì)”是一種具有發(fā)展前景的工具,可以發(fā)現(xiàn)語言模型何時(shí)在以各種不良方式運(yùn)行,應(yīng)該與其他許多用于發(fā)現(xiàn)并緩解語言模型中危害的技術(shù)工具一起使用。

值得一提的是,DeepMind 的這項(xiàng)研究還可用于先發(fā)制人地發(fā)現(xiàn)來自高級(jí)機(jī)器學(xué)習(xí)系統(tǒng)的其他假設(shè)危害,如由內(nèi)部失調(diào)或客觀穩(wěn)健性失效而引發(fā)的故障。

圖 | Gopher 模型進(jìn)行對(duì)話交互(來源:DeepMind)

前不久,DeepMind 對(duì)外公布了具有 2800 億參數(shù)的全新語言模型 Gopher,其在參數(shù)量上超越了 OpenAI 的 GPT-3。

在性能方面,研究人員測(cè)試了 152 個(gè)任務(wù)后得出,Gopher 在絕大多數(shù)的任務(wù)中遠(yuǎn)勝 SOTA 模型,特別是在需使用大量知識(shí)來應(yīng)對(duì)的方面。

這些成就為 DeepMind 未來的語言研究奠定了基礎(chǔ),進(jìn)一步推動(dòng)了其解決智能問題以推進(jìn)科學(xué)并造福人類的使命實(shí)現(xiàn)。

關(guān)鍵詞: 語言模型 修復(fù)其有害行為 影響用戶 新型工具

相關(guān)閱讀
分享到:
版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件,均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)",并保留"環(huán)球傳媒網(wǎng)"的電頭。

Copyright ? 1999-2017 cqtimes.cn All Rights Reserved 環(huán)球傳媒網(wǎng)-重新發(fā)現(xiàn)生活版權(quán)所有 聯(lián)系郵箱:8553 591@qq.com
亚洲人成在线播放网站岛国 | 欧美一区二区三区播放老司机| 老牛国内精品亚洲成av人片| 亚洲图区欧美| 国产精品一区二区三区网站| 成人在线免费公开观看视频| 91免费在线播放| 亚洲人体在线| 日韩国产高清影视| wwwxxx在线观看| 国产一区二区精品福利地址| 成人在线观看一区| 亚洲国产成人精品久久久国产成人一区| 亚洲日本丝袜连裤袜办公室| 韩国视频一区二区| 要久久爱电视剧全集完整观看| 日本不卡免费播放| 一区二区三区欧美激情| 久久久久久久久久久久久久久久久久 | 在线综合欧美| 亚洲成人影院在线观看| 国产欧美高清| 最近2018中文字幕免费在线视频| 久久精品国内一区二区三区| 午夜久久美女| 精品国产一区二区三区久久久蜜臀 | 久久精品国产免费| 波多野结衣在线一区二区| 成人av动漫在线| fc2ppv国产精品久久| 亚洲片国产一区一级在线观看| 亚洲自拍偷拍九九九| 久久综合中文字幕| 久久久久久久电影| 成人免费看的视频| av不卡在线| 欧美精选视频在线观看| 成人污污www网站免费丝瓜| 精品夜色国产国偷在线| 不卡欧美aaaaa| 激情不卡一区二区三区视频在线| 91骚色在线| 国产欧美一区二区三区鸳鸯浴| 日韩亚洲一区在线| 一本免费视频| 中文字幕第一区二区| 日韩理论电影| 日韩成人综合网站| 伊人久久精品一区二区三区| eeuss鲁片一区| 97久久超碰国产精品| 日韩欧美一区二区三区免费看| 国产三级电影在线播放| 国产精品 欧美精品| 久久久久美女| 欧美日韩一区二区三区不卡视频| 欧美日韩视频免费播放| 欧美日韩中文字幕| 最新欧美精品一区二区三区| 久久99国产精品麻豆| 狠狠88综合久久久久综合网| 亚洲图区一区| 欧美综合亚洲图片综合区| 麻豆一区二区三| 少妇精品久久久一区二区| 黄色在线网站噜噜噜| 精品成人私密视频| 在线免费观看欧美| 中文字幕日韩亚洲| 欧美成人三区| 亚洲国产福利| 成人三级黄色免费网站| 国产精品国产自产拍高清av王其| 国产主播精品| 99国产精品免费视频观看| 久久夜色电影| 黄页网站在线观看| 久久婷婷国产综合国色天香| 久久这里都是精品| 国产剧情一区二区| 国产精品夜夜爽| 日韩电影免费一区| 紧缚捆绑精品一区二区| 久久69国产一区二区蜜臀| 欧美理论视频| 日韩电影免费观看高清完整版| 亚洲欧美激情视频| 精品国产一区二区三区av性色| 亚洲国产视频直播| 99re视频精品| 日韩视频一二区| 2022成人影院| 国产原创精品视频| 成人做爰免费视频免费看| 国产精品天堂蜜av在线播放| 成人高清在线| 狠狠干夜夜操| 日韩黄色av网站| 亚洲精品永久免费| 精品国产伦一区二区三区观看方式 | 激情综合视频| 在线手机福利影院| 一区二区三区四区激情| 亚洲精品麻豆| 中文字幕在线直播| 日韩精品极品视频免费观看| 国产iv一区二区三区| 999久久久精品一区二区| 天堂av中文在线资源库| 欧美亚日韩国产aⅴ精品中极品| 老司机午夜免费精品视频| 蜜桃av噜噜一区| 99精品美女| а天堂中文最新一区二区三区| 少妇高潮一区二区三区99| 性网站在线看| 一区二区三区四区乱视频| 午夜综合激情| 亚洲精品国产动漫| 视频在线观看免费影院欧美meiju| 日韩成人免费视频| 中文字幕不卡在线播放| 欧美精品二区| 欧美gv在线| 亚洲国产精品女人久久久| 国产伦精品一区二区三区视频青涩 | 成人爽a毛片免费啪啪| 日韩精品中文字幕视频在线| 国产精品视频在线看| 毛片一区二区| 亚洲欧美日韩国产一区二区| 午夜欧美巨大性欧美巨大| 亚洲综合视频| 成年人在线网站| 亚洲色图国产| 日本中文字幕高清视频| 一区二区三区免费| 欧美人与禽zozo性伦| 国产美女视频黄a视频免费| 亚洲精品v天堂中文字幕| 情趣视频网站在线免费观看| 亚洲欧美国产一区二区三区| 视频一区免费在线观看| 香蕉久久夜色精品国产| 久久综合久久综合九色| 亚洲色大成网站www久久九九| 一区二区在线观看免费| 91麻豆精品国产综合久久久久久 | 毛片在线网址| 日本久久二区| 97精品资源在线观看| 丝袜av一区| 不卡av免费在线观看| 色88888久久久久久影院按摩| 性欧美大战久久久久久久久| 欧美日韩在线视频首页| 蜜芽在线免费观看| 色135综合网| 欧美国产成人精品| 偷拍精品精品一区二区三区| 中国女人久久久| 91精品国产91久久久久久一区二区 | 日本不卡高清| 国产精品亲子乱子伦xxxx裸| 欧美一区二区三区日韩视频| 韩国中文字幕在线| 成人软件在线观看| 波多野结衣一区| 国产主播一区二区三区| 欧美国产精品一区二区三区| 亚洲欧美综合精品久久成人| 蜜桃视频www网站在线观看| 美女一区2区| 国产成人精品综合在线观看| 一本大道久久a久久精品综合| 青草青在线视频| 成人动漫一区二区| 日本亚洲一区| 窝窝社区一区二区| 久久综合色之久久综合| 在线观看免费网站| 色综合久久中文| 国产农村妇女精品一区二区 | 国产高清日韩| 成人国产电影网| 欧美视频一区二区三区在线观看| 北条麻妃一区二区三区在线| 色94色欧美sute亚洲13| 妖精一区二区三区精品视频| 欧美日韩一区二区精品| 欧亚一区二区| 午夜国产精品影院在线观看| 欧洲精品99毛片免费高清观看| 久久久久国产精品厨房| 午夜免费播放观看在线视频| 欧美三级午夜理伦三级小说| 亚洲视频资源在线| 2018av在线| 在线亚洲精品| 2023欧美最顶级a∨艳星|