Search : currency exchange car rent cheap hotels forex exchange airline tickets hotels hotel forex trading 

ChatGPT核心方法可用于AI繪畫,效果飛升47%*

ChatGPT中有這樣一個 核心訓練方法,名叫「 人類反饋強化學習(RLHF)」。
它可以讓模型更安全、輸出結果更遵循人類意圖。
現在,來自谷歌Research和UC伯克利的研究人員發現,將該方法用在 AI繪畫上,「治療」圖像跟輸入不完全匹配的情況,效果也奇好——
可以實現 高達47%的改進。

△ 左為Stable Diffusion,右為改進后效果
這一刻,AIGC領域中兩類大火的模型,似乎找到了某種「共鳴」。
如何將RLHF用于AI繪畫?RLHF,全稱「Reinforcement Learning from Human Feedback」,是OpenAI和DeepMind于2017年合作開發的一種強化學習技術。
正如其名,RLHF就是用人類對模型輸出結果的評價(即反饋)來直接優化模型,在LLM中,它可以使得「模型價值觀」更符合人類價值觀。
而在AI圖像生成模型中,它可以讓生成圖像與文本提示得到充分對齊。
具體而言, 首先,收集人類反饋數據。
在這里,研究人員一共生成了27000余個「文本圖像對」,然后讓一些人類來打分。
為了簡單起見,文本提示只包括以下四種類別,分別關乎數量、顏色、背景和混合選項;人類的反饋則只分「好」、「壞」與「不知道(skip)」。

其次,學習獎勵函數。
這一步,就是利用剛剛獲得的人類評價組成的數據集,訓練出獎勵函數,然后用該函數來預測人類對模型輸出的滿意度(公式紅色部分)。
這樣,模型就知道自己的結果究竟有幾分符合文本。

除了獎勵函數,作者還提出了一個輔助任務(公式藍色部分)。
也就是當圖像生成完成后,模型再給一堆文本,但其中只有一個是原始文本,讓獎勵模型「自己檢查」圖像是否跟該文本相匹配。
這種逆向操作可以讓效果得到「雙重保險」(可以輔助下圖中的step2進行理解)。

最后,就是微調了。
即通過獎勵加權最大似然估計(reward-weighted likelihood maximization)(下公式第一項),更新文本-圖像生成模型。

為了避免過擬合,作者對預訓練數據集上的NLL值(公式第二項)進行了最小化。這種做法 類似于InstructionGPT (ChatGPT的「直系前輩」)。
效果提升47%,但清晰度下滑5%如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微調過后的模型可以:
(1)更正確地get文本里的「兩只」和「綠色」;

(2)不會忽略「大海」作為背景的要求;

(3)想要紅老虎,能給出「更紅」的結果。

從具體數據來看,微調后的模型人類滿意度為50%,相比原來的模型(3%),得到了47%的提高。
不過,代價是失去了5%的圖像清晰度。

從下圖我們也能很清楚的看到,右邊的狼明顯比左邊的糊一些:

對此,作者表示,使用更大的人類評價數據集和更好的優化 (RL) 方法,可以改善這種情況。
關于作者本文一共9位作者。

一作為谷歌AI研究科學家Kimin Lee,韓國科學技術院博士,博士后研究在UC伯克利大學展開。

華人作者三位:
Liu Hao,UC伯克利在讀博士生,主要研究興趣為反饋神經網絡。
Du Yuqing,同UC伯克利博士在讀,主要研究方向為無監督強化學習方法。
Shixiang Shane Gu (顧世翔),通訊作者,本科師從三巨頭之一Hinton,博士畢業于劍橋大學。

△ 顧世翔
值得一提的是,寫這篇文章時他還是谷歌人,如今已經 跳槽至OpenAI,并在那里直接向ChatGPT負責人報告。

前一頁 後一頁





© 2017 TATYUN All Rights Reserved.
隱私條款 | 聯絡我們


重要聲明:本網站是以即時上載文章的方式運作,本站對所有文章的真實性、完整性及立場等,不負任何法律責任。而一切文章內容只代表發文者個人意見,並非本網站之立場,用戶不應信賴內容,並應自行判斷內容之真實性。發文者擁有在 TATYUN 張貼的文章。 由於本站是受到「即時發表」運作方式所規限,故不能完全監察所有即時文章,若讀者發現有留言出現問題,請聯絡我們。本站有權刪除任何留言及拒絕任何人士發文,同時亦有不刪除文章的權利。切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。US