Hi，歡迎來(lái)到黃頁(yè)88網(wǎng)！

我的黃頁(yè)88 |
客服中心 |

密碼找回

賬號(hào)找回

刪除信息

常見(jiàn)問(wèn)題
注冊(cè)發(fā)布標(biāo)準(zhǔn) |
手機(jī)黃頁(yè)88

移動(dòng)版官網(wǎng)

微信公眾號(hào)

視頻號(hào)
黃頁(yè)88國(guó)際站

當(dāng)前位置：首頁(yè) > 人工智能 > ChatGPT運(yùn)用了哪些高端技術(shù)？

ChatGPT運(yùn)用了哪些高端技術(shù)？

互聯(lián)網(wǎng)時(shí)間： 2023-05-08 10:34:45

ChatGPT整體技術(shù)方案是基于 GPT-3.5 大規(guī)模語(yǔ)言模型通過(guò)人工反饋強(qiáng)化學(xué)習(xí)來(lái)微調(diào)模型，讓模型一方面學(xué)習(xí)人的指令，另一方面學(xué)習(xí)回答的好不好。

核心提升了什么？

ChatGPT在對(duì)話場(chǎng)景核心提升了以下三方面：

1）更好的理解用戶的提問(wèn)，提升模型和人類(lèi)意圖的一致性，同時(shí)具備連續(xù)多輪對(duì)話能力。

2）大幅提升結(jié)果的準(zhǔn)確性，主要表現(xiàn)在回答的更加的全面，同時(shí)可以承認(rèn)錯(cuò)誤、發(fā)現(xiàn)無(wú)法回答的問(wèn)題。

3）具備識(shí)別非法和偏見(jiàn)的機(jī)制，針對(duì)不合理提問(wèn)提示并拒絕回答。

ChatGPT的提升主要涉及以下三方面技術(shù)：

1）性能強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型GPT3.5，使得模型具備了博學(xué)的基礎(chǔ)。

2）webGPT等工作驗(yàn)證了監(jiān)督學(xué)習(xí)信號(hào)可大幅提升模型準(zhǔn)確性。

3）InstructGPT等工作引入強(qiáng)化學(xué)習(xí)驗(yàn)證了對(duì)齊模型和用戶意圖的能力。

ChatGPT技術(shù)

整體技術(shù)流程

ChatGPT的訓(xùn)練過(guò)程分為微調(diào)GPT3.5模型、訓(xùn)練回報(bào)模型、強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)微調(diào)模型三步：

第一步：微調(diào)GPT3.5模型。讓GPT 3.5在對(duì)話場(chǎng)景初步具備理解人類(lèi)的的意圖，從用戶的prompt集合中采樣，人工標(biāo)注prompt對(duì)應(yīng)的答案，然后將標(biāo)注好的prompt和對(duì)應(yīng)的答案去Fine-tune GPT3.5，經(jīng)過(guò)微調(diào)的模型具備了一定理解人類(lèi)意圖的能力。

第二步：訓(xùn)練回報(bào)模型。第一步微調(diào)的模型顯然不夠好，至少他不知道自己答的好不好，這一步通過(guò)人工標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)回報(bào)模型，讓回報(bào)模型來(lái)幫助評(píng)估回答的好不好。具體做法是采樣用戶提交的prompt，先通過(guò)第一步微調(diào)的模型生成n個(gè)不同的答案，比如A、B、C、D。接下來(lái)人工對(duì)A、B、C、D按照相關(guān)性、有害性等標(biāo)準(zhǔn)標(biāo)準(zhǔn)并進(jìn)行綜合打分。有了這個(gè)人工標(biāo)準(zhǔn)數(shù)據(jù)，采取pair-wise 損失函數(shù)來(lái)訓(xùn)練回報(bào)模型RM。這一步實(shí)現(xiàn)了模型判別答案的好壞。

第三步：強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)微調(diào)模型。使用第一步微調(diào)GPT3.5模型初始化PPO模型，采樣一批和前面用戶提交prompt不同的集合，使用PPO模型生成答案，使用第二步回報(bào)模型對(duì)答案打分。通過(guò)產(chǎn)生的策略梯度去更新PPO模型。這一步利用強(qiáng)化學(xué)習(xí)來(lái)鼓勵(lì)PPO模型生成更符合RM模型判別高質(zhì)量的答案。

通過(guò)第二和第三步的迭代訓(xùn)練并相互促進(jìn)，使得PPO模型能力越來(lái)越強(qiáng)。

主要涉及的技術(shù)細(xì)節(jié)

1） GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技術(shù)上進(jìn)行微調(diào)的，這里對(duì)GPT-3.5在GPT3基礎(chǔ)上做的工作進(jìn)行梳理，官方列舉了以下GPT-3.5系列幾個(gè)型號(hào)：

code-davinci-002 是一個(gè)基礎(chǔ)模型,對(duì)于純代碼補(bǔ)全任務(wù)。這也是ChatGPT具備超強(qiáng)代碼生成能力的原因。

text-davinci-002 是在code-davinci-002基礎(chǔ)上訓(xùn)練的InstructGPT模型，訓(xùn)練策略是instructGPT+FeedRM。

text-davinci-003 是基于text-davinci-002模型的增強(qiáng)版本，訓(xùn)練策略是instructGPT+PPO。

根據(jù)如下圖官方發(fā)布的模型時(shí)間線和文檔，我們可以了解到ChatGPT是在text-davinci-003 基礎(chǔ)上微調(diào)而來(lái)，這也是ChatGPT模型性能如此強(qiáng)大的核心要素。因?yàn)镚PT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓(xùn)練，所以我們體驗(yàn)ChatGPT時(shí)候同樣無(wú)法回答訓(xùn)練樣本日期之后的問(wèn)題。

ChatGPT技術(shù)

2）監(jiān)督信號(hào)提升效果顯著

GPT3之前在預(yù)訓(xùn)練+微調(diào)已經(jīng)是NLP任務(wù)中標(biāo)準(zhǔn)范式，GPT3模型的訓(xùn)練是純自監(jiān)督學(xué)習(xí)并以API的形式發(fā)布，用戶不具備微調(diào)的能力，官方也是主打預(yù)訓(xùn)練+提示學(xué)習(xí)的能力。Prompt方法本質(zhì)是挖掘語(yǔ)言模型本身具備的知識(shí)，恰當(dāng)?shù)奶崾救ゼぐl(fā)語(yǔ)言模型的補(bǔ)全能力。監(jiān)督信號(hào)微調(diào)可以理解為改變了語(yǔ)言模型的理解能力，InstructGPT的工作可以理解為對(duì)GPT3-SFT做了數(shù)據(jù)增強(qiáng)提升，使得模型在理解人類(lèi)指令方面更出色。但這并不影響監(jiān)督信號(hào)對(duì)最終效果的價(jià)值。

在InstructGPT的工作中，我們可以看到GPT3-SFT和InstructGPT在毒性、幻覺(jué)、理解客戶能力上，監(jiān)督學(xué)習(xí)微調(diào)已經(jīng)和強(qiáng)化學(xué)習(xí)對(duì)比有很大的競(jìng)爭(zhēng)力，甚至在幻覺(jué)角度比基于強(qiáng)化學(xué)習(xí)的InstructGPT提升很明顯。

ChatGPT技術(shù)

3）人類(lèi)反饋強(qiáng)化微調(diào)效果

ChatGPT通過(guò)人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）來(lái)讓模型理解人類(lèi)的指令。人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）是DeepMind早期提出的，使用少量的人類(lèi)反饋來(lái)解決現(xiàn)代RL任務(wù)。RLHF的思想在很多工作中都有體現(xiàn)，例如OpenAI的webGPT、DeepMind中Sparrow等都通過(guò)人類(lèi)的反饋進(jìn)一步提升大模型的效果。

RLHF整個(gè)訓(xùn)練過(guò)程如下圖所示：

ChatGPT技術(shù)

目標(biāo)是實(shí)現(xiàn)后空翻的任務(wù)，智能體Agent在環(huán)境中隨機(jī)行動(dòng)，每隔一段時(shí)間，兩個(gè)行為的視頻片段給一個(gè)人，人判斷兩個(gè)視頻哪個(gè)更接近目標(biāo)。通過(guò)人的反饋數(shù)據(jù)，學(xué)習(xí)一個(gè)最能解釋人類(lèi)判斷的獎(jiǎng)勵(lì)模型Reward Model，然后使用RL來(lái)學(xué)習(xí)如何實(shí)現(xiàn)目標(biāo)。隨著人類(lèi)繼續(xù)提供模型無(wú)法判斷時(shí)候的反饋，實(shí)現(xiàn)了進(jìn)一步完善它對(duì)目標(biāo)的理解。智能體Agent從人類(lèi)反饋中學(xué)習(xí)最終在許多環(huán)境中有時(shí)甚至是超過(guò)人類(lèi)的表現(xiàn)。

行動(dòng)驅(qū)動(dòng)的大語(yǔ)言模型

盡管學(xué)術(shù)界一直無(wú)法真正定義AGI，今年大型語(yǔ)言模型（LLM）的表現(xiàn)讓我們對(duì)通用人工智能有了期待，通過(guò)OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功，人工智能的未來(lái)應(yīng)該是行動(dòng)驅(qū)動(dòng)的，一個(gè)行動(dòng)驅(qū)動(dòng)的LLM看起來(lái)很像AGI，如下圖所示:

ChatGPT技術(shù)

模型的行為就像一個(gè)智能體Agent選擇行動(dòng)。在中間，我們有開(kāi)箱即用的基礎(chǔ)模型LLM。用戶通過(guò)Prompt詢(xún)問(wèn)模型結(jié)果。

左邊是外部可利用的資源，這些可以是任何將文本作為輸入并提供文本作為輸出的函數(shù)，包括搜索、數(shù)據(jù)庫(kù)、代碼解釋器和與人聊天等，它可以增強(qiáng)模型的能力。

右邊是我們有任務(wù)導(dǎo)向的訓(xùn)練，如instruction tuning、RLHF等。instruction tuning相對(duì)好實(shí)現(xiàn)，RLHF需要調(diào)整PPO算法相對(duì)較難。整體上RL利用使用日志等專(zhuān)有數(shù)據(jù)，通過(guò)創(chuàng)建強(qiáng)大的反饋回路，訓(xùn)練模型使其更加符合任務(wù)需求并迭代優(yōu)化。

ChatGPT ChatGPT智能工具 ChatGPT技術(shù)

上一頁(yè)：與ChatGPT來(lái)一場(chǎng)有趣的互動(dòng)

：下一頁(yè) ChatGPT與人工智能的未來(lái)

本文標(biāo)題： ChatGPT運(yùn)用了哪些高端技術(shù)？

本文地址： http://www.maiyunbaodan.com/brand/news-881aaf7b5.html

內(nèi)容均來(lái)源于網(wǎng)絡(luò)，錯(cuò)誤糾正或刪除請(qǐng)發(fā)郵件，收件郵箱kefu@huangye88.com