資料內(nèi)容:
1.2.2生成式對(duì)話聊天系統(tǒng)研究現(xiàn)狀
生成式聊天對(duì)話是指由訓(xùn)練好的模型自動(dòng)生成逼真的聊天對(duì)話內(nèi)容,而非事
先編寫的規(guī)則或預(yù)定的回復(fù),它可以模擬人類的對(duì)話方式和語(yǔ)言能力,使計(jì)算機(jī)
能夠和人類進(jìn)行自然的對(duì)話。生成式聊天對(duì)話歷史可以追溯到二十世紀(jì)五十年代
早期,當(dāng)時(shí)人工智能研究的先驅(qū)們開(kāi)始探索如何使用計(jì)算機(jī)生成自然語(yǔ)言。在六
十年代科學(xué)家們開(kāi)始開(kāi)發(fā)人工智能系統(tǒng),這些系統(tǒng)使用推理和搜索算法來(lái)模擬人
類思維和語(yǔ)言生成能力。其中一個(gè)著名的例子是麻省理工學(xué)院在一九六六年開(kāi)發(fā)
的Eliza【2l】程序,它是一個(gè)早期的對(duì)話系統(tǒng),能夠使用一些簡(jiǎn)單的規(guī)則來(lái)模仿心
理醫(yī)生的對(duì)話風(fēng)格。隨著計(jì)算機(jī)處理能力的提高和自然語(yǔ)言處理技術(shù)的發(fā)展,生
成式聊天對(duì)話的應(yīng)用逐漸普及。二十世紀(jì)七十年代,科學(xué)家開(kāi)始嘗試使用模式匹
配技術(shù)來(lái)模擬人機(jī)對(duì)話,但是這種技術(shù)受限于預(yù)先設(shè)定的模式,無(wú)法實(shí)現(xiàn)自由流
暢的對(duì)話。到了二十世紀(jì)八十年代,科學(xué)家開(kāi)始探索基于規(guī)則和知識(shí)庫(kù)【22】的對(duì)話
生成技術(shù),利用知識(shí)庫(kù)中的信息來(lái)回答用戶的問(wèn)題,這種方法可以實(shí)現(xiàn)更加自然
的對(duì)話。但是,這種方法需要大量的手工制作和維護(hù)知識(shí)庫(kù),而且對(duì)于一些復(fù)雜
的問(wèn)題,知識(shí)庫(kù)中的信息往往不夠完整。在二十世紀(jì)九十年代,人們開(kāi)始探索使
用統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)算法來(lái)生成自然語(yǔ)言。這些算法能夠從大量的語(yǔ)料庫(kù)中學(xué)
習(xí)語(yǔ)言模型,然后使用這些模型來(lái)預(yù)測(cè)下一個(gè)單詞或短語(yǔ)的可能性,從而生成流
暢的對(duì)話內(nèi)容。
近年來(lái),隨著深度學(xué)習(xí)的興起,生成式聊天對(duì)話技術(shù)又取得了重大進(jìn)展。通
過(guò)已有的深度學(xué)習(xí)模型,包括RNN和Transformerl23】模型,可以在不需要顯式規(guī)
則或手工特征工程的情況下,從大量的對(duì)話數(shù)據(jù)中學(xué)習(xí)生成對(duì)話的模式。這些模
型能夠自然地生成流暢的對(duì)話內(nèi)容,并且在與人類進(jìn)行對(duì)話時(shí)表現(xiàn)得越來(lái)越自然
和逼真。該技術(shù)已經(jīng)被廣泛應(yīng)用于智能客服、聊天機(jī)器人、語(yǔ)音助手等領(lǐng)域。最
近幾年,研究人員不僅僅考慮能否生成通順的回復(fù),還研究了如何使生成的回復(fù)
具有多樣性。Li【24垮人從模型生成的語(yǔ)句對(duì)未來(lái)的影響角度出發(fā),模擬虛擬代理
間的對(duì)話,并評(píng)估了模型的互動(dòng)響應(yīng)。Ludwig[25]等人提出了一種新的生成對(duì)話代
理(Generative Conversational Agents。GCA)對(duì)抗性學(xué)習(xí)方法,假設(shè)GCA是一個(gè)生
成器,目的是騙過(guò)判別器,把對(duì)話看成人類或機(jī)器生成的鑒別器,鑒別器會(huì)接收
上下文對(duì)話和當(dāng)前令牌的不完整答案作為輸入,作者提出的新方法驗(yàn)證了通過(guò)反
向傳播進(jìn)行端到端訓(xùn)練的可能性,通過(guò)自我對(duì)話,為對(duì)抗訓(xùn)練生成大量多樣性數(shù)
據(jù),并提高了與訓(xùn)練數(shù)據(jù)無(wú)關(guān)問(wèn)題的性能。由于互聯(lián)網(wǎng)上大量數(shù)據(jù)的生成和研究
人員對(duì)生成式對(duì)話模型的不斷創(chuàng)新,遷移學(xué)習(xí)也滲透進(jìn)了對(duì)話生成領(lǐng)域。Wolft26】
等人提出了一種新的名為TransferTransfo方法來(lái)生成數(shù)據(jù)驅(qū)動(dòng)對(duì)話系統(tǒng),該方法
結(jié)合了基于遷移學(xué)習(xí)的主題訓(xùn)練案和高容量Transformer模型,通過(guò)結(jié)合多個(gè)無(wú)
監(jiān)督預(yù)測(cè)任務(wù)的多任務(wù)目標(biāo)來(lái)進(jìn)行微調(diào)。Csakyt271等人針對(duì)當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的
對(duì)話模型缺乏多樣性并且對(duì)開(kāi)放域?qū)υ捝蓻](méi)有意義的回復(fù)的問(wèn)題,提出了一種
通過(guò)從訓(xùn)練集中去除通用對(duì)話來(lái)過(guò)濾數(shù)據(jù)集的方法,該方法使用的是簡(jiǎn)單基于熵
的方法,并且無(wú)需人工監(jiān)督。之前的對(duì)話模型通常為平面模式,將對(duì)話上下文直
接串聯(lián)后輸入模型中來(lái)預(yù)測(cè)回復(fù),然而這種方式卻沒(méi)有考慮到對(duì)話上下文之間的
動(dòng)態(tài)信息流。Li[28】等人于是介紹了一種對(duì)上下文建模的動(dòng)態(tài)流機(jī)制,作者通過(guò)處
理大規(guī)模預(yù)訓(xùn)練中每個(gè)句子帶來(lái)的語(yǔ)義影響,提出三個(gè)訓(xùn)練目標(biāo)來(lái)捕獲對(duì)話語(yǔ)句
中的信息動(dòng)態(tài)。Moorjanit29】等人提出在預(yù)訓(xùn)練語(yǔ)言生成模型中注入用戶的風(fēng)格偏
好,利用有限的人類判斷來(lái)引導(dǎo)風(fēng)格分析模型,并增加判斷子集,將學(xué)習(xí)到的文
本樣式添加進(jìn)基于GPT-2的文本生成器中,同時(shí)平衡流暢性和樣式采用。