資料內(nèi)容:
1. 為什么要增量預(yù)訓(xùn)練?
有一種觀點(diǎn),預(yù)訓(xùn)練學(xué)知識,指令微調(diào)學(xué)格式,強(qiáng)化學(xué)習(xí)對齊人類偏好,LIMA等論文算是這一觀點(diǎn)的證據(jù)。
所以要想大模型有領(lǐng)域知識,得增量預(yù)訓(xùn)練。(靠指令微調(diào)記知識不靠譜,不是幾十w條數(shù)據(jù)能做到的。)
2. 進(jìn)行 增量預(yù)訓(xùn)練 需要做哪些準(zhǔn)備工作?
1. 模型底座選型
主流是LLaMA,因為scaling法則,可能LLaMA做了充分預(yù)訓(xùn)練。(當(dāng)然有版權(quán)問題)
這里備選BLOOM,感覺基座比LLaMA差,但是也有7B版本。
Falcon、CPM-bee、Aquila、Baichuan待實驗,license友好,但生態(tài)和效果都是問題。其實,因為結(jié)構(gòu)上都類
似LLaMA,未來估計會出現(xiàn)整合這些模型的項目。
(Falcon公布的訓(xùn)練語料中沒有中文)
這里沒列ChatGLM和ChatGLM2,因為有種說法在SFT模型上增量預(yù)訓(xùn)練效果比較差。(未證實)
這里最經(jīng)典的開源預(yù)訓(xùn)練數(shù)據(jù)還是wudao的200G和thepile這兩個數(shù)據(jù)集(懷念一下Open-Llama)
加起來有1T的文本量,足夠前期玩耍了。
其實,剛開始實踐的時候,不需要太多樣本,先收集GB量級的領(lǐng)域文本跑通流程即可。
當(dāng)然這里數(shù)據(jù)治理可能是chatgpt魔法的最關(guān)鍵的部分,最基礎(chǔ)的是把網(wǎng)頁爬取數(shù)據(jù)中的廣告清理掉。
Falcon論文里介紹了數(shù)據(jù)清洗的手段,對于我們很有參考意義。