資料內(nèi)容:
1. SFT(有監(jiān)督微調(diào))的數(shù)據(jù)集格式?
一問(wèn)一答
2. RM(獎(jiǎng)勵(lì)模型)的數(shù)據(jù)格式?
一個(gè)問(wèn)題 + 一條好回答樣例 + 一條差回答樣例
3. PPO(強(qiáng)化學(xué)習(xí))的數(shù)據(jù)格式?
理論上來(lái)說(shuō),不需要新增數(shù)據(jù)。需要提供一些prompt,可以直接用sft階段的問(wèn)。另外,需要限制
模型不要偏離原模型太遠(yuǎn)(ptx loss),也可以直接用sft的數(shù)據(jù)。
4. 找數(shù)據(jù)集哪里找?
推薦Alpaca-COT,數(shù)據(jù)集整理的非常全,眼花繚亂。
5. 微調(diào)需要多少條數(shù)據(jù)?
取決于預(yù)訓(xùn)練數(shù)據(jù)和微調(diào)任務(wù)的數(shù)據(jù)分布是否一致,分布一致,100條就夠,分布差異大就需要多
些數(shù)據(jù),千條或者萬(wàn)條以上為佳。
自己的任務(wù)復(fù)雜或者下游任務(wù)行業(yè)比較冷門,如藥品名稱識(shí)別任務(wù),則需要較多監(jiān)督數(shù)據(jù)。還有微
調(diào)大模型時(shí),一遍是記不住的。100條的微調(diào)數(shù)據(jù),epochs=20才能穩(wěn)定擬合任務(wù)要求。
6. 有哪些大模型的訓(xùn)練集?
預(yù)訓(xùn)練數(shù)據(jù)集togethercomputer/RedPajama-Data-1T「紅睡衣」開(kāi)源計(jì)劃總共包括三部分:
預(yù)訓(xùn)練數(shù)據(jù)集RedPajama-Data-1T已開(kāi)源,包括七個(gè)子集,經(jīng)過(guò)預(yù)處理后得到的token數(shù)量大致可
以匹配Meta在原始LLaMA論文中報(bào)告的數(shù)量,并且數(shù)據(jù)預(yù)處理相關(guān)腳本也已開(kāi)源。
完整的RedPajama-Data-1T數(shù)據(jù)集需要的存儲(chǔ)容量為壓縮后3TB,解壓后5TB。
CoT微調(diào)數(shù)據(jù)集:Alpaca-CoT 里面包括常用的alpaca,CoT等數(shù)據(jù)集,有中文的。
7. 進(jìn)行領(lǐng)域大模型預(yù)訓(xùn)練應(yīng)用哪些數(shù)據(jù)集比較好?
通過(guò)分析發(fā)現(xiàn)現(xiàn)有的開(kāi)源大模型進(jìn)行預(yù)訓(xùn)練的過(guò)程中會(huì)加入數(shù)據(jù)、論文等數(shù)據(jù)。主要是因?yàn)檫@些數(shù)
據(jù)的數(shù)據(jù)質(zhì)量較高,領(lǐng)域相關(guān)性比較強(qiáng),知識(shí)覆蓋率(密度)較大,可以讓模型更適應(yīng)考試。給我
• 高質(zhì)量、大規(guī)模、高覆蓋度的預(yù)訓(xùn)練數(shù)據(jù)集;
• 在預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練出的基礎(chǔ)模型;
• 指令調(diào)優(yōu)數(shù)據(jù)集和模型,比基本模型更安全、可靠。
掃碼加
查看更多們自己進(jìn)行大模型預(yù)訓(xùn)練的時(shí)候提供了一個(gè)參考。同時(shí)領(lǐng)域相關(guān)的網(wǎng)站內(nèi)容、新聞內(nèi)容也是比較重
要的數(shù)據(jù)。