資料內(nèi)容:
分布式訓(xùn)練框架選擇?
多用 DeepSpeed,少用 Pytorch 原生的 torchrun。在節(jié)點(diǎn)數(shù)量較少的情況下,使用何種訓(xùn)練框架并不是特別重
要;然而,一旦涉及到數(shù)百個(gè)節(jié)點(diǎn),DeepSpeed顯現(xiàn)出其強(qiáng)大之處,其簡(jiǎn)便的啟動(dòng)和便于性能分析的特點(diǎn)使其成
為理想之選。
LLMs 訓(xùn)練時(shí) 有哪些有用的建議?
1. 彈性容錯(cuò)和自動(dòng)重啟機(jī)制
大模型訓(xùn)練不是以往那種單機(jī)訓(xùn)個(gè)幾小時(shí)就結(jié)束的任務(wù),往往需要訓(xùn)練好幾周甚至好幾個(gè)月,這時(shí)候你就知道能
穩(wěn)定訓(xùn)練有多么重要。彈性容錯(cuò)能讓你在機(jī)器故障的情況下依然繼續(xù)重啟訓(xùn)練;自動(dòng)重啟能讓你在訓(xùn)練中斷之后
立刻重啟訓(xùn)練。畢竟,大模型時(shí)代,節(jié)約時(shí)間就是節(jié)約錢。