
資料內容:要
訓練數(shù)據對大模型發(fā)展的重要性
業(yè)界認為,算法、算力與數(shù)據,是支撐大模型發(fā)展的三大基石。更高質量、更豐富的數(shù)據是以 GPT 為例的生
成式人工智能大模型成功的驅動力。GPT 模型架構從第 1 代到第 4 代均較為相似,而用來訓練數(shù)據的數(shù)據規(guī)模和質
量卻有很大的不同。GPT-1 是由 4.8G 未過濾原始數(shù)據訓練,GPT-2 是由經人類過濾后的 40G 數(shù)據訓練,GPT-3
是由從 45T 原始數(shù)據中過濾的 570G 數(shù)據訓練,而 chatGPT/GPT-4 則是在該基礎上又加入了高質量人類標注。以
吳恩達(Andrew Ng)為代表的學者觀點認為,人工智能是以數(shù)據為中心的,而不是以模型為中心。“有標注的高
質量數(shù)據才能釋放人工智能的價值,如果業(yè)界將更多精力放在數(shù)據質量上,人工智能的發(fā)展會更快”。
模型訓練所需的數(shù)據類型
數(shù)據作為大模型訓練的基礎,它提供了大模型所必需的知識和信息。區(qū)別于以往搜索系統(tǒng)、個性化推薦等所需
的大量用戶行為和偏好數(shù)據,隨著技術的演進,大模型所需的數(shù)據是對知識性內容有強需求,是一種新的類型。
模型訓練所需的數(shù)據類型
2.1 訓練大語言模型的數(shù)據
大模型所需要的數(shù)據根據訓練的階段有所不同。以 ChatGPT 為代表的大語言模型(LLM)為例,其訓練過程
分為預訓練(Pre-training)、監(jiān)督微調(SFT)、基于人類反饋的強化學習(RLHF)三個階段,后兩部分又統(tǒng)稱為