獲取40%折扣優惠
🔑 精選股票觀點,五一輕鬆解鎖財富密碼領取限時優惠

中信證券:LLaMA3開源發佈 喂入海量訓練數據效果遠超預期

發布 2024-4-23 上午09:07
© Reuters.  中信證券:LLaMA3開源發佈 喂入海量訓練數據效果遠超預期

智通財經APP獲悉,中信證券發佈研報稱,Meta於北京時間2024年4月18日開源了最新的大語言模型LLaMA-3,提供了8B、70B和400B+三個版本的Dense模型。其中70B版本的性能已達GPT-3.5+水平,逼近GPT-4,而400B+版本有望進一步縮小與GPT-4的差距。LLaMA-3打破了業界對Chinchilla定律的認知,證實了通過持續喂入海量優質數據,即使是8B和70B的小模型也能獲得超出預期的能力提升。這爲通過小模型+大數據的模式在性能和效率間取得更好平衡提供了新思路。

LLaMA-3創新性地使用LLaMA-2模型對訓練數據進行質量把控,但代價在於更加高昂的成本。在明確增加訓練數據量是提升性能的最好方法的前提下,合成數據或將成爲高質量數據獲取的主要途徑,其發展情況將直接影響開源與閉源模型的差距。商業化方面,Meta已將LLaMA-3應用於全新AI助手,並將通過Facebook、Instagram等平臺和AR眼鏡推出服務。國內廠商可通過中文化微調迅速獲得接近GPT-4水準的基礎模型。

綜上,看好LLaMA-3引領的從應用層到算力層的認知智能變革,建議未來兩個季度內年重點配置高質量訓練數據構建、多模態大模型研發、MoE等新型架構創新、算力基礎設施升級等領域的優質標的。

中信證券主要觀點如下:

技術迭代:架構小幅更新,性能顯著提升

LLaMA-3在總體架構上延續了前代的Transformer結構,主要改進包括:1)Token詞典從32K擴展到128K,增強編碼效率2)支持長達8K tokens的上下文輸入,但仍不及競品3)引入Grouped Query Attention (GQA),提高推理效率。根據在MMLU、GPQA、HumanEval等數據集上的評測,LLaMA-3-70B的分數分別達到了82.0分、39.5分、81.7分表現已經超越了Claude-Sonnet、Mistral-Medium等同級別模型,基本達到GPT-3.5+的水平,逼近GPT-4。隨後的LLaMA-3-400B+版本有望進一步縮小與GPT-4的差距,對標Gemini Ultra以及Claude3等模型。

重要突破:打破Chinchilla定律,小模型高效利用海量數據

LLaMA-3顛覆了業界對Chinchilla定律的認知。其8B、70B版本的訓練數據規模分別高達15T和50T tokens,遠超Chinchilla定律預測的8B規模最優數據量160B和70B規模最優數據量(1.4T)。這意味着,即使是固定規模的小模型,只要持續喂入優質數據也能獲得類似對數線性的能力提升。這爲性價比優化和開源生態發展開闢了新的思路,即通過小模型+海量數據的模式,也有望實現性能和效率的兼顧。在有足夠優質數據餵養的前提下,中小模型未來的上限可能遠超預期。

數據處理:創新性使用前代模型做質量把關,但成本高昂

LLaMA-3的訓練數據來自Meta內部和外部,並經過了極其縝密的篩選、清洗流程,尤其創新性地使用了LLaMA-2模型本身作爲數據質量分類器進行再次清洗。以LLaMA-2-70B的推理成本$1/1M tokens估算,光是對15T規模的數據進行質量把控,就需要耗資1500萬美元。

可以預見,隨着後續參數的急劇增長,傳統的人工數據採集和清洗方式將難以爲繼,在高昂成本的推動下利用模型合成與清洗新數據是最有效的手段。LLaMA-3已經向我們表明對於當前的參數規模,不斷擴大訓練集大小仍然是最有效的Scaling手段,因此後續合成數據技術的發展情況直接決定了開源模型與閉源模型的差距。如果合成數據技術快速成熟,閉源模型公司能夠通過資源與資本的優勢不斷擴充自己的數據集,在高質量合成數據方面與普通的開源模型拉開差距。

商業化落地:結合LLaMA-3發佈新一代AI助手Meta AI

Meta已經將LLaMA-3應用到了其最新的AI助手產品Meta AI中。用戶可以通過Facebook、Instagram等平臺,以及即將推出的AR眼鏡Ray-Ban,體驗由LLaMA-3驅動的智能對話與任務協助服務。參考LLaMA3 8B模型對於同業其他小模型的顯著優勢,我們認爲對於Meta在邊緣端的佈局可以投入更高的期待。對於國內廠商而言,LLaMA-3的開源無疑將是重大利好。通過對模型進行中文化微調改造,有望在較短時間內獲得一個接近GPT-4水準的基礎模型,用於支撐面向企業和個人用戶的大模型應用。

投資策略:

LLaMA-3的發佈打破了業界對Chinchilla定律的認知,證實了固定規模小模型也能通過增大優質數據量實現顯著性能提升。這意味着高質量訓練數據的獲取成爲後續大模型發展的關鍵。建議關注在合成數據、自動化數據優化等前沿技術領域有突破潛力的企業。

隨着大模型體量增長,多模態能力和推理效率成爲業界競爭新焦點。Dense架構在處理圖像、視頻等非結構化數據時效率較低,預計未來1-2年MoE等新型架構將成爲主流。看好在這一方向有先發優勢的廠商。此外,大模型推理成本和工程效率也是掣肘,建議關注算力芯片、加速卡、大算力平臺等領域的科技公司。

商業化方面,Meta已將LLaMA-3應用於最新AI助手產品,成熟小模型與垂直場景結合有望催生新增長點。綜上,看好LLaMA-3引領的大模型技術變革,從應用層到模型層再到算力層,認知智能提升將帶來新一輪行業增長機會。未來3-5年,建議重點配置高質量訓練數據構建、多模態大模型研發、MoE等新型架構創新、算力基礎設施升級等領域的優質標的。

風險因素:

AI核心技術發展不及預期風險;科技領域政策監管持續收緊風險;私有數據相關的政策監管風險;全球宏觀經濟復甦不及預期風險;宏觀經濟波動導致歐美企業IT支出不及預期風險;AI潛在倫理、道德、用戶隱私風險;企業數據泄露、信息安全風險;行業競爭持續加劇風險等。

最新評論

風險聲明: 金融工具及/或加密貨幣交易涉及高風險,包括可損失部分或全部投資金額,因此未必適合所有投資者。加密貨幣價格波幅極大,並可能會受到金融、監管或政治事件等多種外部因素影響。保證金交易會增加金融風險。
交易金融工具或加密貨幣之前,你應完全瞭解與金融市場交易相關的風險和代價、細心考慮你的投資目標、經驗水平和風險取向,並在有需要時尋求專業建議。
Fusion Media 謹此提醒,本網站上含有的數據資料並非一定即時提供或準確。網站上的數據和價格並非一定由任何市場或交易所提供,而可能由市場作價者提供,因此價格未必準確,且可能與任何特定市場的實際價格有所出入。這表示價格只作參考之用,而並不適合作交易用途。 假如在本網站內交易或倚賴本網站上的資訊,導致你遭到任何損失或傷害,Fusion Media 及本網站上的任何數據提供者恕不負責。
未經 Fusion Media 及/或數據提供者事先給予明確書面許可,禁止使用、儲存、複製、展示、修改、傳輸或發佈本網站上含有的數據。所有知識產權均由提供者及/或在本網站上提供數據的交易所擁有。
Fusion Media 可能會因網站上出現的廣告,並根據你與廣告或廣告商產生的互動,而獲得廣告商提供的報酬。
本協議以英文為主要語言。英文版如與香港中文版有任何歧異,概以英文版為準。
© 2007-2024 - Fusion Media Limited保留所有權利