研究人員日前提出一種新的模型訓練策略 GaLore(Gradient Low-Rank Projection),在大型語言模型高效訓練方面向前邁出重要的一步,尤其可用消費級硬體,例如家用電腦的高階顯卡訓練數十億參數的模型,減少優化器狀態下的記憶體占用,為無法取得高階運算資源的研究人員開拓新視野。
高效訓練 LLM,GaLore 登上 Hugging Face 整合 Transformers 程式庫 |
|
作者
陳 冠榮 |
發布日期
2024 年 03 月 22 日 12:31 |
分類
AI 人工智慧
, 會員專區
| edit
Loading...
Now Translating...
|
研究人員日前提出一種新的模型訓練策略 GaLore(Gradient Low-Rank Projection),在大型語言模型高效訓練方面向前邁出重要的一步,尤其可用消費級硬體,例如家用電腦的高階顯卡訓練數十億參數的模型,減少優化器狀態下的記憶體占用,為無法取得高階運算資源的研究人員開拓新視野。
文章看完覺得有幫助,何不給我們一個鼓勵
