中國電信發佈單體稠密萬億參數語義模型 用了普通訓練方案9%的算力資源
6月19日,《每日經濟新聞》記者從中國電信處獲悉,近日,中國電信人工智能研究院(TeleAI)聯合北京智源人工智能研究院發佈了全球首個單體稠密萬億參數語義模型Tele-FLM-1T,成爲國內首批發布稠密萬億參數大模型的機構。
《每日經濟新聞》記者瞭解到,針對大模型訓練算力消耗高的問題,TeleAI與智源基於模型生長和損失預測等關鍵技術聯合研發出的Tele-FLM系列模型,僅使用了業界普通訓練方案9%的算力資源,基於112臺A800服務器,用時4個月完成了3個模型總計2.3T tokens的訓練。
中國電信方面透露,Tele-FLM-1T版本即將開源,期望爲社區訓練萬億稠密模型提供技術參考,避免萬億模型訓練收斂難等問題。
據悉,作爲最早佈局並首先開源大模型的央企機構,TeleAI去年發佈了千億參數“星辰”語義大模型;今年2月,TeleAI自主研發的星辰大模型首次通過了“境內深度合成服務算法備案”。今年5月15日,根據北京市生成式人工智能服務備案信息公告,星辰大模型再次通過產品備案。“雙備案”標誌着星辰大模型可正式對外提供生成式人工智能服務。
開源方面,TeleAI已接連開源7B、12B、52B參數規模大模型。隨着TeleChat系列模型的發佈,TeleAI還同步對多個大模型落地項目進行了能力升級,如在某市民生訴求場景項目上,通過引入TeleChat-52B模型能力,整體應用效果提升40%。