科技日报记者 马爱平
近日,中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)的星辰语义大模型研发团队宣布,国内首个全国产化训练的千亿参数细粒度混合专家模型语义大模型TeleChat3-105B-A4.7-Thinking正式开源。
据介绍,该模型采用细粒度混合专家模型架构,基础模型训练数据超15万亿字节,共包括1个共享专家和192个路由专家,模型整体共1050亿参数量,实际激活参数为47亿,专家稀疏比(单次推理过程中实际激活的专家数量与总专家数量的比例)处于业界前列。
面对综合任务场景,该语义大模型可高效拆解任务需求,整合多项代码能力,一次性交付出完整可运行的代码,实现代码补全、代码修改、网站和网页游戏生成等多类任务,省去大量人工调试时间投入,运行流畅,结果准确。
此外,团队还同步开源了稠密参数模型TeleChat3-36B-Thinking,在知识问答、逻辑推理、智能体等维度实现了能力提升,并实现了文本创作、语义理解、角色扮演等任务的针对性优化。
据悉,此前双方已陆续开源自研的TeleChat、TeleChat2及TeleChat2.5系列模型,以传统稠密参数架构为主,模型尺寸覆盖十亿到千亿,构建了全尺寸大模型的开源布局。

网友评论