LongCat-2.0 宣称是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,
LongCat-2.0 预训练数据规模超过 30T tokens,覆盖中文、英文、多语言和代码等多类数据;面对万卡级训练中的硬件故障、通信异常、显存压力与数值波动,LongCat 团队从稳定性、正确性和效率三方面攻克国产算力训练难题。
最终,LongCat 实现稳态日吞吐超过 1T tokens / day,完成万亿参数 MoE 模型在国产算力上的稳定训练。
LongCat-2.0 采用 LongCat Sparse Attention稀疏注意力机制,在处理长文本时不再“逐字逐句地看”,而是智能筛选关键信息,将计算量从平方级降至线 万 Token 的超长上下文中,依然保持信息定位与理解能力。
代码任务中不同 token 复杂度差异巨大 —— 定义变量名和推导递归算法对算力的需求完全不同。LongCat-2.0 通过零计算专家实现 token 级动态激活,简单 token 不消耗算力,复杂 token 自动获得更多计算资源。
LongCat-2.0 通过 MOPD 架构融合 Agent、Reasoning、Interaction 三组专家能力 ——Agent Experts 专攻工具调用与自主纠错,Reasoning Experts 深耕数学与 STEM 推理,Interaction Experts 优化指令遵循与交互体验。推理时由门控网络根据任务类型动态调度最擅长的专家,而非简单合并参数。得益于此,模型在编程、推理、交互等维度均表现突出。
特别
土耳其总统公开祷告摧毁以色列,内塔尼亚胡威胁:埃尔多安几乎每天都在呼吁摧毁以色列,以方“非常严肃地”对待,要向美国告状
“房子地板到处冒热气,晚上睡觉一小时热醒一次……”中国留学生在巴黎亲历罕见高温,空调风扇卖断货,有人在超市为了空调打起来
美股全线走高,芯片股V型反转,西部数据涨超11%,谷歌首秀道指破52000点,黄金跳水,国际油价反弹










