導讀:在2025 世界人工智能大會“AI 煥新產業(yè)共贏”企業(yè)人工智能產業(yè)發(fā)展論壇上,中國移動煥新發(fā)布“九天”基礎大模型 3.0。
7 月 26 日消息,在2025 世界人工智能大會“AI 煥新產業(yè)共贏”企業(yè)人工智能產業(yè)發(fā)展論壇上,中國移動煥新發(fā)布“九天”基礎大模型 3.0。
本次發(fā)布的“九天”基礎大模型 3.0 是國務院國資委戰(zhàn)新“百大工程”的新成果,進一步強化了“高安全、高可控、全國產、全行業(yè)”四大特性,重點實現三大煥新:
一、九天眾擎語言大模型實現架構與性能雙重躍遷。
模型突破性采用可擴展至萬億級的 MoE 架構,以 15T token 多階段配比預訓練數據與全流程治理體系強化推理能力,創(chuàng)新構建 113 域 ×53 能力的二維分級后訓練框架,結合動態(tài)強化學習策略,驅動復雜推理能力提升 35%。
在 GPQA-Diamond 評測中,“九天”以 77.67 分斬獲全球第二,超越 DeepSeekR1 和 Qwen3;在 ArenaHard V0.1 中,以 67.2 分位居全球第一;在 BFCL V3 評測中,達到 68 分。性能躍升的同時,模型進一步強化了可控生成能力,破解沉浸式角色演繹,精確流程內置等技術細節(jié),實現了專業(yè)場景零幻覺。
基于最新的語言大模型,中國移動此次也推出多個專項模型。九天代碼大模型使用兩階段的持續(xù)訓練技術,支持代碼生成、注釋生成、單元測試生成、代碼智能問答等多種任務,支持 Python、Java、JS、TS、Go、C++ 等 10 + 種主流編程語言。
指標方面,在 EvalPlus、MHPP、LivecodeBenchv6 等多個代碼生成榜單上成績領先。九天數學大模型,短思考、長思考模式均達到業(yè)界 SOTA 水平,多項指標超過 Qwen 2.5 Math、Qwen3、DeepSeek Math、DeepSeek R1-Distill 等同參數量級模型。
二、九天善智多模態(tài)大模型全面提升生成可控性與理解能力。
模型基于復雜時空建模、流匹配圖片視頻漸進式聯合訓練、端到端局部可控注意力機制等創(chuàng)新,同時引入多模態(tài)理解信息提升對文本指令和輸入條件圖像視頻的感知能力,聯合圖文交織數據訓練,實現既能生成高質量的圖像視頻,又能進行多輪對話式高可控精確編輯操作,顯著提升了視覺生成的靈活便利性。
例如,在圖片生成功能方面可支持多輪精準局部修改,如修改文字、修改背景、增加元素等。
模型在圖理解和視頻理解方面的性能表現也全面提升。
圖理解方面,在 MMStar、HallusionBench 和 OCRBench 等圖理解任務中,九天模型分別獲得了 82.2、64.3 和 94.9 的高分,處于業(yè)界領先水平;
視頻理解方面,九天模型在 Videomme 和 MVbench 兩個任務中均表現領先超過 Qwen2-VL 和 InternVideo2。
三、模型及核心技術開源。
一是開源九天數童結構化數據大模型,開源內容包括 JT-DA-8B 模型及后續(xù)演進版本,支持下載模型權重、微調代碼、推理代碼等;
二是開源九天數學大模型,開源內容包括 JT-Math-8B 系列模型,支持下載模型權重、推理代碼、技術報告;
三是開源九天代碼大模型,開源內容包括 JT-Coder-8B 系列模型,支持下載模型權重、推理代碼、技術報告;
四是開源業(yè)界首創(chuàng)的結構化數據模型評測數據及 TReB 評測體系,測評體系涵蓋 6 大任務、34 個能力,包括了高質量且全面的數據、推理模式及評價指標,支持下載評測數據集、測試代碼;
五是開源 CCR-Bench 行業(yè)場景復雜指令遵循評測數據集,該數據集涵蓋 174 條高質量、多樣化、高難度復雜指令數據,高度模擬健康專家、智能客服、醫(yī)療助手等典型工業(yè)場景,支持下載數據集。
以上內容已上線煥新社區(qū)、Github、HuggingFace、魔搭社區(qū)、Gitee、Arxiv。
從論壇獲悉,中國移動九天人工智能研究院計劃8 月推出此次發(fā)布內容的技術深度解讀。