快讯 | 大模型之家

11:34

MiniMax 正式开源通用视频模型 H3

大模型之家讯 8月3日，MiniMax 正式开源新一代通用视频模型 MiniMax H3，这是该公司首款开源的多模态生成模型。H3 能够统一理解文本、图像、视频和音频构成的多模态上下文，可生成最高 2K 分辨率、最长 15 秒、带原生立体声音频的视频，稳定支持 11 种语言。模型权重已在 Hugging Face 开放，支持 SGLang、vLLM、diffusers 与 ComfyUI 等框架本地部署；其中的 H3-Context-IR 与 H3-Regenerate-2K 模块以 API 形式提供。据公开信息，H3 视频生成价格约为 0.8 元/秒。

分享到:

10:35

西湖心辰完成数亿元B+轮融资，广发信德领投

大模型之家讯 8月3日，大模型公司西湖心辰宣布完成B+轮融资，融资金额达数亿元人民币，由广发信德领投，西湖创新投、武汉江豚基金、容亿投资、南通投管等多家机构跟投，猎聘战投、58产业基金等产业资本参与，老股东蚂蚁集团、汤姆猫提供全面支持。本轮融资资金将主要用于新一代扩散语言模型的持续研发、原生多模态实时互动产品的深度迭代及海外市场拓展。西湖心辰成立于2022年，总部位于杭州，聚焦AI绘画、AI智能写作与AI心理咨询等方向，服务B端企业与C端用户。公司今年1月刚完成蚂蚁集团参与的B轮融资，此次B+轮延续多模态实时互动技术路线，凸显投资方对AI陪伴与互动赛道商业化前景的持续看好。

分享到:

04:17

谷歌个人智能体Gemini Spark向全球更多用户开放

大模型之家讯 7月31日，谷歌宣布其个人AI智能体Gemini Spark已向全球大部分用户开放。该智能体已整合Chrome浏览器，可在授权后帮助用户整理邮件、搜索航班、预订机票、管理收件箱等。Spark内置安全机制，可有效防止提示词攻击，并将敏感操作交还用户处理。目前该功能仅限美国订阅Pro/Ultra用户及其他地区Ultra用户使用。自5月20日在2026谷歌I/O大会发布以来，Gemini Spark由Gemini 3.5系列模型与Antigravity框架驱动，可跨Gmail、Drive、日历等完成多步骤任务。此次规模化开放，标志着谷歌将个人Agent从“演示”推向“普惠”阶段，与OpenAI、Anthropic在个人AI助手赛道正面竞争。

分享到:

04:15

OpenAI全新模型Astra曝光：攻克10项菲尔兹奖级难题，全球用户破10亿

大模型之家讯 8月1日，OpenAI下一代核心模型Astra消息密集曝出。该模型被指已在10项开放超10年、长期无进展的数学与计算机科学未解难题上取得突破，其中多项达菲尔兹奖级别难度，相关成果以249页论文形式发布，单次推理Token成本约2000美元。奥尔特曼本周已在华盛顿向政策制定者展示该模型，其主打多智能体长周期任务协同，可应用于工程研发与高级数学问题求解。与此同时，OpenAI全球用户数突破10亿大关。业内普遍认为Astra疑似为GPT-6系列或GPT-5.7前身，官方计划8月正式发布，但可能因美国政府审查流程而推迟。多家媒体将此视为AI圈“过年版”重磅事件，学界对Astra在基础数学上的突破反应强烈。

分享到:

01:03

长三角（嘉兴）Token 运营中心正式启动

大模型之家讯 7月30日，长三角（嘉兴）Token 运营中心发布会在嘉兴沙龙宾馆举行，其面向市场的统一服务窗口——门户网站同步上线。企业不再需要找代码、配环境、调参数，平台如同一座大型「数据模型超市」，企业一次接入即可按需调用 DeepSeek、Qwen 等 100 余款主流大模型。

该中心被视为区域级 AI 算力与模型服务基础设施下沉的样本，通过降低中小企业接入大模型的技术门槛，帮助企业低成本、便捷地用上大模型能力，也为长三角地区 AI 产业协同提供了新的服务载体。

分享到:

01:01

苹果计划将智能眼镜打造为健康健身平台

大模型之家讯 8月2日，据科技记者马克·古尔曼最新一期《Power On》通讯报道，苹果计划将即将推出的非 AR 智能眼镜打造为又一个健康健身硬件平台，不过相关功能大概率不会随明年问世的第一代产品首发落地。报道称，苹果早已着手把 Vision Pro 打造为健康平台，公司曾开发可在该头显运行的 Fitness+ 应用版本，智能眼镜有望延续这一健康战略。

在 AI 智能穿戴竞争加剧、Meta 等玩家已抢跑智能眼镜市场的背景下，苹果以健康健身为差异化切口布局新硬件品类。结合其此前公布的 Apple Health+ 付费订阅服务规划，智能眼镜与 Apple Watch、Health 生态的协同空间被市场普遍看好，也被视为苹果避开 Meta 拍照社交路线的差异化打法。

分享到:

01:00

国家超算互联网上线 DeepSeek-V4-Flash 正式版 API，无需环境配置一键调用

大模型之家讯 8月2日，国家超算互联网正式上线 DeepSeek-V4-Flash 正式版（DeepSeek-V4-Flash-0731）模型 API 调用服务和模型文件。该版本经大量后训练，智能体能力与指令遵循能力大幅增强，在多项基准测试中性能可与当前最强闭源模型相媲美。企业和开发者无需繁琐环境配置，登录官网进入「模型服务」专区即可一键接入调用。目前超算互联网 AI 社区已累计汇集 1700 余款主流开源大模型，覆盖 DeepSeek、GLM、Qwen、Kimi 等系列。

此次上线距 DeepSeek 7 月 31 日官宣 V4-Flash 正式版 API 公测仅两天，是继超聚变 AI Lab 后又一国家级算力平台落地。伴随核心节点投运，国家超算互联网已成为全国首个十万卡级超智融合算力资源池，国产开源模型的基础设施供给进一步扩围。

分享到:

01:55

谷歌DeepMind发布Gemini Robotics 2，首度实现人形机器人全身控制

大模型之家讯 7月31日，谷歌DeepMind发布机器人模型Gemini Robotics 2，首度实现人形机器人全身控制，能行走、下蹲、操控物体并自主推理。在演示中，新模型操控Apptronik公司的Apollo人形机器人穿过房间、拿起洒水壶放到架子上，并避开途中障碍物。DeepMind同步发布另外两款机器人AI模型，既可协同工作也可独立运行。其中，Gemini Robotics 2负责将摄像头画面和自然语言指令转换为电机控制指令；Gemini Robotics ER 2则充当机器人推理系统，负责规划多步骤任务，并协调多个机器人共同完成同一目标。

分享到:

01:43

华为开源openPangu-2.0-Pro，5050亿参数盘古大模型上线

大模型之家讯 7月31日，华为正式开源基于昇腾NPU训练的盘古MoE大模型openPangu-2.0-Pro，涵盖模型权重、基础推理代码及技术报告。该模型总参数规模5050亿（505B），每Token激活参数180亿，支持512K上下文长度，训练数据总量约34T tokens，是余承东在HDC 2026上喊话把盘古做到世界第一后的首次重磅发布。技术架构上，openPangu-2.0-Pro采用DSA+SWA独立分层混合注意力架构（层配比1:2）、4支流mHC拓扑、3头MTP自投机模块及Muon优化器，是专为长上下文智能体任务打造的软硬件协同设计体系。在128K上下文下，其最低TPOT时延为9.55ms，单卡吞吐达1326 token/s。技术报告坦承，该模型在处理复杂现实世界软件工程任务时，与顶尖模型仍存在明显差距。

分享到:

01:42

字节跳动推出Seedance 2.5视频模型，单次生成时长突破30秒

大模型之家讯 7月31日，字节跳动发布公告，在国内推出Seedance 2.5视频生成模型，可单次生成30秒高质量视频片段，较此前的15秒提升一倍，并支持多轮延长。该模型延续Seedance 2.0统一的多模态音视频联合生成架构，面向影视、广告、教育、工业制造、具身智能和自动驾驶等场景，支持单次输入最多30张图片、10段视频、10段音频作为参考素材，可同时还原多人物形象与声音并保持主体特征稳定。Seedance 2.5正在陆续上线即梦AI与豆包专业版，API服务也将于近期接入火山方舟。当日，徐工集团、小鹏汽车、灵初智能、微分智飞、穹彻智能等多家企业已确认合作，率先引入该模型能力。

分享到: