京东发布JoyAI-VL-Interaction,让机器人看懂物理交互
大模型之家讯 京东发布JoyAI-VL-Interaction视觉-语言-交互大模型,让机器人通过视觉理解物理世界交互逻辑并执行复杂操作。该模型融合多模态感知与机器人控制,标志着具身智能从感知到执行的闭环突破。
李飞飞团队发布T-Rex,机器人迎来手感时代
大模型之家讯 李飞飞团队发布T-Rex(霸王龙)触觉响应框架,让机器人首次拥有高频触觉闭环。在12项操作任务中平均成功率达65%,翻书96%、转移生鸡蛋75%。其Mid-training范式绕过了触觉数据稀缺瓶颈。
百度开源Unlimited OCR刷新端到端OCR世界纪录
大模型之家讯 百度最新开源Unlimited OCR模型,以3B总参数、仅500M激活的极小体量,在OmniDocBench评测上以93.23%的综合得分刷新端到端OCR世界纪录,碾压DeepSeek OCR。该模型首创R-SWA注意力机制,可一口气解析40多页文档不失忆不降速。核心贡献者疑似从DeepSeek出走的OCR大神团队。
OpenAI推出修补地球计划,用AI守护开源安全
大模型之家讯 6月23日,OpenAI联合网络安全公司Trail of Bits推出修补地球计划,旨在通过AI安全工具帮助开源项目定位并修复代码漏洞。同日,OpenAI发布安全专用GPT-5.5-Cyber完全体,在安全领域能力超越Mythos 5。
豆包Seedance 2.5来了!视频生成长达30秒
大模型之家讯 6月23日,字节跳动在火山引擎Force大会上披露,豆包视频生成模型最新版本Seedance 2.5将于7月初正式上线。新模型单条视频生成长度最长可达30秒,突破同类产品15至20秒瓶颈;支持最多50个全模态素材联合输入,可稳定保持复杂素材细节。此外还支持不改变整体画面的局部内容修改功能。
字节跳动发布豆包大模型2.1 Pro,日均tokens调用量达180万亿
大模型之家讯 6月23日,字节跳动旗下火山引擎在Force原动力大会上发布豆包大模型2.1 Pro。该模型在需求理解、长期规划和工程交付能力上大幅提升,编程及Agent能力跻身全球前列。火山引擎总裁谭待透露,豆包大模型日均tokens调用量已飙升至180万亿,较发布时增长超1500倍。同时,字节还发布了豆包Seed 2.1系列(Pro和Turbo版),性能比肩GPT-5.5。
AI视频生成公司Sand.ai三个月两轮融资超1亿美元
大模型之家讯 6月22日,AI视频生成公司Sand.ai宣布完成新一轮融资,3个月内两轮融资金额合计超1亿美元。投资方包括宿华、Lollapalooza Capital(王慧文家办)、九坤创投、经纬创投、IDG、百度风投等十余家一线机构。Sand.ai由Swin Transformer作者曹越创立,坚持自回归视频生成路线,旗下Magi-1模型在Google DeepMind Physics-IQ榜单保持第一。公司计划今年三季度开源新一代MoE架构视频生成模型。
优必选发布商用服务人形机器人Walker C1
大模型之家讯 6月22日,第四届中国国际供应链促进博览会在北京开幕,优必选在链博会首发站正式发布全新一代面向商用服务场景的具身智能人形机器人Walker C1。该机器人高1.64米、重55公斤,具备53个自由度,支持人机共舞,可用于商场导览、接待服务等商业场景。
京东全栈开源实时视频交互模型JoyAI-VL-Interaction
大模型之家讯 6月22日,京东宣布开源实时视频视觉语言交互模型JoyAI-VL-Interaction,为全球首个全栈开源的interaction模型和系统。该模型基于8B参数规模,打破传统一问一答交互范式,支持摄像头、直播流、监控流等多种视频输入,实现边看边说的实时交互。在人机对比评测中,该模型对豆包的总体胜率达77.6%,对Gemini达87.9%。
阿里巴巴发布视频生成模型HappyHorse 1.1
大模型之家讯 6月22日,阿里巴巴正式发布视频生成模型HappyHorse 1.1,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力五大维度系统性升级。新版本支持9张参考图同时输入,在多角色短剧、电商广告等场景下角色一致性显著提升,音画同步更精准。HappyHorse官网、阿里云百炼和千问云均已接入最新版本。同日,HappyHorse联合虎鲸文娱集团启动Horsepower AI影像大赛,优胜者可获百万商单合作。