HiDream.ai 推出 VAREdit:视觉自回归框架实现“指哪打哪”图像编辑

大模型之家讯 近日,智象未来(HiDream.ai)团队近日公开了全新自回归图像编辑框架 VAREdit,首次将视觉自回归(VAR)架构引入指令引导编辑。VAREdit 将编辑定义为多尺度残差预测,通过“下一尺度预测”实现精准“指哪打哪”,显著提升编辑精度并将生成速度提升至 512×512 图像 1.2 秒(8.4B 模型)和 0.7 秒(2.2B 模型),比传统扩散模型快 2–3 倍。核心创新包括尺度对齐参考(SAR)模块,该模块在首层提供多尺度对齐,后层聚焦细尺度特征,进一步提升精准度。基准测试显示,VAREdit‑8.4B 在 GPT‑Balance 指标上比 ICEdit 与 UltraEdit 提升 41.5% 与 30.8%,且在 EMU‑Edit、PIE‑Bench 上取得最佳效果。模型与代码已开源(GitHub/ HuggingFace),HiDream.ai 表示将继续探索更高质量、更快速度的多模态图像编辑架构。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注