HiDream.ai 推出 VAREdit：视觉自回归框架实现“指哪打哪”图像编辑

大模型之家讯近日，智象未来（HiDream.ai）团队近日公开了全新自回归图像编辑框架 VAREdit，首次将视觉自回归（VAR）架构引入指令引导编辑。VAREdit 将编辑定义为多尺度残差预测，通过“下一尺度预测”实现精准“指哪打哪”，显著提升编辑精度并将生成速度提升至 512×512 图像 1.2 秒（8.4B 模型）和 0.7 秒（2.2B 模型），比传统扩散模型快 2–3 倍。核心创新包括尺度对齐参考（SAR）模块，该模块在首层提供多尺度对齐，后层聚焦细尺度特征，进一步提升精准度。基准测试显示，VAREdit‑8.4B 在 GPT‑Balance 指标上比 ICEdit 与 UltraEdit 提升 41.5% 与 30.8%，且在 EMU‑Edit、PIE‑Bench 上取得最佳效果。模型与代码已开源（GitHub/ HuggingFace），HiDream.ai 表示将继续探索更高质量、更快速度的多模态图像编辑架构。

HiDream.ai 推出 VAREdit：视觉自回归框架实现“指哪打哪”图像编辑

发表回复