大模型之家讯 近日,德国技术咨询公司TNG开源了基于DeepSeek的增强模型DeepSeek-TNG-R1T2-Chimera,该模型融合R1-0528、R1及V3-0324三大版本,采用全新AoE架构。实测显示,其推理效率较R1-0528提升200%,成本显著降低,并在MTBench、AIME-2024等基准测试中表现优于普通R1版本。AoE架构通过线性时间复杂度的权重插值与合并,从混合专家(MoE)父模型中生成子模型,既保留父模型优势,又能灵活调整性能。研究者通过定义权重系数λi及差异筛选机制,优化合并过程,最终实现高效推理与能力定制化。开源地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera。