引入“AQUA”评价体系，体验专做“难题”的天燕大模型

自GPT-3引发的人工智能行业内外引发的巨变后，大模型的发展按下了“加速键”，在推动技术进步的同时，还推进大模型面向千行百业的应用拓展，开启人工智能大模型发展的新篇章。截至目前，国内大模型市场中超百亿参数量大模型已经突破了100家……

2023年中国国际服务贸易交易会上，人工智能企业APUS 首次公布自研千亿级多模态人工智能大模型“天燕大模型”（即 AiLMe 大模型）。

图源：天燕大模型

据悉，天燕大模型采用业内主流的Transformer架构；参数数量达到千亿级别，吸收了人工智能前沿研究成果，设计了“插件式”架构，可以自主学习和使用“工具”，能够使 AiLMe进行主动进化。同时，天燕大模型的输入输出类型皆为文本、图像、视频和音频。

图源：《人工智能大模型产业创新价值研究报告》

在《人工智能大模型产业创新价值研究报告》中，大模型之家正式推出专业大模型“AQUA”评价体系，“AQUA”将根据大模型的模型能力、任务处理能力、泛化能力、应用扩展能力、开放性指标以及应用生态6项能和18项指标，针对不同行业进行知识强化的诸多大模型，提供更为泛化的评估。
接下来，大模型之家将通过“AQUA”立体解析AiLMe 大模型的能力，并将评估结果以雷达图的形式公布。

模型能力

在AQUA评价体系中，判断模型的能力的围绕模型的规模、训练数据量、算力等展开。据了解APUS目前已投入1亿元资金在全球算力和大模型训练中，自建企业级智算中心峰值算力已达360PFlops，预计年内将达500PFlops以上，算力能力提升将进一步提高用户服务的保障水平，更为人工智能产业高质量发展提供坚实支撑。

图源：天燕大模型

360PFlops算力的计算资源用来训练千亿级别参数规模的天燕大模型。这将使AiLMe在自然语言处理、计算机视觉等领域具有强大的性能，还可以显著提升大型模型的训练速度，使其在短时间内达到更高的性能水平，从而加快研究和应用的进展。包括复杂的自然语言理解、图像处理、模式识别等任务。这对于解决一些复杂问题能够起到极大的帮助。同时，更高的算力也允许研究人员更多地进行模型优化实验，以改进模型的性能和效率。

任务处理能力

AQUA调用ChatbotArena、SuperCLUE、FlagEval等权威题库对AiLMe进行测试，涵盖了多个不同类型的任务，包括语言理解、语言生成、逻辑推理和数学推理等，全面测试大模型在各种领域和情境下的表现和泛化能力。同时，AQUA提出的问题在难度和复杂性上有一定提高，要求大模型不仅具备基本的语言和常识知识，还需要具备分析和创造能力，以便检测其在处理高级问题时的长处和短处。

图源：天燕大模型

在测试中大模型之家注意到，天燕大模型回答的在面对一些复杂问题时展现其推理能力，但对于相对简单基础的问题却表示“还没有学会如何回答这个问题”。

图源：天燕大模型

当面对需要逻辑推理能力的问题时，天燕大模型通常在给出回答时还会将分析问题的过程展示出来。

图源：天燕大模型

通过AiLMe的表现可以看到AiLMe在客观题上具备一定的基本知识和推理能力，能够在相对明确的问题上做出准确的回答。

值得注意的，在面对数学推理问题时，AiLMe的准确率可以达到97%以上。但在面对主观题时，AiLMe给出的答案不够丰富，在很多问题的回答上都有重复题干的现象。其原因在创造性思考和抽象概念理解方面存在一些不足。

泛化能力

图源：天燕大模型(英语+法语混合提问）

通过测试，AiLMe现已具备汉语、英语、韩语、葡萄牙语、西班牙语等，在单一语言测试环境下，大模型之家发现AiLMe给出的回答，普遍与提问语种相同。

图源：天燕大模型(英语+汉语混合提问）

在混合语言提问的回答中，AiLMe也同样会根据提问的语言种类使用相同的语言进行回答，并且在中法语混合，中英语混合的测试中都能对提问所包含的多种语言进行分析与理解。但对于其他语言，AiLMe也表示目前水平还相对基础。

图源：天燕大模型(汉语+英语混合提问）

强大泛化能力的大模型能够更好地适应不同语言的文本数据，而不仅限于单一语言。这使得它们可以用于跨语言应用，如多语言机器翻译、跨文化情感分析、多语言搜索等，从而扩大了应用范围。大模型的泛化能力可以减少对每种语言的大规模数据集的依赖。这有助于降低多语言支持的成本，尤其是在语言资源有限的情况下。

作为千亿级多模态人工智能大模型AiLMe拥有四个针对垂直应用场景的精炼模型，分别是文本模型“异雀八”、图像模型“异雀三”、视频模型“异雀四”和音频模型“异雀六”。使大模型能够处理多种模态数据，如文本、图像、语音等。这对于多模态应用如图像描述生成、视听问答系统、多模态推理等非常重要，可以提供更丰富和综合的信息处理。

图源：天燕大模型

这也意味着AiLMe在多种领域中处理多模态数据，如医疗、教育、自动驾驶、虚拟现实等。这种能力使得大模型在不同领域的应用更加灵活和通用。特别是医疗领域，在产业应用侧，天燕大模型已落地多个智慧诊疗场景，模型能力贯穿就医、诊疗、随访、分诊等环节，形成健康诊疗知识库并“投喂”到“智慧医疗大模型”。

同时，具有良好泛化能力的大模型可以适应不同的场景和环境，无论是自然语言对话中的问答，还是其他应用层的感知和决策。都可以广泛用于多种实际应用中。据了解APUS现已推出多款基于AiLMe为底座的消费级应用，包括AI私人助理，AI画笔、AI修图等产品。

图源：墨染

通过体验APUS推出的AI画笔墨染，大模型之家发现，“古风画卷”功能成功将AIGC与古风融合，通过传统艺术形式来打开使用者的“定势思维”带来更多创造力。不过最新上线的AI涂抹功能在使用时并未让大模型之家感受到该功能带来的明显变化。可喜的是，在多次测试中，大模型之家并未发现墨染在生图时针对某些提示词而生成出固定的内容，这一点曾是很多AIGC生图工具的“雷区”。

以天燕大模型为技术底座的AIGC产品可以更容易地进行定制和微调，以适应特定场景和用户需求，从而提供更个性化和精确的服务。自研大模型为企业消费级产品提供了高质量、成本效益高、可定制、数据隐私和安全性强、快速迭代、竞争优势和生态系统建设等多重优势，为企业创造了内容生成领域的竞争优势，吸引更多合作伙伴和客户。

除此之外，在阿里云峰会上APUS旗下郑州阿帕斯科技有限公司与阿里云签约合作，阿里云的云端算力支持，使得APUS的大模型推理能力得到显著提升，实现了以更低成本完成先前需要更多算力才能达到的效果。从前需五倍算力才能实现的效果，现在降本80%依旧能够实现。降低了成本，扩大了应用范围，同时促进了云计算和大模型技术的进步。在市场竞争中具有战略意义。

图源：大模型之家

大模型之家认为引入“AQUA”评价体系，可以更全面、更准确地了解大模型的能力和性能，为未来的研究和应用提供了更为泛化的评估标准。

通过对APUS天燕大模型的能力进行全方位的分析，不仅可以看到这款千亿级多模态人工智能大模型在技术层面对人工智能行业发展的促进作用，还在应用层面为各行各业提供了更多创新的可能。

同时，高歌猛进的发展也要警惕发展中所要面临的挑战与风险，首当其冲的便是数据隐私和安全性问题，大规模数据的使用可能会引发用户数据泄露和隐私侵犯的风险，其次，千亿级参数的大模型需要庞大的计算资源，这意味着高昂的维护成本和不断升级的硬件需求。最后，可解释性和透明度的也将对大模型发展带来挑战，因此提高模型的可解释性是一个亟待解决的问题。

挑战与风险并非某个单一大模型所要面临的问题，这也将是全行业甚至行业内外共同促进解决的问题。随着技术的不断发展和完善，大模型之家愿与行业协力克服这些问题，为大模型技术的更广泛应用和发展创造更加稳健和可持续的基础。

原创文章，作者：王昊达，如若转载，请注明出处：http://damoai.com.cn/archives/812