AQUA实测孟子GPT-通用-40B，从通用到高度专业化的AI解决方案

随着大模型的高速发展，模型的应用场景逐渐细分，企业也逐渐将大模型的种类聚焦在应用和目标的权衡上。

目前，通用大模型具备广泛的语言理解和生成能力，可应用于多个领域，但可能缺乏特定行业领域的深度专业知识。而行业大模型则专注于特定领域，提供更高的性能和精准度，但不如通用模型广泛适用。

不过，实际应用中，通用模型和行业模型也并非矛盾。今年6月，澜舟科技创始人兼CEO周明展示了三层（L1-L2-L3）大模型行业服务体系。并对大模型之家表示：孟子大模型是一个通用的L1模型，未来计划在通用模型的基础上构建L2行业模型和L3场景功能引擎，不断提高大模型的性能，包括增加数据量、改进训练方法、优化算法和功能。

同时，周明认为企业需要谨慎考虑模型规模和成本，不是盲目地去追求巨大模型，而是根据企业用户的需求和推理效率来选择适当的模型大小。

图片来源：澜舟科技微信公众号

8月27日，澜舟科技正式发布了孟子大模型系列“L1-L4”面向企业的分级产品服务。包括孟子GPT-40B通用大模型、孟子GPT-7B金融行业大模型以及澜舟智会（会议内容分析平台）三款产品。

图片来源：大模型之家

对此，大模型之家沿用《人工智能大模型产业创新价值研究报告》中提出的“AQUA”评价体系，从模型能力、任务处理能力、应用生态等六个维度对“孟子GPT-40B通用大模型”展开多角度全方位的评测。

模型能力

图片来源：孟子大模型

模型规模：孟子GPT-40B拥有400亿个参数，是目前国内最大的中文生成式大模型之一。相比7B版本，40B的参数量增加了4.7倍，能够更好地捕捉语言的复杂性和多样性。
训练数据量：孟子GPT-40B使用了万亿级别的多语言语料进行预训练，包括网页、百科、社交媒体、新闻以及高质量开源数据集。相比于之前的孟子GPT-7B版本，孟子GPT-40B的数据量增加了10倍，能够更好地覆盖不同领域和场景的语言用法。
训练算力：孟子GPT-40B使用了澜舟科技自研的高效注意力计算技术FlashAttention，以及TGI等加速框架，实现了训练速度的8.5倍提升和推理速度的4.6倍提升。相比于之前的孟子GPT-7B版本，孟子GPT-40B的训练时间缩短了80%，推理时间缩短了78%。

图片来源：澜舟科技微信公众号

透过数据，孟子GPT-40B大模型以其庞大的参数规模、广泛的多语言数据预训练，以及高效的训练技术，展现出了强大的模型能力。可以更好地捕捉和处理语言的复杂性和多样性，具备卓越的语言理解和生成能力。
同时，高效的训练算力还使得它能够更快速地应对大规模自然语言处理任务，为各种语言相关应用提供了卓越的性能和效率。

任务处理能力

图片来源：孟子大模型

在客观题测试时，大模型之家发现孟子GPT-40B在回答选择题时，更倾向于直接给出具体答案，而不是给出具体的选项。这种回答方式表现了模型的高准确性和严格的答案选择，有助于确保提供的答案是准确的。

图片来源：孟子大模型

除了孟子大模型系列最擅长的金融领域以外，AQUA还对孟子GPT-40B在法律、医疗、教育等领域进行了测试。特别是在面临法律问题测试时，孟子GPT-40B的回答正确率高达95%。并且，孟子GPT-40B的回答还会在提供答案的同时还会给出相关的法条用于使用者参考。

图片来源：孟子大模型

值得一提的是，大模型之家还发现，在面对同一问题时，孟子GPT-40B的回答会给出不同的答案。这一现象主要体现在当提供的问题是选择题时孟子GPT-40B并不会选出正确的答案反而会选择一个错误的答案。

但当直接回答问题时孟子GPT-40B便可以给出相应答案。此现象表明孟子GPT-40B可能在上下文理解、多义性理解等方面还有待提高。其次，在一些情况下，模型过度拟合了训练数据，也会导致在选择题中出现错误答案。

大模型之家认为，为了降低这些错误，可能需要更多的上下文、更精确的问题、更准确的训练数据和更好的后处理技巧。大模型的性能在不同任务和问题类型上有所不同，因此需要审慎使用和评估，尤其是在选择题等需要精确答案的情况下。

应用拓展能力

面对复杂问题使用门槛较高、信息更新不及时、领域知识匮乏、无法与外部系统交互等问题，在三层大模型行业服务体系发布后的几个月后，澜舟科技推出AI Agents智能体，作为产品体系中的L4级别。这也正式形成了孟子大模型面向企业的“L1-L2-L3-L4”的产品体系。

具体如下：

L1-孟子通用大模型：提供阅读理解、通用写作、机器翻译、多轮对话等通用能力；

L2-孟子行业大模型：基于行业或者垂直领域专业数据、联合行业客户和伙伴，打造出来的更加专业的行业大模型，行业任务表现更优；

L3-场景服务模型：完全面向企业客户的业务场景，聚焦业务效果，基于提示（prompt）工程或者微调（SFT）后实现更加定向的优化效果；

L4-AI Agents：面向复杂场景，孟子大模型担当“大脑”角色，将复杂场景需求自主拆解为任务列表，自动执行，实现“所说即所得”。

多样的产品体系提供了多个级别的模型，涵盖了从通用任务到高度专业化和复杂任务的广泛范围。这个多层次的适配性允许企业根据其需求和业务特点，选择最适合的模型级别。

图片来源：澜舟科技微信公众号

L2级别的行业大模型和L3级别的场景服务模型，基于专业数据和提示工程，能够提供更高水平的垂直领域专业性。这在特定行业的应用中具有重要价值，可提高任务的准确性和可用性。

除此之外，AI Agents模型具备了自主执行复杂任务的能力，这在自动化和复杂场景处理方面具有前瞻性。企业可以受益于减少人工干预，提高效率，并快速应对变化的需求。从基本的人工智能任务到高级自主执行，为企业提供了一站式的解决方案。有助于企业在一个平台上满足各种需求。

泛化能力

在多语言能力上，孟子GPT-40B的多语言能力是基于万亿tokens多语言语料联合训练得到的，包括中文、英文、日文、韩文、法文、德文等语言，可以在不同语言之间进行无缝切换，实现跨语言的对话、写作、翻译等任务。它还可以根据不同语言的特点和风格，生成符合语言习惯和逻辑的内容。

据了解，孟子GPT-40B通用大模型能够根据不同应用场景和用户需求进行对话效果定制，实现个性化的对话服务。同时，根据孟子GPT-40B开发出的孟子GPT-7B金融行业大模型。通过整合更多泛金融领域的数据和专业知识。依靠算法优化，成功继承了底座的通用能力，并在金融领域任务上发挥更专业的作用。

除了金融、营销、娱乐和翻译四个领域外，澜舟科技还关注其他很多有潜力的领域，如电力、能源、农业、工业等。未来将逐步拓展其他领域的应用场景。

图片来源：大模型之家

孟子GPT-40B通用大模型具有强大的语言理解和生成能力的人工智能产品，可以在多个领域和场景中提供高效和专业的服务。除了庞大的参数规模、广泛的多语言数据预训练，以及高效的训练技术，还具备了多层次的产品体系，涵盖了从通用任务到高度专业化和复杂任务的广泛范围。孟子GPT-40B还可以根据不同应用场景和用户需求进行对话效果定制，实现个性化的对话服务。

大模型之家认为，企业需要谨慎选择适当的模型，并不断探索其在不同领域的应用，以实现更大的创新和价值。大模型的平衡和选择，将是未来人工智能领域中的一个持续议题，也将不断塑造着我们的数字化未来。

原创文章，作者：王昊达，如若转载，请注明出处：http://damoai.com.cn/archives/1276