性能超越开源模型标杆Llama2-70B，书生·浦语大模型InternLM-20B开源发布

大模型之家讯今日，商汤科技与上海人工智能实验室联合香港中文大学和复旦大学正式推出书生·浦语大模型（InternLM）200亿参数版本InternLM-20B，并在阿里云魔搭社区（ModelScope）开源首发。

同时，书生·浦语面向大模型研发与应用的全链条工具链全线升级，与InternLM-20B一同继续全面开放，向企业和开发者提供免费商用授权。

自今年6月首次发布以来，书生·浦语已经历多轮升级，在开源社区和产业界产生了广泛影响。InternLM-20B模型性能先进且应用便捷，以不足三分之一的参数量，达到了当前被视为开源模型标杆的Llama2-70B的能力水平。

代码库链接：https://github.com/InternLM/InternLM

魔搭社区链接：https://modelscope.cn/organization/Shanghai_AI_Laboratory

书生·浦语“增强版”：增的不只是量

相比于国内社区之前陆续开源的7B和13B规格的模型，20B量级模型具备更为强大的综合能力，在复杂推理和反思能力上尤为突出，因此对于实际应用能够带来更有力的性能支持。

另一方面，20B量级模型可以在单卡上进行推理，经过低比特量化后，可以运行在单块消费级GPU上，给实际使用带来很大的便利。

InternLM-20B是基于2.3T Tokens预训练语料从头训练的中量级语言大模型。相较于InternLM-7B，训练语料经过了更高水平的多层次清洗，补充了高知识密度和用于强化理解及推理能力的训练数据。

在理解能力、推理能力、数学能力、编程能力等考验语言模型技术水平的方面，InternLM-20B与此前已开源模型相比，性能显著增强：优异的综合性能，通过更高水平的数据清洗和高知识密度的数据补充，以及更优的模型架构设计和训练，显著提升了模型的理解、推理、数学与编程能力。

InternLM-20B全面领先量级相近的开源模型，使之以不足三分之一的参数量，评测成绩达到了被视为开源模型的标杆Llama2-70B水平。

拥有强大的工具调用能力，实现大模型与现实场景的有效连接，并具备代码解释和反思修正能力，为智能体（Agent）的构建提供了良好的技术基础；
支持更长语境，支持长度达16K的语境窗口，更有效地支撑长文理解、长文生成和超长对话，长语境同时成为支撑在InternLM-20B之上打造智能体（Agent）的关键技术基础；
具备更安全的价值对齐，书生·浦语团队对InternLM-20B进行了基于SFT（监督微调）和RLHF（基于人类反馈的强化学习方式）两阶段价值对齐以及专家红队的对抗训练，当面对带有偏见的提问时，它能够给出正确引导。