9月20日,上海人工智能实验室(上海AI实验室)与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语大模型(InternLM)200亿参数版本InternLM-20B,并在阿里云魔搭社区(ModelScope)开源首发。同时,书生·浦语面向大模型研发与应用的全链条工具链全线升级,与InternLM-20B一同继续全面开放,向企业和开发者提供免费商用授权。
浪潮之上,大模型的应用价值日趋受到关注。正如历史上的任何一项新技术,其生命力终究要回归到是否可以广泛落地,为世界带来积极且真实的变化。在此背景下,上海AI实验室联合多家机构推出了中量级参数的InternLM-20B大模型,性能先进且应用便捷,以不足三分之一的参数量,达到了当前被视为开源模型标杆的Llama2-70B的能力水平。
相比于国内社区之前陆续开源的7B和13B规格的模型,20B量级模型具备更为强大的综合能力,在复杂推理和反思能力上尤为突出,因此可为实际应用带来更有力的性能支持;同时,20B量级模型可在单卡上进行推理,经过低比特量化后,可运行在单块消费级GPU上,因而在实际应用中更为便捷。
InternLM-20B是基于2.3T token预训练语料从头训练的中量级语言大模型。相较于InternLM-7B,训练语料经过了更高水平的多层次清洗,补充了高知识密度和用于强化理解及推理能力的训练数据。因此,在考验语言模型技术水平的理解能力、推理能力、数学能力、编程能力等方面,InternLM-20B都有显著提升。
优异的综合性能。InternLM-20B 具备优异的综合性能,不仅全面领先相近量级的开源模型(包括Llama-33B、Llama2-13B以及国内主流的7B、13B开源模型),并且以不足三分之一的参数量,测评成绩达到了Llama2-70B的水平。
强大的工具调用能力。InternLM-20B拓展了模型的能力边界,实现了大模型与现实场景的有效连接。InternLM-20B支持数十类插件,上万个API功能,在ToolBench评测集上获得了最佳结果,在与ChatGPT的竞赛中,胜率达到63.5%。InternLM-20B还具备代码解释和反思修正能力,为智能体(Agent)的构建提供了良好的技术基础。
更长的语境。通过多阶段训练拓展,InternLM-20B支持16K语境长度,从而更有效地支撑长文理解、长文生成和超长对话。
更安全的价值对齐。相比于之前版本,InternLM-20B在价值对齐上更加安全可靠。在研发训练的过程中,研究团队通过基于SFT(监督微调)和RLHF(基于人类反馈的强化学习方式)两阶段价值对齐,以及专家红队的对抗训练,大幅提高其安全性。当用户带着偏见提问时,模型能够给出正面引导。
全线升级的开源工具、数据体系。书生·浦语开源工具链全线升级,形成了更为完善的工具体系,其中包括预训练框架InternLM-Train、低成本微调框架XTuner、部署推理框架 LMDeploy、评测框架OpenCompass 以及面向场景应用的智能体框架Lagent。书生·浦语工具链将和开源数据平台OpenDataLab构成强大的开源工具及数据体系,共同为学术界和产业界提供全链条的研发与应用支持。
过去一段时间,国内机构陆续开源了多个参数量为7B和13B规格的模型,在评测中也取得了不俗的成绩。但研究人员发现,这些模型在适配下游任务,尤其是对准确性和推理能力要求较高的任务时,还存在局限。为了更好地支持这些任务,业界呼唤一个中量级的开源模型,提供更强的理解、推理以及长文生成能力。
在相对有限的参数规模下,研究人员在架构设计时面临重要的取舍——提高模型的深度还是宽度?通过广泛的对照实验,书生·浦语团队发现,更深的模型层数更有利于复杂推理能力的培养。因此在架构设计时,研究人员把模型层数设定为60层,超过7B与13B模型通常采用的32层或者40层设计;同时内部维度保持在5120,处于适中水平。通过架构设计上的新取舍,InternLM-20B在较高计算效率的条件下实现了复杂推理能力的显著提升。
InternLM-20B还支持更长的语境长度。在训练过程中,模型的语境长度分阶段从2K拓展到8K。在推理侧,基于Dynamic NTK技术,把模型推理可支持的语境长度进一步延展到16K。长语境为模型的能力拓展,包括工具调用、代码解释以及反思修正等提供了更大的空间,成为支撑在InternLM-20B之上打造智能体(Agent)的关键技术基础。
基于OpenCompass大模型评测平台,研究人员在涵盖语言、知识、理解、推理和学科能力等五大维度的50个主流评测集上,对InternLM-20B及相近量级的开源模型进行了全面测试比较。评测结果显示,InternLM-20B在全维度上领先于开源13B量级模型,平均成绩不仅明显超越Llama-33B,甚至优于被称为开源模型的标杆Llama2-70B。
下表显示了13B及更高参数量的主流开源模型在各个维度上的平均成绩(红色字体为13B-33B量级范围内各能力维度最高评分)。InternLM-20B在语言、知识学科综合评测上都超越Llama2-70B,在推理能力评测上和Llama2-70B持平,而知识方面则仍有一定差距。但在上述所有维度上,InternLM-20B都显著领先主流的13B量级开源模型。
下表在一些有重要影响力的典型数据集上比较了主流开源模型的表现(红色字体为13B-33B参数量级范围内各项测评最佳成绩):
评测结果显示,InternLM-20B在MMLU、C-Eval、AGIEval综合性学科评测中成绩优异,在同量级开源模型中处于领先位置。MMLU被普遍认为是评价一个语言模型综合能力的关键指标,InternLM-20B在MMLU上取得62.05的成绩,接近Llama-65B的水平;而在包含中文学科考试的C-Eval和AGIEval上,InternLM-20B的表现也明显超过了Llama2-70B。
CMRC、CSL、RACE 分别为面向百科知识、科技文献以及学生阅读理解的评测集,而XSum则是挑战性的文献摘要评测——上述评测均为考察大模型理解能力。在理解能力维度,InternLM-20B表现突出,全面超越包括Llama2-70B在内的各个量级的开源模型。
推理,尤其是复杂推理,是语言模型目前面临的常见难题,也是模型能否支撑实际应用的关键能力。上表中所列WinoGrande、GSM-8K、PIQA、BigBench-Hard(BBH)分别考察模型在常识推理、数学推理、物理相关推理以及有挑战性的综合推理方面的能力。InternLM-20B均获得明显超越主流的13B开源模型的成绩,在 WinoGrande、GSM8K和PIQA评测上已非常接近Llama-65B此类重量级模型的推理能力水平。
总体而言,InternLM-20B 在综合能力上全面领先于13B量级的开源模型,在评价推理和编程能力的多个评测集上接近甚至超越Llama-65B,在中文相关的评测上普遍超越 Llama2-70B。
工具调用是拓展大语言模型能力边界的重要手段,也是OpenAI近期推出大模型的重点特性之一。InternLM-20B对话模型支持了日期、天气、旅行、体育等数十个方向的内容输出及上万个不同的 API。
在清华大学等机构联合发布的大模型工具调用评测集ToolBench 中,InternLM-20B和 ChatGPT 相比,达到了63.5%的胜率,在该榜单上取得了最优结果,表现出强大的工具调用能力。
InternLM-20B模型还展现出一定的零样本泛化能力,对于模型在训练过程中并没有学习过一些工具,InternLM-20B也能根据工具描述和用户提问来调用工具完成任务。例如给模型提供一些AI工具,模型可以自己进行规划和推理,完成用户的问题。
更贴合人类价值观的大语言模型,才有可能更好地充当“人类助手”的角色。InternLM-20B在迭代过程中加入了大量符合人类价值观的数据,研究团队组织相关领域专家对模型进行了多轮红队攻击,大幅提升其安全性。
当用户向InternLM-20B提出带有偏见的问题时,它能够识别出不安全因。