今年以来,大语言模型(Large Language Model,LLM)是无疑最热门的话题之一。从GPT-3到LLaMA-2,这些拥有数十亿甚至数千亿参数的模型,展现了惊人的涌现与逻辑能力,被行业视为人类走向通用人工智能(AGI)的起点。
然而在大模型的发展路径上,开源与闭源的抉择争论一直存在。
放眼全球的大模型企业,对于开源的态度也不尽相同。例如OpenAI的GPT-4和百度的文心一言至今则坚持闭源,将其模型技术保留在内部,可能是出于商业机密的考虑。而Meta则选择了开源的道路,相继面向“学术研究用途”开源了LLaMA和LLaMA-2模型,这种做法有助于促进学术领域的共享与合作,推动整个科技社区的发展。
此外,还有一些企业采取了混合策略,即在学术领域开源部分模型,在商业探索上采用闭源策略。比如百川智能在学术领域选择了开源Baichuan2-7B、Baichuan2-13B,为研究者提供了更广泛的使用空间。然而,在商业探索上,百川智能采用了相对封闭的策略,将Baichuan2-53B保持为闭源,以保护商业利益和技术的竞争优势。
在国内大模型开源领域,阿里云旗下的通义千问一直是该领域的领头羊。12月1日,阿里云举办通义千问发布会,不仅开源了通义千问720亿参数模型Qwen-72B,同时还宣布Qwen-1.8B和音频大模型Qwen-Audio开源,实现了包括通用大语言模型、视觉语言模型和音频大模型在内的“全尺寸、全模态”的开源。
在大模型之家看来,能够坚定地将通义千问开源,其背后是不仅对于阿里云对大模型发展阶段的判断、自身的优势以及现阶段业务发展的重心有了更为清晰的理解,同时,填补中国大语言模型开源领域空白。
大模型操作系统呼之欲出,通义千问填补中国开源领域空白
行业内,常常把大模型的开源与闭源的争论,类比为移动互联网时代的Android与iOS之争。然而,争论的实质不仅仅是技术能力的对比,更是围绕着生态的争夺。在大模型时代,构建一个强大的应用生态,就需要一个稳固的基座大模型,而这个基座大模型便是未来大模型时代的操作系统。
目前,国内开源的大模型领域呈现出一片百花齐放的景象。根据中国新一代人工智能发展战略研究院发布的《2023中国新一代人工智能科技产业发展报告》,截至目前,国内大模型总数已达到238个,涵盖了中文、英文、多语言等不同语种,以及通用、对话、视觉语言、音频等不同模态。这些模型的开源,为国内的人工智能领域提供了丰富的资源和选择,也展现了国内的技术实力和创新活力。
尽管目前国内大模型的开源生态中有许多大模型涌现,但真正开源的基座却相对匮乏。所谓开源基座,就是指那些具有高性能、高稳定、高兼容、高可扩展等特点的大模型,它们可以作为其他大模型的基础,进行继续预训练、微调、部署等,支撑大模型的应用开发和技术创新。
开源基座的重要性,在于它们可以降低大模型的使用门槛,提高大模型的使用效率,促进大模型的生态建设,推动大模型的社会价值。
在这个背景下,通义千问系列模型的开源显得尤为重要,因为它不仅在性能上超越了国外的开源标杆,而且完全免费、可商用,为国内的开发者和研究人员提供了强大的支持和便利。
通义千问系列模型在大模型开源领域的贡献首先体现在其性能方面。通过一系列的权威基准测评,通义千问系列模型在同等参数规模下展现出优越的性能,不仅超越了国外标杆模型,更在国内大模型开源生态中站稳了脚跟。具体而言,Qwen-72B作为最新开源的720亿参数模型,基于3T tokens高质量数据训练,在10个权威基准测评中夺得开源模型最优成绩,在10个权威基准测评中创下了开源模型最优成绩,成为业界最强的开源大模型。
然而,要想构建一个健全的大模型生态,单一性能的强大并不足够。通义千问系列模型的独特之处还在于其全尺寸的开源,从1.8B到72B,通义千问以其卓越的技术实力和前瞻性的视野,率先实现了全尺寸的开源大模型系列。这种全尺寸的开源意味着通义千问提供了从小型应用到大型场景的全方位支持,为开发者提供了更广泛的选择空间。这种开源的全尺寸,填补了国内开源大模型领域的空白,也为国内的开发者搭建了一个更为丰富、灵活的大模型生态。
拥抱开源,营造更好的社区生态
众所周知,开源作为已经成为了软件行业的一个重要趋势,它推进了技术的共享,加速了技术进步和标准化进程,为更多开发者提供了改进和创新的机会。开源社区为开发者提供了强大的支持,帮助他们加快开发进程、提高软件质量,并促进更好的协作。这些优势共同为开源社区和技术生态的发展奠定了坚实基础,同时也推动了大模型的快速发展。
通义千问系列大模型,通过开源这一方式,通义千问系列大模型不仅提供了免费、可商用的模型,还提供了完善的文档、教程、工具和平台,让用户可以方便地使用模型,并积极与社区和合作伙伴进行交流和合作,让用户可以获取更多的资源和支持。
除了通义千问这一开源大模型基座之外,阿里云还积极汇聚行业中领先的大模型,尤其是适合中文语言环境下的大模型,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品。2022年11月,阿里云和CCF开源发展委员会共同发起的“魔搭社区”(ModelScope)正式上线,如今已经成为国内最活跃的AI的模型社区之一。
至今,魔搭社区已发展成为汇聚工业级领先模型和数据的平台,有超过2300个优质AI模型,绝大部分为中文模型,并涵盖不同语种、模态、领域和任务。用户可以在此发现、学习、定制和分享模型,同时享受完善的文档、教程、工具和平台支持。魔搭社区还具备强大的系统指令能力,使企业能轻松地定制自己的AI助手,也为开发者提供学习与探索的平台。
此外,魔搭社区还重视与高校、合作伙伴的交流合作。它与20多所顶级院校开展学术合作,通过举办高校巡回沙龙、联合开发课程等方式,支持高校学子对AI大模型等前沿技术的探索。此外,魔搭社区还与多个开源工具和框架进行技术对接,确保用户可以更好地理解和利用模型。
赋能中小企业,打造行业基座
在“百模大战”的背景之下,在各个榜单中“争第一”几乎成为了它们的必修课,因为只有“第一”才能证明自己的与众不同,才能获得被更多人记住的机会。然而,渴望脱颖而出的背后,每家大模型企业目的也不尽相同。例如有的巨头企业为的是通过能力为大模型积累更多的商业化机会,有的初创企业急于通过成绩完成最初的资本积累,而通义千问则将更多的目光聚焦于产业——打造基于通义千问大模型底座的大模型产业生态。
虽然大模型赋能千行百业早已成为行业共识,但是大模型从零开始训练的成本、耗时、数据之高,仍然是横于众多企业踏入大模型领域前的一道门槛。因此,通过在现有可商用的开源大模型的基础上进行知识增强或是针对性的微调,发展面向特定场景的专业大模型产品。
然而,中小企业和开发者在AI开发中,却面临着诸多的问题和困难。首先,技术门槛高,导致许多企业和开发者难以掌握和使用大模型的相关技术。其次,资源不足,导致许多企业和开发者难以投入和支持大模型的研发和应用。最后,平台缺失,导致许多企业和开发者难以找到和利用大模型的相关服务和工具。这些问题和困难,严重制约了中小企业和开发者的AI技术的创新和应用。
因此,在全球AI技术角力的大背景之下,采用国内大模型开发底座的需求也呼之欲出。以通义千问系列大模型为例,不仅提供了高性能、高稳定、高兼容、高可扩展的基础模型,还提供了强大的系统指令(System Prompt)能力,让用户只用一句提示词就可定制自己的AI助手,让大模型具备角色扮演能力。这些模型和能力,为用户提供了丰富的创造空间,让用户可以根据自己的需求和想法,构建更适合的模型和应用。
同时,通义千问还整合了各方面的资源和技术力量,为开发者提供了一个全面的技术支持平台。这个平台包括了数据处理、模型训练、应用开发等各个环节所需的工具和服务,帮助开发者更加高效地进行开发工作。此外,通义千问还为开发者提供了丰富的数据集和模型库,帮助他们更好地解决实际应用中的问题。
在教育领域,通义千问系列大模型可以作为智能教学助手,帮助学生和老师进行学习和教学。比如由浙江大学、高等教育出版社和阿里云联合发布的智海-三乐教育垂直大模型,它以教科书级别的高质量语料为基础,基于通义千问70亿参数模型Qwen-7B进行训练,结合专业指令数据集进行预训练和微调。这使得模型具备了智能问答、试题生成、学习导航和教学评估等能力,并已在全国多所高校得到应用。
在智慧办公领域,瓴羊Quick BI的智能小Q助手上,基于通义千问开源大模型研发,并加入BI的行业知识,微调训练Qwen基座模型,使之具备NL2SQL/NL2DSL能力,用户可以通过对话使用小Q生成美观的报表、帮助用户快速生成报表摘要,并将摘要结果加入仪表板,甚至能分析数据的异常情况,帮助定位业务问题。降低了数据决策的门槛。
此外,在娱乐方面,它可以作为智能娱乐助手,根据用户喜好和场景生成有趣的内容,提供智能推荐和引导,增加娱乐体验,同时根据用户语言和情绪生成适合的回应,增强娱乐互动和沟通。在商业领域,通义千问可以作为智能商业助手,根据企业产品和服务提供专业介绍和说明,提供智能咨询和推荐,提高商业吸引力和转化率,并根据客户需求和反馈生成合适的答案和建议,提供智能服务和支持,提升商业满意度和忠诚度。
不仅如此,基于大模型的能力,还可以和现实世界中的机器人相结合,不仅可以加速生产制造的智能化流程,还可以成为通用的人工智能大脑,打造能接受人类以自然语言提出的任务,并理解、拆解、规划、执行任务帮助传统制造商升级产品。在具身智能时代,为每个专业设备都将迎来智能化升级的机会。
写在最后
尽管关于开源商业化的争论在行业内仍然持续,但在大模型之家看来,“开源与商业化无缘”是个伪命题,在软件开发层面,行业内不仅有微软、谷歌、Meta等巨头为开源界作出巨大贡献,也有红帽一样的深植于开源操作系统服务的企业。而在硬件领域,在产业全面走向智能化的大势所趋之下,行业对于算力的需求也将到达前所未有的高度,这对于阿里云这种智能化时代下的算力基础设施提供商而言,也带来了业务增长的全新机遇。
更为重要的是,只有行业的繁荣发展,才能孕育出更多的商业机遇。在这一进程中,以通义千问为代表的国产开源大模型正在发挥着无可替代的推动作用。大模型之家相信,随着这些大模型的持续进化和推广,国内的大模型开源生态建设将成为推动行业智能化的新基座,引领我们进入一个全新的AI时代。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/2295