今日,百川智能召开“百川汇海,开源共赢”Baichuan 2开源大模型发布会,正式公布了开源取得的成果,并与合作伙伴开启了“创新、协作、共赢”开源生态合作仪式。
作为今年4月才正式宣布成立的百川智能,在短短的5个月的时间里,就在国内大模型领域取得了一定的成果:6月15日及7月5日,分别发布开源中英文预训练大模型Baichuan-7B、Baichuan-13B,参数量分别为70亿、130亿,并在中英文权威评测榜单上取得了优异成绩,展现出强大的语言理解和生成能力。并于8月8日发布Baichuan-53B,这也是百川智能首个闭源大模型。
如今百川智能再次提到“开源”,究竟对于大模型产业能够带来哪些新的诠释,引起了大模型之家的关注。Baichuan2拥抱开源,能力超过LIama 2
作为活动中最重磅的发布,百川新一代开源大模型——Baichuan 2正式发布。同时,百川智能还宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本,并且均为免费可商用。
根据百川智能创始人兼CEO王小川介绍称,得益于规模大、覆盖全、质量优的数据,配合高效、稳定、可预测的训练,Baichuan 2系列大模型文理科能力全面提升,其中数学能力提升49%、代码能力提升46%、安全能力提升37%、逻辑能力提升25%、语义理解能力提升15%。
他还指出,在主流大模型评测习题下,70亿参数的Baichuan 2-7B在中英文主流任务中,能力就已经全面超越Meta研发的开源大模型Llama 2-13B,而规模更大的Baichuan 2-13B均处于开源模型最好水平。
值得注意的是,就在上个月,百川智能发布了旗下首个闭源大模型Baichuan-53B,不仅在写作和文本创作能力方面更加完善,同时标志着百川智能大模型商业化付费的开启。
闭源大模型的发布,并不意味着百川智能的开源之路戛然而止。如今百川智能重提“开源”,可见开源无论是对于百川智能自身,或是整个大模型行业而言,仍然有着重要的意义。
众所周知,“开源”是一种软件开发模式,它允许任何人自由地使用、复制、修改和分发软件代码。这种模式的核心理念是鼓励全球范围内的协作和创新,以便更快地推动技术进步。
百川智能表示,“开源”是人工智能发展中一种重要的理念和实践方式,有助于加速技术的研发和应用。通过开放自己的研究成果和资源,百川智能希望能够吸引更多的开发者和合作伙伴参与到人工智能领域的发展中来,共同推动行业的进步。
然而,目前海外的开源大模型对于中文语境支持不足或不够“友好”。以Meta旗下大语言模型Llama 2为例,由于预训练数据中缺乏中文,且没有经过中文数据微调,并不能完全适应中文语料的使用环境。因此,开发了解中文语言环境的大模型,对于国内学术与产业而言,有着重要的价值。
据悉,基于百川智能的“开源”策略,Baichuan的核心人工智能算法、模型和工具等开源项目可以帮助其他研究人员和企业更容易地开展相关研究和开发工作,同时也能够让用户更加了解和信任百川智能的技术实力。
截至目前,百川开源大模型已经在开源社区总下载量超越500万。其中,Hugging Face首周下载量达百万,近一个月的下载量337万,并已有超过200家企业已申请百川大模型开源和商业授权,并已将百川模型投入实际生产场景。
此外,百川智能还可能通过开源的方式分享他们在实际项目中的经验和教训,以及对行业趋势和挑战的看法。这样一来,不仅可以促进内部知识的传播和共享,还可以提高整个行业的专业水平。
助力学术研究,推动开源生态繁荣
大模型之家注意到,在百川智能关于Baichuan 2系列大模型的应用场景上,不仅提到了包含互联网、金融等在内的产业领域,还重点提到了一个领域——学术研究。
中科院院士张钹表示,虽然大模型行业取得了广泛关注,但是“大模型产生”的现象仍然缺乏可解释性,“涌现”只是大模型的一种表现形式,大模型的“幻觉”问题仍然困扰着行业。
因此,对于模型的训练与推理的过程,仍然是人工智能学术领域需要不断去探索的课题。
王小川指出,当前大部分开源模型在开源过程中只是对外公开自身的模型权重,很少提及训练细节,企业、研究机构、开发者们只能在开源模型的基础上做有限的微调,很难进行深入研究。
因此,百川智能本次开源了模型训练从220B到2640B全过程的Check Ponit,这对国内开源生态尚属首次。这对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等具有很高价值,将推动国内大模型的科研进展。
此外,为了更好地支持大模型领域学术研究,王小川还在发布会上表示,百川智能希望开源在中文领域里能服务中国的社会,也对学术界的老师学生开通了绿色通道,会给他们提供更多资料,帮助学术。
在大模型之家看来,百川智能“开源+闭源”大模型的并行布局下,使其能够通过“开源”实现创新、协作、共赢,完成技术的小步快跑式迭代,并共同助力中国大模型生态蓬勃发展;“闭源”则保证了百川智能在大模型方面能够更加有底气去实现商业化的探索,同时保护知识产权。在“双轮驱动”之下,百川智能将充分磨砺自身,并成为推动我国大模型领域发展的重要力量。
原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/699