大模型参数达到万亿级，AI商业化进程正在加速！

日期：2023-10-04 14:16

电子爱好者网报道（文/李弯弯）大模型也称为预训练模型、基础模型等。大模型通常在大规模无标签数据上进行训练，学习某个特征和规则。最近流行的ChatGPT是基于GPT大模型的自然语言处理工具。

从参数的规模来看，AI大模型经历了预训练模型、大规模预训练模型、超大规模预训练三个阶段模型。参数数量从1亿个增加到1亿个。达到十亿级的突破。从模态支持来看，大型AI模型已经从支持图片、图像、文本、语音单一模态的单一任务逐渐发展到支持多模态的多个任务。

AI大模型的发展史

AI大模型的开发也是从Vaswani等人提出的Transformer架构开始。 2017年，Transformer架构的提出，为当前大模型领域主流的算法架构奠定了基础。

2018年，Google提出了大规模预训练语言模型BERT，这是一种基于Transformer的双向深度预训练模型。其参数首次突破3亿。同年，OpenAI提出了生成式预训练Transformer模型GPT，极大地推动了自然语言处理领域的发展。此后，基于BERT、ELNet、RoBERTa、T5等新型预训练语言模型的大量新型预训练语言模型不断涌现，预训练技术在自然语言处理领域蓬勃发展。

2019年，OpenAI继续推出15亿参数的GPT-2，可以生成连贯的文本段落，并实现初步阅读理解、机器翻译等。紧接着，NVIDIA推出了83亿参数的Megatron-LM ，谷歌推出了110亿参数的T5，微软推出了170亿参数的Turing-NLG。

2020年，OpenAI推出超大规模语言训练模型GPT-3，参数达到1750亿。两年左右的时间，实现了模型规模从数亿到千亿的突破，可以实现写诗、聊天、生成。代码和其他功能。此后，微软与NVIDIA于2020年10月联合发布了5300亿参数MegatronTuring自然语言生成模型（MT-NLG）。

2021年1月，谷歌推出的Switch Transformer模型成为史上第一个万亿级语言模型，参数量高达1.6万亿；到2022年，将会出现大量大型模型，例如Stability AI发布的创新文本转图像模型Diffusion、OpenAI推出的ChatGPT。

在中国，大模型研究正在迅速发展。 2021年，商汤发布学者（INTERN）大模型，参数达100亿； 2021年4月，华为云联合周期智能发布盘古NLP超大规模预训练语言模型，参数规模千亿，并联合发布盘古α超大规模预训练语言模型- 与北京大学合作训练模型，参数规模2000亿。

同年4月，阿里巴巴达摩院发布270亿参数规模的中文预训练语言模型PLUG，并与清华大学联合发布千亿参数规模的中文多模态预训练模型M6； 7月，百度推出ERNIE 3.0知识增强大模型，参数规模达到百亿级； 10月，浪潮资讯发布超大规模预训练模型“Source 1.0”，规模约2500亿； 12月，百度推出ERNIE 3.0Titan模型，参数规模达到2600亿。

2022年，基于清华大学、阿里巴巴达摩院等超算基础研究成果的“脑级人工智能模型”八卦炉（BAGUALU）完成，其模型参数规模超过174万亿个人。可以看到，目前大型模型的参数规模已经达到了万亿级。

大模型研究的重要性

目前，人工智能正处于能用、能用好的落地阶段，但仍处于商业落地的早期阶段。主要面临碎片化的场景需求、较高的人力研发和应用计算成本以及长尾场景数据不足，导致模型训练精度不足。，存在模型算法效果从实验室场景到真实场景差距较大等行业痛点。

大模型具有大规模、预训练的特点。一方面，它具有良好的通用性和通用性，可以解决传统AI应用门槛高、部署难的问题。另一方面，可以作为支撑智能化产品和应用落地的技术基础。

过去很多年，虽然各大科技公司不断推出更大规模的模型，但直到去年，生成式AI才逐渐商业化，而OpenAI去年底推出的ChatGPT和今年年初流行的一句话是，大规模AI模型真的迎来了发展的转折点。美国国家工程院外籍院士、北京致远人工智能研究院院长张宏江此前表示，ChatGPT和AIGC在技术爆发的背后，代表着人工智能（AI）大模型进入人工智能领域。新的技术范式和人工智能的第三次浪潮。经过十多年的发展，这是一个非常重要的转折点。

张宏江认为，这实际上代表了从以前开发专用小模型到开发超大规模通用智能模型的范式转变。这一变化的重要意义在于，通过这种相对先进的算法架构，可以让尽可能多的数据、大量的算力、强化的训练被大量的用户所使用。

大模型的发展很可能会改变信息产业的格局，改变以往作坊式的人工智能开发模式，将人工智能应用带入基于互联网和云计算的大规模智能云阶段。

总结

尽管人工智能技术近十几年来发展迅速，但近年来遇到了一些技术瓶颈和商业化问题。随着大模型的发展和普及，特别是通过大模型+微调的新技术发展范式，人工智能将能够更好地应用于各种场景。当然，大型模型的训练和推理也对计算能力提出了挑战。要求非常高，所以大模型的研究如何最终能够推动人工智能产业的发展，需要产业链各环节的共同努力。
-->

最近发表

猜你喜欢

大模型参数达到万亿级，AI商业化进程正在加速！

相关文章