AI大模型是人工智能迈向通用智能的里程碑技术。它的出现，让很多产业人士认为这项技术会改变信息产业格局，即基于数据的互联网时代和基于算力的云计算时代之后，将进入基于大模型的AI时代。

随着ChatGPT迅速破圈，AIGC被看作继PGC、UGC之后新型利用AI技术自动生产内容的方式。相比于小模型数据有限、能力有瓶颈，定制化、碎片化情况严重，以及缺乏规模化复制和涌现能力，AI大模型则具备多个场景通用、泛化和规模化复制等诸多优势，被视为是实现 AGI（通用人工智能，Artificial General Intelligence）的重要方向。

而AIGC的快速迭代演变，让AI大模型技术席卷全球，成为最炙手可热的技术之一。从国外的谷歌、微软、英伟达，到国内的阿里、百度，都在不遗余力布局AI大模型。

可以说，作为近年来最为热门的AI细分领域，AI大模型是人工智能迈向通用智能的里程碑技术。它的出现，让很多产业人士认为这项技术会改变信息产业格局，即基于数据的互联网时代和基于算力的云计算时代之后，将进入基于大模型的AI时代。

那么，究竟什么是AI大模型？它是如何发展起来的，经历过哪些过程？其产业应用价值又有多少？今天，《中国科技信息》将一一作出解答。

“大数据+大算力+强算法”结合的产物

AI大模型是“大数据+大算力+强算法”结合的产物，凝聚了大数据内在精华的“隐式知识库”。包含了“预训练”和“大模型”两层含义，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。

简单来说，就是在大数据的支持下进行训练，学习出一些特征和规则，微调后应用在各场景任务中。目前，其主要在自然语言处理、计算机视觉、语音识别等领域得到广泛应用。

从参数规模上看，AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段，参数量实现了从亿级到百万亿级的突破；从模态支持上看，AI大模型从支持图片、图像、文本、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。

可以说，AI大模型更像是AI发展到一定阶段的一个集大成者，将过去多年出现的各种AI技术综合运用，再辅以优秀的数据和足够的算力，在自然语言处理、图像识别、语音识别等领域取得了显著的成果。当前，AI大模型的发展正从以不同模态数据为基础过渡到与知识、可解释性、学习理论等方面相结合，呈现出全面发力、多点开花的新格局。

极高的计算和存储需求令人“喜忧参半”

在AI大模型兴起之前，AI模型基本上都是对特定应用场景需求进行训练的，即小模型。它属于传统的定制化、作坊式的模型开发方式。这也意味着除了需要优秀的产品经理准确确定需求之外，还需要AI研发人员扎实的专业知识和协同合作能力完成大量复杂的工作。这就导致了模型无法复用和积累，使得AI落地的高门槛、高成本与低效率。

AI大模型竞争加速能否成为人工智能迈向通用智能的里程碑？

而大模型在研发时就具备了更标准化的流程，它通过从海量的、多类型的场景数据中学习，并总结不同场景、不同业务下的通用能力，学习出一种特征和规则，成为具有泛化能力的模型底座。

不过，这个AI大模型“引以为傲”的优势，也成为了它饱受争议的焦点。一方面，因为AI大模型具有很高的计算和存储需求，需要使用极为强大的计算设备和高效的算法才能训练和应用，所以参数量一般可以达到惊人的数十亿或者数千亿。

例如OpenAI的GPT系列，最开始的GPT-1拥有1.17亿个参数，到GPT-3的参数已经到达1750亿个，最新的GPT-4没有给出具体的参数量，但根据推测，它或将接近万亿。而 Google 的 AlphaGo 模型则具有超过 1 亿个参数。对此，一些研究人员正在寻找更加高效和环保的方法来训练大模型，例如使用低功耗芯片、开发更高效的算法和优化训练流程等。

另一方面，大模型的部署也需要考虑到实际应用中的资源限制和延迟要求。一些研究人员正在研究如何在保持模型性能的同时，减少模型的大小和计算量，以便更好地适应实际应用的需求。

总之，大模型的发展带来了更加精准和高效的机器学习和人工智能应用，但也需要在计算资源、环境和应用场景等方面进行综合考虑和优化。因此，大模型的开发和应用通常需要大型公司、研究机构或者富有的个人等拥有足够的资源来支持。

全球AI大模型生态竞争“热火朝天”

有人说，人工智能的下一阶段竞争是大模型的生态竞争。国际上，谷歌、微软、Facebook、OpenAI 等科技巨头纷纷推出了各自的 AI 大模型，如 GPT-3、BERT、T5、DALL-E 等，它们在自然语言处理（NLP）、计算机视觉（CV）、多模态融合等领域取得了令人瞩目的成果，展现出了强大的智能能力和广阔的应用前景。

AI大模型竞争加速能否成为人工智能迈向通用智能的里程碑？

而抛开已经在AI大模型研发和应用已经趋于成熟的国际企业，我国企业在该领域也呈现一片“热火朝天”景象。

在2021年，华为发布了首个中文千亿级的盘古模型，进一步增强中文大模型研究影响力；中科院自动化所提出首个三模态的紫东太初模型，预示着AI大模型进一步走向通用场景；百度在2022年发布10个产业级知识增强的ERNIE模型，全面涵盖基础大模型、任务大模型、行业大模型。

不仅如此，阿里的“M6”、腾讯的“混元”、中科院自动化所的“紫东太初”、百度和鹏城实验室的“ERNIW 3.0 Titan”、清华大学的“八卦炉”等。其中参数规模超过千亿的华为云的“盘古”大模型同样值得关注。

可以说，大模型的真正意义在于改变了 AI 模型的开发模式，将模型的生产由“作坊式”升级为“流水线”。而模型开发模式的转变，使得 AI 技术在落地时拥有更强的通用性，可以泛化到多种应用场景。由此利用大模型的通用能力可以有效应对多样化、碎片化的AI应用需求，为实现规模推广AI落地应用提供可能。

关注公众号了解更多资讯

《中国科技信息》杂志社

主管单位：中国科学技术协会

主办单位：中国科技新闻学会

内容转载请联系微信：zkxxx1999

在线投稿平台：www.cnkjxx.com

投稿电话：010-68003059

寻求报道、内容合作，请联系微信：15811564659

杂志收录情况：《中国知网》《中国期刊核心期刊（遴选）数据库》《中国学术期刊综合评价数据库（CAJCED）统计源期刊》《中国期刊全文数据库（CJFD）》《中国科协、中国图书馆学会（解读科学发展观推荐书目）》