首页 >  区块链技术 >  正文
科技观察|AIGC争相绽放在三月
发布日期:2023-04-02

阳春三月,万物复苏。整个三月的AIGC(人工智能生成内容)就像一场持续不断的烟花盛宴,绚丽耀眼的烟花此起彼伏、争相绽放。智能对话、图视生成、专用芯片等领域的新模型、新系统、新产品悉数登场,让人目不暇接。目不暇接的背后,是生成式AI的持续迭代更新和逐点突破,并向多模态、通用性方面快速演进。不少突破性进展,足可以作为标志性事件载入AI发展的历史。

这里的“多模态”,简单来讲就是文、图、音、视等多种形态的数据。这些类型的数据,对应人们的看、听等感官,一种感官就是一种模态。现实生活环境,就是多种模态的组合。人工智能的多模态,大意就是让计算机通过多种类型数据的处理来模拟人类的看、听、思等能力。这里的“通用性”,简单来讲就是适用于多种环境,多个领域。

在智能对话领域,OpenAI在3月1日发布了ChatGPT和Whisper(语音识别模型)的API(应用程序接口);14日发布了能文能图的GPT-4及其API,从中等生摇身一变成为优等生;23日,上线了ChatGPT插件(Plugins)功能,可借力打力,如虎添翼。API实现了AI能力的输出,而Plugins则形成了AI能力的扩展。谷歌于3月6日与柏林工业大学合作推出迄今为止规模最大的视觉语言模型PaLM-E,模拟人类视觉,让实体机器人具备了看世界的能力;14日宣布类似GPT的模型PaLM API,并引入其Workspace的各种办公应用。清华大学技术成果转化的公司智谱AI于3月14日开启智能对话系统ChatGLM的邀请内测,开源了可低成本运行的ChatGLM-6B模型。OpenAI前员工创办的Anthropic公司3月14日发布了号称更安全的智能对话助理Claude。百度于3月16日发布了多模态智能对话系统“文心一言”,让国人有了自己的AI平台,并在20日、24日、31日持续更新了3个版本;27日发布企业级大模型服务平台“文心千帆”;同时也计划与百度搜索、智舱、小度、数字人等原有系统进行整合。微软3月16日发布Microsoft 365 Copilot,将GPT的最新AI能力引入其Office系列办公软件,提升办公软件自动化内容生成能力。

在图视生成领域,Midjourney研究实验室于3月15日发布了同名系统5.0,解决了AI绘画中的“画面光影”和“画人手指”难题,让图像更逼真。Stability AI于3月17日发布了Stable Diffusion Reimagine工具,能够根据上传的图片多角度二次创作新图片。Photoshop的东家Adobe公司3月21日发布了名为“萤火虫”(FireFly)的创意生成AI服务,将实现传统图像处理工具向图像智能创作工具转变。微软3月21日宣布将借助OpenAIDALL-E模型的AI图像生成工具Image Creator集成到Bing搜索引擎和Edge浏览器,也加入图像生成赛道。中科闻歌3月31日推出灵犀AIGC平台,提供智能绘画、智能写作、智能虚拟人、智能对话于一体的艺术创作平台。AI绘画已经达到较高的使用水平,借助这只AI神笔,人人都有成为“马良”的机会。Runway公司3月20日发布了一款文本生成视频的AI模型Gen-2,加入了文和图作为提示生成视频的功能。视频生成领域还相对初级,只在部分内测实例上有所突破。

在处理芯片领域,3月21日,英伟达发布了四款AI处理器,分别针对IA视频加速、图像生成加速、大型语言模型加速、推荐系统和AI数据库的专用芯片。不论AI模型规模有多大,有多先进,终归需要运算芯片的处理。因此各大AI巨头背后,大都可以看到英伟达的身影。看来AI处理芯片更像是铁打的营盘。

生成式AI逐渐渗入越来越多的领域,就像墨汁刚刚滴入水中,快速扩散一样。从纷繁变化的三月来看,AI创作能力正在与搜索引擎、浏览器、办公软件、图像处理软件等结合,应用AI化正呈现出起势的苗头。就像移动互联网逐步普及过程中,各种应用移动化后可以再做一遍一样,这次生成式AI浪潮中各种应用AI化后又可以再做一遍。我们准备好了吗?

(大众日报客户端记者 汤代禄 报道)

科技观察|AIGC争相绽放在三月