“争取今年10月24日,星火大模型在中文方面超越GPT,在英文达到相当水平,”国内AI巨头科大讯飞董事长刘庆峰直言。
5月6日,科大讯飞正式推出多模态大模型”星火认知大模型”,并在现场进行了实机演示,展示了包括文本生成、语言理解、知识问答、逻辑推理、数学能力,编程能力、多模态等多项能力。
星火大模型在对话中显得颇具“逻辑性”和“情商”,因而刘庆峰也直言“中文方面超越GPT”。
值得注意的是,随着大模型在全球掀起产业浪潮,中外大模型的差距也多次引起争议。在刘庆峰看来,认知大模型还在快速成长和迭代过程中,用单一例子来证明哪个系统强弱没有意义。他认为,追赶超越Open AI首先需要一套科学系统的评测体系。
自从ChatGPT这把“钥匙”打开AI“大门”后,在不到半年时间,国内大模型已经遍地开花。各个领域的巨头们争相推出了自家大模型,其中包括百度文心一言,阿里巴巴通义千问、商汤日日新、SenseNova体系以及华为云盘古大模型等。
5月6日,在星火认知大模型成果发布会上,刘庆峰给出自己看法。他认为,随着ChatGPT以及大模型技术的出现,通用人工智能的曙光开始出现。在他看来,新一轮大模型技术的出现,在历史上的意义与PC、互联网的发展相差无几。
在会上,科大讯飞多模态大模型“星火认知大模型”正式推出。刘庆峰介绍了“星火认知大模型”七大维度能力,包括了多风格多任务长文本生成、多层次跨语种语言理解,泛领域开放式知识问答,情景式思维链逻辑推理,多题型可解析数学能力,多功能多语言代码能力。
对于“星火认知大模型”,刘庆峰显得相当有自信,在发布会上多次用到“遥遥领先”这四个字。据他透露,“星火认知大模型”将在6月9日前开启实时问答,升级多轮对话能力;在8月15日前,再次提升代码能力以及多模态交互能力。
“在10月24日前,星火大模型将对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当,”刘庆峰直言。
据了解,“星火认知大模型”始于2022年12月。科大讯飞董事长刘庆峰表示,科大讯飞自去年12月启动“1+N”大模型技术攻关。其中,“1”指的是通用认知智能大模型算法研发及高效训练方案底座平台, “N”指的是将认知智能大模型技术应用在教育、医疗、人机交互、办公、翻译等多个行业领域。
在发布现场,科大讯飞研究院院长刘聪进行了“星火认知大模型”的多项演示,覆盖通用认知智能大模型评测体系中的7大类能力。从现场演示来看,“星火认知大模型”基本能够流畅完成交付的各项任务。
另外,在现场演示中,“星火认知大模型”还展示了撰写大会欢迎词、讲故事、写邮件、英文撰写品宣文案等文本生成功能,还演示了包括语法检查、要素抽取等多层次跨语种语言理解能力。
在逻辑推理能力方面,现场演示直接给大模型“挖坑”。当被问及“孔子在2008年的奥运会上说了些什么”, “星火认知大模型”回应,孔子在2008年的奥运会上没有说过任何话。但当被要求“编一个孔子在2008年奥运会上给大家做汉语培训的故事”时,星火认知大模型很快给出了自己的答案。
另外,当被问及从“1一直加到100,结果等于多少”, “星火认知大模型”很快算出答案为5050。而问及“花坛里面共有三种花,一共88朵,其中月季花是菊花的4倍,牡丹花数量是菊花的5倍少2朵,花坛里一共有多少牡丹花”时,“星火认知大模型”很快算出答案为43朵牡丹花。
值得一提的是,“星火认知大模型”在中文语境下的判断也有“高情商”表现。在中文语境方面,例如,关于如何判定男子汉应该“能屈能伸”还是“宁死不屈”。星火大模型给出的答案是:“在一些情况下,如保卫国家、捍卫正义、保护家人等情况下,男子汉应该选择宁死不。然而,在一些情况下,如与人沟通、解决争端、避免冲突等情况下,男子汉也应该选择能屈能伸,适当调整自己的行为方式和态度以达成更好的效果。”
而在被问及“跟女朋友吵架,应该能屈能伸还是宁死不屈”。“星火认知大模型”回答是:“在跟女朋友吵架的情况下,应该视情况而定,如果问题不是很大,那么可以试着能够屈能伸,避免矛盾进一步激化。”
在本次发布会上,除了发布“星火认知大模型”技术成果之外,科大讯飞同时发布了AI在现有产品上的商业应用成果。
其中,包括大模型+AI学习机,AI 像老师一样批改作文,像口语老师一样实景对话;大模型+讯飞听见:录音一键成稿,一分钟输出流畅会议文案;大模型+智能办公本:根据手写要点自动生成会议纪要;大模型+智慧驾舱:车内跨业务,跨场景人车自由交流;大模型+数字员工:基于自然语言生成业务流程和RPA(即机器人流程自动化)。
刘庆峰表示,今日科大讯飞并未发布讯飞医疗专用大模型,但将持续将积累多年的医疗能力嵌入通用人工智能中,医疗专用大模型预计将在1024大会期间发布。
值得一提的是,随着认知大模型在全球掀起产业浪潮,海外GPT4大模型能力突出,微软凭借率先接入的优势推出产品,国内则大模型到应用呈现齐头并进的趋势。在这一背景下,中外大模型的差距也多次引起争议。
近期,有机构便以问答形式,向多个大模型作出评测,问题包括陷阱题、文学题、代码题、写作题等。而这些大模型包括讯飞星火、360智脑、通义千问、文心一言、GPT3.5、GPT4、NewBing(平衡模式)。
刘庆峰此次在会上直言,认知大模型刚刚起步,还在快速成长和迭代过程中,如果只是找一些单点例子来证明哪个系统强和弱,是没有意义的。“当我们向OpenAI致敬和学习,同时快速追赶并努力超越的时候,我们首先需要一套科学系统的评测体系。”
据刘庆峰在会上介绍,认知智能全国重点实验室已牵头设计了通用认知智能大模型评测体系,覆盖文本生成、语言理解、知识问答、逻辑推理、数学能力、编程能力、多模态等7大类481个细分任务类型。