科大讯飞背上抄袭 OpenAI 的骂名，冤吗？ - 区块链技术

注册登录

首页 > 区块链技术 > 正文

科大讯飞背上抄袭 OpenAI 的骂名，冤吗？

发布日期：2023-05-11

作者 | 程怡小船杨知潮

编辑 | 秦安娜

来源：略大参考

科大讯飞背上抄袭 OpenAI 的骂名，冤吗？

图片来源：由无界 AI工具生成

当科技圈讨论 AI 大模型，他们在思考什么？

阿里巴巴董事局主席张勇说，所有产品都值得用 AI 重做一遍。李彦宏说，百度同学要有意识的培养 AI 原生应用的思维方式和理念，用新理念重构现在的每个产品，每个业务。周鸿祎说 360 鼓励每一位员工、每个产品和业务都要全面拥抱人工智能，适应人机协作，着手产品重塑。

凡此种种的表态，无一不在透露一种思考：AI 大模型是技术浪潮，也会是产品思维方式的浪潮，它会推动人工智能时代出行跟互联网、移动互联网时代，不同的思考模式和产品形式。

处于巨变前夜，科大讯飞表态在 10 月底，新发布的星火大模型会追上 ChatGPT 的发言，就没有那么激动人心。一方面，说今年能追赶上的人太多了。另一方面 ChatGPT 的价值不仅仅是 OpenAI 基于 GPT 大模型，打造出来的一款成功产品。借用周鸿祎的话说，ChatGPT 让人工智能变成了一项云服务。

百度的文心大模型发布之后，饱受非议，并不耽误百度宣传“百度云是国内第一个训练出大模型的云”。前阵子，阿里云毫不留情，启动史上最大规模降价抢占市场，存储业务最高降幅 50%。因为投资 OpenAI 成为生成式 AI 赢家的微软，多笔对 OpenAI 的投资，都是以云服务消费券的方式提供现金 + 云服务的投资形式。

在人工智能同各行业、多应用场景结合带来的大数据爆发阶段，科技企业们一边走在探索 AI 重构产品形态的道路，一边用云技术作为底层技术基础，存储和分析海量，挖掘服务收入，对冲探索成本。即便是作为“AI 后辈”的商汤，也搭建出来算力中心的商业模型，想做人工智能行业的“水电煤”。

在告别营收连续 10 年增长的业绩之后，科大讯飞借用生成式 AI 的新“旧瓶”，却装进一个客户、一个应用场景的技术落地之路的“旧模式”，辛苦当搬水工，商业模式看起来就没有那么性感了。

科大讯飞要去追赶 ChatGPT，但对押注 AI 的互联网企业来说，它们想追赶的是微软。

重新定义自研

自从大洋彼岸的 OpenAI 于 2022 年 11 月推出 ChatGPT 后，一场波及全球科技的“海啸”就此爆发。在国内大模型扎堆的上半年，中国几乎所有的知名的科技企业，都发布了类 ChatGPT 的“AI 大模型”。

科大讯飞并非冲在第一阵线的排头兵。尽管有十余年对于认知智能相关的研究和计划，拥有“人工智能国家队”的美名，讯飞的认知大模型成果发布会直到 5 月 6 日才姗姗来迟。而在其 4 月 17 日对于发布会的官宣公告中，有一句颇为保守的补充说明——“公司尚不能预测相关技术及应用对 2023 年度销售收入和经营业绩的提升影响”。

但 5 月 6 日的发布会上基调定得很高，围绕讯飞星火认知大模型，科大讯飞董事长刘庆峰和讯飞研究院院长刘聪，一同在现场进行了 1 个小时左右的实时演示，展示星火在语言理解、知识问答、逻辑推理，数学、代码及多模态等方面的能力。

科大讯飞方面表示，讯飞星火在长文本生成、数学能力和泛领域开放式知识问答三大能力已超 ChatGPT。在 2023 年内预计还会进行三次升级，分批次增强数学能力、补足代码能力，希望最终将在 10 月 24 日全球开发者大会期间，能够全面对标 ChatGPT，在中文上要超越 ChatGPT。

官方的“王婆卖瓜”是一码事，星火大模型在用户端的实际使用情况如何呢？

5 月 9 日晚，一段关于讯飞星火的群聊记录在各个群广为流传，一张截图显示，得到内测资格的提问者问道星火提供的 API 接口是 OpenAI 的？星火大模型回答道，“是的，我是由 OpenAI 开发的”。紧跟截图后面，是群内的议论，指向星火大模型疑似套壳 OpenAI？

当然，孩童也会说自己是奥特曼。今天的 AI 还处在幼儿期，星火大模型说自己来自 OpenAI，就一定来自 OpenAI 吗？

答案是不一定。西安交通大学 AI 学院的浩儒博士告诉“略大参考”，大模型还是靠函数拟合，没有真正的自我认知，他们不知道自己是谁，很可能在哪个网站上学习过这句话就说了出来。

但是他认为，星火大模型也有可能是“借鉴”了 GPT。浩儒博士表示：“模型都是经过预训练的，相当于硬盘出厂的时候里面就有资料，如果你把 GPT 开源的模型直接拿过来用，就可能会一块学习到 GPT 的语料，造成这种乌龙事件。”

类似的事件在国内 AI 行业不是第一次发生，早在星火大模型推出之前，也有用户发现百度的文心一言的绘图疑似为汉译英后再绘制，有使用国外框架的嫌疑。

浩儒博士透露，把别人开源的模型拿过来直接用，在自然语言处理科研领域是很常见的的做法：“高校不可能都从头开始训练”。对企业来说也是如此，目前互联网公司和 AI 公司都在大模型上较劲，晚推出一个月，都有可能影响自己的股价。既然 GPT1 和 GPT2 和已经开源，那么在已有的模型基础之上来建立自己的大模型产品，是既合法也经济的选择。

市场端的及时反应则是，科大讯飞成为 5 月 10 日北向资金净卖出 7 只个股中金额最多的一只，收盘价 65.45 元，净卖出 4.377 亿元。

增长神话终结

如果“借鉴”了 GPT，那还算是原创的大模型吗？这可能是个哲学问题。浩儒博士表示。语言大模型是混沌系统，运行原理都是未知的，构成更是根本说不清楚：“就像忒休斯的船，即使你用了别人的骨干，也很难说不断学习后的大模型还是不是之前的大模型。”

一个月前，商汤在交流日上也曾因为号称完全自研的文生图创作平台“秒画 SenseMirage”在精选模型中出现 AI 模型站 civitai 的图片引发广泛质疑。商汤方面的解释是：秒画 SenseMirage 包含商汤自研 AIGC 大模型，也提供第三方社区开源模型。

就像此前的发布会惯例一样，国内的 AI 大模型发布会不单是为了炫技，主要是用来“卖”的。讯飞星火将在教育、办公、汽车、数字员工四个领域的寻找应用方向，与讯飞旗下教育产品 AI 学习机以及办公产品讯飞听见相结合，寻找落地场景。处于审慎考虑，稍晚时刻，科大讯飞会推出面向医疗场景的服务。

近两年，人工智能技术发生了方向性的改变，用李彦宏的话说：从辨别式的人工智能走向生成式的人工智能，AIGC 成为新方向。

科大讯飞是“辨别式”人工智能时代，很早一批从事人工智能研究的企业，几乎跟 BAT 是同一时期创立的，2008 年已在深交所上市。前身历史甚至更悠久，是 80 年代中国科技大学的电子工程系人机语音通信实验室。

不过，很长时间科大讯飞以 to B 端服务商的身份，蛰居在客户身后。2016 年，罗永浩在锤子 M1 手机新品发布会上的一番“胡说八道”带火了科大讯飞。

罗永浩在发布会现场，展示一段没有经过编排，只是一些生活琐事，且语速较快的“口水话”，结果讯飞输入法在罗永浩结束语音输入的瞬间，几乎是秒将语音转换成文字，而且完全正确。现场响起了哇的惊呼，和长达 23 秒的掌声。

锤子的新品发布会，结果讯飞输入法“炸”了，一炮而红，市值和产品下载量双双暴增。

在人工智能时代以检测和识别为主要应用的阶段，科大讯飞在语音识别领域，将业务伸向众多应用场景，形成了 ToB + ToC + ToG 的三驾马车。收入也水涨船高，从过连续 10 年业绩增长的神话，增长幅度较少的年份，增速都接近 30%。

然而，AI 技术不断更迭，在深度神经网络及云计算、大模型的演进过程中，理解、推理逻辑为基础的生成式 AI，成为新趋势，AI 技术的迭代路径，已不在科大讯飞的优势区域了。

反映在财报上，便是连续 10 年的业绩增长神话终结。财报显示，2022 年科大讯飞实现营收 188.2 亿元，同比仅增长 2.77%；归母净利润 5.61 亿元，同比下滑 63.94%。

科大讯飞背上抄袭 OpenAI 的骂名，冤吗？

这是近五年来科大讯飞净利润的首次下滑。

商业模式之战

最近几个月大半个科技圈为 AI 大模型沸腾。

2 月份出门问问的创始人李志飞到硅谷转了一圈，想搞懂什么是大模型。见了几位谷歌科学家，了解一圈信息后，回国在源码资本的分享会上跟王兴、王慧文等创业者分享，结果分享出一位竞争对手：王慧文虽然不懂，但大受震撼，激动的要自带资金，肉身入股，加入到 AI 大模型的科技浪潮。

其他人也没闲着，纷纷从功成名就的幕后，走向台前，李开复、王小川要组建团队。退休后的张一鸣，没有公开表态，也在悄咪咪的准备，挑灯夜读学习 OpenAI 的论文。

今年以来市场隔三差五有一款大模型产品问世，华为盘古，昆仑万维天工。市场涌向大模型的热烈氛围被形容为蹭热点的多，技术能打的少。

国内人工智能企业，似乎形成一种共识，构建起关键性门槛的并不是技术和算法环节，比拼的关键在于吸引客户的能力。李志飞对此有过形象表述：“90% 以上的技术都没有独门武器，更多是一个门票。”

刘庆峰相信人工智能拼场景的商业模式，他曾说。“人工智能改变世界，需要在一个又一个的领域进行应用的创新”。星火大模型发布后，他亦说道“谁能够在具备社会刚需的应用场景落地，谁就最先能形成自我造血的良性循环。”

在应用落地上，国内 AI 公司的发展速度比硅谷快 10 倍。科大讯飞自去年 12 月 15 日正式启动“1+N”认知大模型专项攻关，其中“1”就是指通用认知智能大模型，“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。

只是，国内无论哪家企业发布 AI 大模型产品，几乎都是卷进相同的应用场景。但一家技术型公司要一下子摸透各种细分行业的门道，并不现实。

技术不行，有时候就得靠技巧来凑。科大讯飞曾被爆出了人工翻译冒充 AI 的造假丑闻。在 2018 创新与新兴产业发展国际会议（IEID）的高端装备技术与产业分会上，科大讯飞称为现场提供了 AI 同声传译。

但事后，那场会议的同声传译员却在知乎上曝光，整场会议的翻译都是由人员提供的，他甚至还提供了视频证据，视频显示，AI 同传的语音几乎都是在复读一位女翻译员的翻译。科大讯飞事后回应，“个别同传译员对于科大讯飞存在误解，我们认为仅仅是对会议服务方面的分工沟通了解不清。”科大讯飞只是将同传的“语音”转成“文字”。

科大讯飞的短板在于，面向 C 端它没有一款国民级的应用，同样是办公场景，钉钉接入阿里的通义千问，通过输入斜杠“/”，可唤起 10 余项 AI 能力；字节跳动旗下的飞书也将上线 AI 助手“My AI”，它们的人工智能技术可以跟现有的产品做结合。

面向 B 端，结合客户的需求，做应用场景的数据、算法。服务用户的成本，难以分摊的。传统的语音识别赛道，增速放缓，做 toG 业务，需要考虑漫长的回款周期，现金流承压。

好在，科大讯飞能得到政府支持，2022 年计入当期损益的政府补助金额甚至升到了 10 亿元，它一年净利润也不过才 5.61 亿元。

但拿到这些支持的科大讯飞老实发展技术了吗？由于是高科技企业，科大讯飞能够获得许多政策上的支持，2018 年，央视曝光了科大讯飞的投机套路：以建设培训基地为名换取园区类土地，再通过买卖地皮套现。

2021 年，科大讯飞董事长刘庆峰曾豪言，提出“2025 年千亿营收目标，构建万亿生态”的承诺。按照现在目标进度，还没有完成 20%。它试图通过拥抱多元化，发展横跨机器人、教育、医疗、城市运营、房地产、消费、汽车、金融等多个条线的“一揽子”应用场景落地计划，更像是为了达到营收目标的“饥不择食”。

科大讯飞喊出追赶 ChatGPT，但对押注 AI 的互联网企业来说，他们想追赶的是微软。云计算是生成式 AI 时代的肥肉，就像无论谁做大模型，赢家都是英伟达，谁也绕不过被英伟达 A100 芯片缺货支配的命运。

ChatGPT 是人工智能产业中被广为讨论的显性因素，就像飘在冰面上的一小块儿浮冰，而掩藏在水下的冰山体积，才是更为庞大的部分，算力是 AI 的商业想象力。