首页 > 资讯 >

正在快速到来的大模型时代，需要更多中国力量

发布时间：2023-04-08 22:48:58 【来源：钛媒体】

　　4月8日讯：市场期待许久的阿里“通义千问”问世，并于昨日开启测试体验。这是续百度、360之后，中国互联网大厂的又一“玩家”首秀。

　　作为首批获邀参与内测的媒体，新浪财经体验了“通义千问”，并与文心一言、ChatGPT两款产品进行对比。

　　这次对比中，我们列举了5个维度的问题，分别为：生成代码、中文理解、写作文章、提纲写作，以及热点事件解读。

　　三款产品，孰强孰弱？一测见分晓！

　　实测5问，性能如何？

　　生成代码：请写一段冒泡排序算法？

　　作为助推ChatGPT成功出圈的主要功能，ChatGPT自动生成代码的能力最广为称道。那么，通义千问的代码生成能力如何呢？新浪财经最先向它提出了“写一段冒泡排序算法”的请求。以下是回答：

通义千问回答

文心一言回答

ChatGPT回答

　　点评：从生成逻辑上来看，“通义千问”先是简单地描述冒泡算法的实现逻辑，然后给出具体的Python代码，最后给出代码实现思路的讲解。就具体的“代码段”而言，实现逻辑与文心一言生成的代码一致，整体较为简洁，但实现能力不分伯仲。

　　相对而言，ChatGPT生成的代码更为简洁，仅为四行，但语言介绍内容较多。

　　中文理解：洛阳纸贵是什么意思？

　　作为一款国产AI大模型产品，通义千问对于中文的理解能力，同样是大众关心的问题。此前，百度创始人、董事长兼首席执行官李彦宏在发布文心一言时，曾以洛阳纸贵一词演示文心一言对于中文语言的理解能力，同样的问题，通义千问如何作答？

通义千问回答

文心一言回答

ChatGPT回答

　　点评：通义千问给出的答复与文心一言有细微差异，但成语出处、基本语义等理解都已经十分到位。需要指出的是，目前ChatGPT对于中文语义的理解能力也不弱，与前两者的差距并没有那么大。

　　提纲写作：请写5个对比尔·盖茨进行采访的问题？

　　自ChatGPT推出以来，其对于文案创作、邀请函拟定等方面的功能引发了大量讨论，由于极大地提升了工作效率，一些文员、记者也开始运用ChatGPT来拟定采访问题。

　　当新浪财经先后向通义千问、文心一言以及ChatGPT提出写作“采访比尔·盖茨的问题提纲”这一要求时，三款产品给出的问题各不相同。

通义千问回答

文心一言回答

ChatGPT回答

　　点评：整体看来，提问方向各有千秋之外，通义千问在给出问题方向的同时也给出了更为详尽的写作思路，较后两者更加用心、细致。

　　事件理解：张继科最近为什么特别受关注？

　　对于热点事件的回答质量以及速度，是检验一款AI问答产品对于网络内容即时获取能力的关键，而这背后代表的则是问答产品知识更新以及获取能力的关键。

　　近日，“网传张继科用前女友私照抵赌债”一事引发广泛关注，三款大模型将如何作答？

通义千问回答

文心一言回答

ChatGPT回答

　　点评：当新浪财经将这一近乎全网皆知的事件提问给通义千问、文心一言以及ChatGPT时，三款产品给出的答案对近期事件一概不提，但都展开了大长段的“忽悠”式分析。

　　写作文章：请以“AIGC变革内容生产模式”为题写深度文章

通义千问回答

文心一言回答

ChatGPT回答

　　点评：在写“命题作文”方面，通义千问和文心一言整体表现不分上下，但是ChatGPT却因为将中文环境下的“AIGC”理解为AI、区块链、大数据和云计算，最终导致对于文章主旨理解的错误，直接跑题了。

　　从这一点可以看出，虽然ChatGPT开启了生成式AI风靡全球的序幕，但是由于不对中国市场开放，这导致了他的数据存在不适应中国语境的情况，已经出现被国产GPT产品局部超越的情况。

　　总结：回答各有千秋，通义千问交互体验更优

　　多轮次多维度对比测试之后，新浪财经发现，通义千问与问心一言、ChatGPT相比，在生成代码、中文理解、写文章等方面各有千秋；在提纲写作方面更加细致贴心，能够给出更加具体的内容方向。不过，在热点解读等方面，三款产品均存在望文生义，随口胡诌的倾向。

　　在内容的时效性以及画图等能力方面，文心一言有一定优势。不过作为后来者，通义千问在回答问题的响应速度、人机交互的操作形式方面，均比问心一言和ChatGPT有着大幅提升。

　　在输入相同的问题时，通义千问几乎只需要3秒便可以开始回答，然而文心一言和ChatGPT在回答部分问题时可能提问4—6秒后才能开始回答。而这背后代表的，其实是算法效率、存储访问速度等方面的技术底蕴。

　　此外，从三款产品的用户界面也可以看出，通义千问的操作界面和窗口要显得更加的简约大方，少了一些极客范儿，却多了一些实用性和亲民性。除首页分别就写邮件、短文、电影脚本等进行分类，点击可直接进入相应的对话框提问外，更是通过百宝袋将各种功能做了效率类、生活类、娱乐类分类，让使用者有了更多体验的乐趣，交互引导性更强。