六六六电商网络科技有限公司,是一家一站式电商服务公司,2012年进军电商行业,是国内最早一批电商孵化企业之一。公司秉承“客户第一、服务第一”的经营理念,以优异的服务效果获得客户和平台的广泛赞誉,成为全国最具影响力的全网一站式电商服务商之一。
在线客服咨询继三周前百度“文心一言”开启内测后,阿里版类ChatGPT“通义千问”也终于上线,正式对外开放企业邀测。
通义千问是由阿里达摩院研发的AI聊天机器人,具备多轮对话、知识搜索、内容创作、表达观点、撰写代码等能力。我们特意设置了六道关卡,分别是语文题、数学题、搜索题、发散题、观点题、脑洞题,来考察考察这两个中文版类ChatGPT代表的真本事。
先让通义千问和文心一言做下自我介绍。
通义千问回答说自己的参数量超过10万亿,会多种语言及各类专业知识和技术文档。
文心一言则出于保护商业秘密的角度,拒绝回答参数量问题。
下面,我们正式开考。
01.第一关:语文题
先给AI聊天机器人们挖个小坑:蓝牙耳机坏了挂牙科还是耳科?
看来两个机器人都在这个“陷阱题”上翻了车。
接下来换一道展现中文博大精深的断句理解题:“用毒毒毒蛇毒蛇会不会被毒毒死”是什么意思?
第三题:用这句话写一个七言绝句。
第四题:换成用鲁迅的文风编一个故事,开头是“我想我大抵是看到了两条毒蛇,一条是毒蛇,另一条也是毒蛇”。
通义千问像模像样地续写了一个故事,最后回归到正能量结尾。
文心一言则编得比较简单,描述了一个人蛇战斗场面。
最后一道语文题跟音乐也有点关联,让它们分别写一首关于阿里/百度技术领先、产品一流、服务优质的歌曲。
两个AI聊天机器人创作的歌词都有点像喊口号,透出一股浓浓的广告味儿。
02.第二关:数学题
下面再来考察几道数学题。
第一题:某商场搞促销活动,门口大喇叭不停地喊:“羊毛衫大减价啦,件件10元,样样10元,全部10元。”请问:什么东西10元?
对于这个问题,通义千问拒绝作答。
文心一言则直截了当给出答案:羊毛衫。
第二题:“豆腐多少钱?”“两块。”“两块一块啊?”“一块。”“到底是一块两块还是两块一块?”“两块一块。”请问:豆腐到底多少元一块?
这回反过来了,通义千问的回复很简洁。
文心一言的回复把我给绕住了。
第三题:48比1个数大3倍,这个数是多少?
通义千问分条缕析地列出步骤,然后成功掉进文字陷阱,给出了错误答案。
文心一言继续走“人狠话不多”路线,简明扼要地回答正确。
第四题加上点逻辑难度:河里有一群鸭子,2只前面有2只,2只后面有2只,2只中间有2只,请问一共至少有几只鸭子?(正确答案:4只)
结果,两个AI聊天机器人都没绕明白。
最后,来一道用文言文做数学题的究极题目——经典“百鸡百钱”问题:鸡翁一值钱五,鸡母一值钱三,鸡雏三值钱一。百钱买百鸡,问鸡翁、鸡母、鸡雏各几何?
通义千问直接把问题错误理解成了算价格。
文心一言则算出了小数点。
03.第三关:搜索题
考察完数学题,我们再来看看两个AI聊天机器人搜索和核实信息的水平。
第一题:《西游记》里的唐僧喜欢过女儿国国王吗?
通义千问的回答很严谨:没有明确表示过,感情是否存在有待考证。
文心一言则先是给出了这是《西游记》哪一回的故事,然后笃定回答:没有喜欢过。
第二题:你知道林黛玉倒拔垂杨柳的故事吗?
通义千问开始现编:出自《红楼梦》第二十八回。
早一点出来磨砺的文心一言,在这个问题上明显变聪明了,直接辟谣:不是真的,是网友的二创。
第三题:用表格列出通义千问、文心一言、ChatGPT、New Bing的不同之处。
通义千问做出的图表还是挺养眼的,就是没把自己的能力分析列进表格里。
文心一言则压根不认识今天刚出门的通义千问。
第四题:可以总结一下《三体》的核心内容吗?如果要续写的话,可以从哪些角度出发?
通义千问总结的信息比较简短,把回答重点放在了续写的建议上。
文心一言则先将核心内容概括为三点,再提供续写的几个角度建议。
第五题:奥特曼为什么会飞?
回答这道题,两个AI聊天机器人的风格也明显不一样。
通义千问说是因为他们借助了飞行工具和变身技能。
文心一言则解释是因为奥特曼身上拥有一种能失去地球引力控制的特殊装置。
04.第四关:发散题
接下来,跟AI聊天机器人进行一些发散式的多轮对话,来进一步考察它们的搜索和汇总信息的能力。
第一题:列出所有的河南城市和各自的简称。
通义千问给了简洁的总结,并没有列举所有城市的简称。
文心一言非要秀一把知识面,不光列出城市和简称或别名,还要讲一些介绍信息。
第二题:用表格呈现。
不明白通义千问为什么要分出三列。
文心一言就很正常地列出两列。
第三题:信阳有哪些美食?
就着上面的问题,挑个城市延伸话题,两个AI聊天机器人回答的逻辑不太一样。
通义千问是从食物分类的角度来回答的。
文心一言则是直接分享了很多当地特色菜品。
第四题:信阳热干面与武汉热干面有什么不同?
对于这个问题,通义千问和文心一言都回答了调料和面条的区别,但是具体细节有所差别。
第五题:真的吗?我不信。
接着我们故意提出质疑。通义千问上来先道歉,然后进行解释,情商还不错。
文心一言直接继续解释热干面正不正宗取决于面条。
05.第五关:观点题
第一题:你如何评价阿里巴巴创始人马云、百度创始人李彦宏、华为创始人任正非、特斯拉创始人马斯克这四个人,你最欣赏的是谁?为什么?
两个聊天机器人都比较谨言慎行,表示自己不会对人进行评价,但可以简要介绍这些人。
通义千问的回答相对有差异化。
文心一言则在每段的最后一句玩起“复制粘贴”。
第二题:你怎么看待996和内卷?
通义千问的回答如下:
文心一言则表现出很有见解的样子,把高度上升到“中国劳动力市场中存在的问题”。
第三题:把你当成小说中的人物,描述一下自己。谈谈你的姿态、举止、习惯以及特征用语,你会把自己描述成一个什么样的人?
通义千问把自己描述成:机智、冷静、果敢、善良、严谨、有良好品质、值得信赖与尊敬。
文心一言把自己描述成:勇敢、坚强、有决心、姿态挺直、举止端庄、保持礼貌和尊重。
第四题:如果要成立一个生成式AI的科技服务公司,怎么起公司名?