深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图

这是我的第53篇Ai笔记,本篇2480字、累计笔记93627字 

引言.

6月27日凌晨,通义千问登上了全球最权威的开源模型Open LLM Leaderboard的榜首。

把Llama-3、Mixtral、Phi-3这些强敌都给压下去了。

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图1

HuggingFace的联合创始人兼CEO Clem还亲自发文赞誉:“Qwen2是王者,中国在全球开源大模型领域处于领导地位。

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图2

此外,这次评测可不含糊,动用了300个顶级装备H100

对全球100多个主流开源大模型进行新一轮的严格测评,包括Qwen2、Llama-3、Mixtral、Phi-3等。

结果怎么样?

Meta开源的Llama-3-70B指令微调版本紧随其后,排名第二;

Qwen2-72B基础版本稳坐第三;Mistralai的Mixtral-8x22B指令微调版本也不甘落后,排在了第四。

更牛的是,第九和第十,阿里的Qwen1.5基础版和Chat版双双上榜。

也就是说,在前十的宝座上,阿里一家就占了四个位置。这标志着我们国产大模型,终于跻身国际第一梯队。

思考.

说到这儿,有件事得提一提:不久前,OpenAI突然宣布要对中国、朝鲜、俄罗斯等地区的API流量进行封锁。

这对那些习惯了用现成API套个壳子出产品的AI公司来说,无疑是个大挑战。

没了这条捷径,他们只能自己动脑筋,憋大招了。

不过,我们也不用慌,为啥?

因为我们国内的大佬们早就预见这一天了,都在暗暗较劲,卷大模型。

特别是阿里的通义千问,简直就是及时雨,它去年八月份就高调宣布加入开源大军,一口气推出了好几款。

从5亿到1100亿参数的大家伙,一上线就成了开源界的宠儿。

阿里的这一举动,给全球开发者提供了另一种选择,也打破了“国外一开源,国内就自主”的偏见。

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图3

有了更好的开源模型,才能吸引更多的人才投身到技术创新研究中,让中小企业也能真正用上大模型,进而探索更多的应用场景。

虽然现在咱们手机里的各种应用都开始用上了生成式AI,新玩意儿层出不穷。

但说实话,要让AI应用真正普及到老百姓的生活中,还远着呢。

通义千问当然也不可能直接做到,但作为开源大模型,通义千问确实是最有希望推动 AI 应用真正爆发起来的大模型之一。

Ai+.

据说通义千问2.5版本在理解力、逻辑推理、执行指令这些方面都提升了一大截,尤其是在处理中文的能力上。

今天我就来搞个 通义千问 VS Kimi的对决,从四个维度来一探究竟:文档分析、AI绘画、AI搜索、数学推理。

我先从文档分析开始,毕竟,这两家都是号称长文本处理的高手。

01文档分析

我这就拿出三类文档来考验他们,看看谁更胜一筹。

【1.新闻内容】

我选了篇钛媒体的文章《投流就像“老虎机”,短剧的高杠杆金融游戏|钛媒体金融》来考验它们。

首先来看看通义千问的表现:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图4

通义千问一上来就展示了它的总结能力,把文章的主要信息点都给囊括进去了。

但仔细来看,这总结缺乏点层次感,用户得花点时间去梳理归纳,感觉稍微差了那么一丢丢。

接下来再看看kimi的表现:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图5

Kimi的总结就很有条理,层次分明,把要点分成了10 个方面,用户一看就能抓住文章的精髓。

这回合Kimi的表现更好。

【2.研究报告】

如果说,对长篇新闻的总结,体现的是大模型在长文本方面的主旨概括能力。

那么研究报告,考验的则是大模型得的推理能力

这次,我上传了一份长达30多页的研报,来分别测试通义千问和Kimi的表现。

通义千问:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图6

通义千问一上来就展示了它的专业范儿,把研报的核心内容给总结得有模有样,还带了点数据支撑,挺学术化的。

那相较之下,Kimi的表现怎样呢?

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图7

Kimi的表现也不差,它分析出的要点覆盖面广,维度多。

但就是每一点没有具体体现的内容,让普通人看起来可能有点云里雾里,不太容易找到解决问题的路径。

所以,这一局,通义千问算是扳回一城。

【3.长篇小说】

这里,我再次选择了《三体》这部科幻小说来进行测评,上次测评腾讯元宝和Kimi的长文本处理能力也是用的这个小说。

对测评结果感兴趣的朋友们,可以回过头去看看之前的文章👉

支持1000万上下文的腾讯元宝 VS Kimi,真能后来居上吗?

通义千问:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图8

情节方面总结还算可以,但是我的要求是鲁迅的口吻,通义千问给我的更像是文言文,虽然有那么点意思,但总感觉有点格格不入。

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图9

在这一回合,Kimi几乎完胜,不仅情节叙述得更为完整、详细,而且几乎从始至终地保持了接近鲁迅的口吻。

这显示了Kimi在阅读长文本时,强大的信息提取能力指令遵循能力。

总的来说,在文档分析这个层面,通义千问还是和Kimi 有点差距的。

接下来看看另外三个方面的表现:

02Ai绘画

通义千问:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图10

通义千问的画真是让我眼前一亮, 真的很科幻,而且还是在没有具体要求的情况下。

Kimi:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图11

而Kimi这边在AI绘画上就显得有点力不从心了。Kimi自己也坦白,没有AI绘画功能,是个纯语言大模型。

虽然给出了一些绘画建议,但在这个AI绘画大行其道的时代,这就显得有点跟不上潮流了。

这一局,通义千问胜出。

看到这里的朋友,可以免费领取我精心整理的“AI绘画关键词大全”,这份资料将帮助你们在与AI进行绘画交互时,更加更加得心应手。

需要的朋友只需点击文末的点赞+在看公众号后台回复 ⌈AI绘画关键词大全⌋ 即可免费领取。

03Ai搜索

我拿7月1日当天的热点事件进行了询问。这是通义千问的回答:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图12

虽然给出了一些网址,但我点进去之后发现很多是3月份的内容,通义千问似乎没有很好地抓住"今日"这个关键词。

这是Kimi的回答:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图13

Kimi给出的内容挺多,但也犯了同样的错误,没有很好地区分"今日"和"近期",我点进去链接,之前的内容占比太大了。

不得不说,通义千问,Kimi这两位的AI搜索功能确实有点让人失望。

04数学推理

接着,我拿了一个数字推理的提问分别给到它们。这是通义千问:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图14

通义千问给出的答案虽然正确,但是推理过程让人有点摸不着头脑。

不应该是1X2=2,3X4=12,5X6+30,接下来7X8=56嘛

再来看看Kimi:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图15

Kimi这边答案直接错了,竟然还有小数取整,真是让人无奈。

看来这两个平台在数学推理上需要不断地训练和优化。

为了大家更加清晰的了解这两个平台各个方面的实力水平,我用做了个表总结一下:

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图16

 “通义千问 VS Kimi”的对决到此结束,你觉得谁才配得上真正的国货之光?

三句话.

今天就分享到这吧,最后我想用“3句话”来总结一下:

1、通义千问现在可是全球最牛的开源智能模型,它在排行榜上拿了第一名!

2、通义千问的文档综合分析能力可能没Kimi厉害,但在研究报告这块儿它更专业。

3、通义千问和Kimi在Ai搜索和数学推理能力还需要进一步的优化完善。

深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图17
 
对了,最近我也开始更新<我的AI笔记>视频号,
主要是分享最新的AI发展动向、和一些提升工作效率的Ai工具欢迎粉丝朋友们关注互动。
在视频号评论区回复“已关注”并截图后台私信我的朋友
即可获得持续更新的“AI工具合集”


对Ai感兴趣的伙伴
👇加我一起交流AI使用心得👇
深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?插图18
不过项目忙碌,回复可能有点慢,请担待

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容