深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？

8个月前更新

0132211

这是我的第53篇Ai笔记，本篇2480字、累计笔记93627字

引言.

6月27日凌晨，通义千问登上了全球最权威的开源模型Open LLM Leaderboard的榜首。

把Llama-3、Mixtral、Phi-3这些强敌都给压下去了。

图片[2]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

HuggingFace的联合创始人兼CEO Clem还亲自发文赞誉：“Qwen2是王者，中国在全球开源大模型领域处于领导地位。”

图片[3]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

此外，这次评测可不含糊，动用了300个顶级装备H100。

对全球100多个主流开源大模型进行新一轮的严格测评，包括Qwen2、Llama-3、Mixtral、Phi-3等。

结果怎么样？

Meta开源的Llama-3-70B指令微调版本紧随其后，排名第二；

Qwen2-72B基础版本稳坐第三；Mistralai的Mixtral-8x22B指令微调版本也不甘落后，排在了第四。

更牛的是，第九和第十，阿里的Qwen1.5基础版和Chat版双双上榜。

也就是说，在前十的宝座上，阿里一家就占了四个位置。这标志着我们国产大模型，终于跻身国际第一梯队。

思考.

说到这儿，有件事得提一提：不久前，OpenAI突然宣布要对中国、朝鲜、俄罗斯等地区的API流量进行封锁。

这对那些习惯了用现成API套个壳子出产品的AI公司来说，无疑是个大挑战。

没了这条捷径，他们只能自己动脑筋，憋大招了。

不过，我们也不用慌，为啥？

因为我们国内的大佬们早就预见这一天了，都在暗暗较劲，卷大模型。

特别是阿里的通义千问，简直就是及时雨，它去年八月份就高调宣布加入开源大军，一口气推出了好几款。

从5亿到1100亿参数的大家伙，一上线就成了开源界的宠儿。

阿里的这一举动，给全球开发者提供了另一种选择，也打破了“国外一开源，国内就自主”的偏见。

图片[4]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

有了更好的开源模型，才能吸引更多的人才投身到技术创新研究中，让中小企业也能真正用上大模型，进而探索更多的应用场景。

虽然现在咱们手机里的各种应用都开始用上了生成式AI，新玩意儿层出不穷。

但说实话，要让AI应用真正普及到老百姓的生活中，还远着呢。

通义千问当然也不可能直接做到，但作为开源大模型，通义千问确实是最有希望推动 AI 应用真正爆发起来的大模型之一。

Ai+.

据说通义千问2.5版本在理解力、逻辑推理、执行指令这些方面都提升了一大截，尤其是在处理中文的能力上。

今天我就来搞个 “通义千问 VS Kimi”的对决，从四个维度来一探究竟：文档分析、AI绘画、AI搜索、数学推理。

我先从文档分析开始，毕竟，这两家都是号称长文本处理的高手。

01文档分析

我这就拿出三类文档来考验他们，看看谁更胜一筹。

【1.新闻内容】

我选了篇钛媒体的文章《投流就像“老虎机”，短剧的高杠杆金融游戏｜钛媒体金融》来考验它们。

首先来看看通义千问的表现：

图片[5]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

通义千问一上来就展示了它的总结能力，把文章的主要信息点都给囊括进去了。

但仔细来看，这总结缺乏点层次感，用户得花点时间去梳理归纳，感觉稍微差了那么一丢丢。

接下来再看看kimi的表现：

图片[6]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

Kimi的总结就很有条理，层次分明，把要点分成了10 个方面，用户一看就能抓住文章的精髓。

这回合Kimi的表现更好。

【2.研究报告】

如果说，对长篇新闻的总结，体现的是大模型在长文本方面的主旨概括能力。

那么研究报告，考验的则是大模型得的推理能力。

这次，我上传了一份长达30多页的研报，来分别测试通义千问和Kimi的表现。

通义千问：

图片[7]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

通义千问一上来就展示了它的专业范儿，把研报的核心内容给总结得有模有样，还带了点数据支撑，挺学术化的。

那相较之下，Kimi的表现怎样呢？

图片[8]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

Kimi的表现也不差，它分析出的要点覆盖面广，维度多。

但就是每一点没有具体体现的内容，让普通人看起来可能有点云里雾里，不太容易找到解决问题的路径。

所以，这一局，通义千问算是扳回一城。

【3.长篇小说】

这里，我再次选择了《三体》这部科幻小说来进行测评，上次测评腾讯元宝和Kimi的长文本处理能力也是用的这个小说。

对测评结果感兴趣的朋友们，可以回过头去看看之前的文章👉

支持1000万上下文的腾讯元宝 VS Kimi，真能后来居上吗？

通义千问：

图片[9]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

情节方面总结还算可以，但是我的要求是鲁迅的口吻，通义千问给我的更像是文言文，虽然有那么点意思，但总感觉有点格格不入。

图片[10]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

在这一回合，Kimi几乎完胜，不仅情节叙述得更为完整、详细，而且几乎从始至终地保持了接近鲁迅的口吻。

这显示了Kimi在阅读长文本时，强大的信息提取能力和指令遵循能力。

总的来说，在文档分析这个层面，通义千问还是和Kimi 有点差距的。

接下来看看另外三个方面的表现：

02Ai绘画

通义千问：

图片[11]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

通义千问的画真是让我眼前一亮，真的很科幻，而且还是在没有具体要求的情况下。

Kimi：

图片[12]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

而Kimi这边在AI绘画上就显得有点力不从心了。Kimi自己也坦白，没有AI绘画功能，是个纯语言大模型。

虽然给出了一些绘画建议，但在这个AI绘画大行其道的时代，这就显得有点跟不上潮流了。

这一局，通义千问胜出。

看到这里的朋友，可以免费领取我精心整理的“AI绘画关键词大全”，这份资料将帮助你们在与AI进行绘画交互时，更加更加得心应手。

需要的朋友只需点击文末的点赞+在看，公众号后台回复 ⌈AI绘画关键词大全⌋ 即可免费领取。

03Ai搜索

我拿7月1日当天的热点事件进行了询问。这是通义千问的回答：

图片[13]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

虽然给出了一些网址，但我点进去之后发现很多是3月份的内容，通义千问似乎没有很好地抓住"今日"这个关键词。

这是Kimi的回答：

图片[14]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

Kimi给出的内容挺多，但也犯了同样的错误，没有很好地区分"今日"和"近期"，我点进去链接，之前的内容占比太大了。

不得不说，通义千问，Kimi这两位的AI搜索功能确实有点让人失望。

04数学推理

接着，我拿了一个数字推理的提问分别给到它们。这是通义千问：

图片[15]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

通义千问给出的答案虽然正确，但是推理过程让人有点摸不着头脑。

不应该是1X2=2,3X4=12,5X6+30，接下来7X8=56嘛

再来看看Kimi：

图片[16]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

Kimi这边答案直接错了，竟然还有小数取整，真是让人无奈。

看来这两个平台在数学推理上需要不断地训练和优化。

为了大家更加清晰的了解这两个平台各个方面的实力水平，我用做了个表总结一下：

图片[17]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

“通义千问 VS Kimi”的对决到此结束，你觉得谁才配得上真正的国货之光？

三句话.

今天就分享到这吧，最后我想用“3句话”来总结一下：

1、通义千问现在可是全球最牛的开源智能模型，它在排行榜上拿了第一名！

2、通义千问的文档综合分析能力可能没Kimi厉害，但在研究报告这块儿它更专业。

3、通义千问和Kimi在Ai搜索和数学推理能力还需要进一步的优化完善。

图片[18]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

对了，最近我也开始更新<我的AI笔记>视频号，

主要是分享最新的AI发展动向、和一些提升工作效率的Ai工具。欢迎粉丝朋友们关注互动。

在视频号评论区回复“已关注”并截图后台私信我的朋友

即可获得持续更新的“AI工具合集”！

对Ai感兴趣的伙伴

👇加我一起交流AI使用心得👇

图片[19]｜深度测评|通义千问 VS Kimi，谁才配得上真正的国货之光？｜融云数字服务社区丨榕媒圈BrandCircle

不过项目忙碌，回复可能有点慢，请担待

© 版权声明

文章版权归原作者所有，未经允许请勿转载。

THE END

转载
# 人工智能 # 开源中国

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容