这是我的第53篇Ai笔记,本篇2480字、累计笔记93627字
引言.
6月27日凌晨,通义千问登上了全球最权威的开源模型Open LLM Leaderboard的榜首。
把Llama-3、Mixtral、Phi-3这些强敌都给压下去了。
HuggingFace的联合创始人兼CEO Clem还亲自发文赞誉:“Qwen2是王者,中国在全球开源大模型领域处于领导地位。”
此外,这次评测可不含糊,动用了300个顶级装备H100。
对全球100多个主流开源大模型进行新一轮的严格测评,包括Qwen2、Llama-3、Mixtral、Phi-3等。
结果怎么样?
Meta开源的Llama-3-70B指令微调版本紧随其后,排名第二;
Qwen2-72B基础版本稳坐第三;Mistralai的Mixtral-8x22B指令微调版本也不甘落后,排在了第四。
更牛的是,第九和第十,阿里的Qwen1.5基础版和Chat版双双上榜。
也就是说,在前十的宝座上,阿里一家就占了四个位置。这标志着我们国产大模型,终于跻身国际第一梯队。
思考.
说到这儿,有件事得提一提:不久前,OpenAI突然宣布要对中国、朝鲜、俄罗斯等地区的API流量进行封锁。
这对那些习惯了用现成API套个壳子出产品的AI公司来说,无疑是个大挑战。
没了这条捷径,他们只能自己动脑筋,憋大招了。
不过,我们也不用慌,为啥?
因为我们国内的大佬们早就预见这一天了,都在暗暗较劲,卷大模型。
特别是阿里的通义千问,简直就是及时雨,它去年八月份就高调宣布加入开源大军,一口气推出了好几款。
从5亿到1100亿参数的大家伙,一上线就成了开源界的宠儿。
阿里的这一举动,给全球开发者提供了另一种选择,也打破了“国外一开源,国内就自主”的偏见。
有了更好的开源模型,才能吸引更多的人才投身到技术创新研究中,让中小企业也能真正用上大模型,进而探索更多的应用场景。
虽然现在咱们手机里的各种应用都开始用上了生成式AI,新玩意儿层出不穷。
但说实话,要让AI应用真正普及到老百姓的生活中,还远着呢。
通义千问当然也不可能直接做到,但作为开源大模型,通义千问确实是最有希望推动 AI 应用真正爆发起来的大模型之一。
Ai+.
据说通义千问2.5版本在理解力、逻辑推理、执行指令这些方面都提升了一大截,尤其是在处理中文的能力上。
今天我就来搞个 “通义千问 VS Kimi”的对决,从四个维度来一探究竟:文档分析、AI绘画、AI搜索、数学推理。
我先从文档分析开始,毕竟,这两家都是号称长文本处理的高手。
01文档分析
我这就拿出三类文档来考验他们,看看谁更胜一筹。
【1.新闻内容】
我选了篇钛媒体的文章《投流就像“老虎机”,短剧的高杠杆金融游戏|钛媒体金融》来考验它们。
首先来看看通义千问的表现:
通义千问一上来就展示了它的总结能力,把文章的主要信息点都给囊括进去了。
但仔细来看,这总结缺乏点层次感,用户得花点时间去梳理归纳,感觉稍微差了那么一丢丢。
接下来再看看kimi的表现:
Kimi的总结就很有条理,层次分明,把要点分成了10 个方面,用户一看就能抓住文章的精髓。
这回合Kimi的表现更好。
【2.研究报告】
如果说,对长篇新闻的总结,体现的是大模型在长文本方面的主旨概括能力。
那么研究报告,考验的则是大模型得的推理能力。
这次,我上传了一份长达30多页的研报,来分别测试通义千问和Kimi的表现。
通义千问:
通义千问一上来就展示了它的专业范儿,把研报的核心内容给总结得有模有样,还带了点数据支撑,挺学术化的。
那相较之下,Kimi的表现怎样呢?
Kimi的表现也不差,它分析出的要点覆盖面广,维度多。
但就是每一点没有具体体现的内容,让普通人看起来可能有点云里雾里,不太容易找到解决问题的路径。
所以,这一局,通义千问算是扳回一城。
【3.长篇小说】
这里,我再次选择了《三体》这部科幻小说来进行测评,上次测评腾讯元宝和Kimi的长文本处理能力也是用的这个小说。
对测评结果感兴趣的朋友们,可以回过头去看看之前的文章👉
支持1000万上下文的腾讯元宝 VS Kimi,真能后来居上吗?
通义千问:
情节方面总结还算可以,但是我的要求是鲁迅的口吻,通义千问给我的更像是文言文,虽然有那么点意思,但总感觉有点格格不入。
在这一回合,Kimi几乎完胜,不仅情节叙述得更为完整、详细,而且几乎从始至终地保持了接近鲁迅的口吻。
这显示了Kimi在阅读长文本时,强大的信息提取能力和指令遵循能力。
总的来说,在文档分析这个层面,通义千问还是和Kimi 有点差距的。
接下来看看另外三个方面的表现:
02Ai绘画
通义千问:
通义千问的画真是让我眼前一亮, 真的很科幻,而且还是在没有具体要求的情况下。
Kimi:
而Kimi这边在AI绘画上就显得有点力不从心了。Kimi自己也坦白,没有AI绘画功能,是个纯语言大模型。
虽然给出了一些绘画建议,但在这个AI绘画大行其道的时代,这就显得有点跟不上潮流了。
这一局,通义千问胜出。
看到这里的朋友,可以免费领取我精心整理的“AI绘画关键词大全”,这份资料将帮助你们在与AI进行绘画交互时,更加更加得心应手。
需要的朋友只需点击文末的点赞+在看,公众号后台回复 ⌈AI绘画关键词大全⌋ 即可免费领取。
03Ai搜索
我拿7月1日当天的热点事件进行了询问。这是通义千问的回答:
虽然给出了一些网址,但我点进去之后发现很多是3月份的内容,通义千问似乎没有很好地抓住"今日"这个关键词。
这是Kimi的回答:
Kimi给出的内容挺多,但也犯了同样的错误,没有很好地区分"今日"和"近期",我点进去链接,之前的内容占比太大了。
不得不说,通义千问,Kimi这两位的AI搜索功能确实有点让人失望。
04数学推理
接着,我拿了一个数字推理的提问分别给到它们。这是通义千问:
通义千问给出的答案虽然正确,但是推理过程让人有点摸不着头脑。
不应该是1X2=2,3X4=12,5X6+30,接下来7X8=56嘛
再来看看Kimi:
Kimi这边答案直接错了,竟然还有小数取整,真是让人无奈。
看来这两个平台在数学推理上需要不断地训练和优化。
为了大家更加清晰的了解这两个平台各个方面的实力水平,我用做了个表总结一下:
“通义千问 VS Kimi”的对决到此结束,你觉得谁才配得上真正的国货之光?
三句话.
今天就分享到这吧,最后我想用“3句话”来总结一下:
1、通义千问现在可是全球最牛的开源智能模型,它在排行榜上拿了第一名!
2、通义千问的文档综合分析能力可能没Kimi厉害,但在研究报告这块儿它更专业。
3、通义千问和Kimi在Ai搜索和数学推理能力还需要进一步的优化完善。
![图片[18]|深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?|融云数字服务社区丨榕媒圈BrandCircle](http://rongmeiquan.oss-cn-shenzhen.aliyuncs.com/my-bucket/2024/07/1f7cb9a56020240703234222.gif)
![图片[19]|深度测评|通义千问 VS Kimi,谁才配得上真正的国货之光?|融云数字服务社区丨榕媒圈BrandCircle](http://rongmeiquan.oss-cn-shenzhen.aliyuncs.com/my-bucket/2024/07/807ac883b920240703234223.jpg)
暂无评论内容