百般刁难腾讯新产品它的必一运动官网极限被我测出来了

时间：2024-09-19 10:16:58

　　从去年开始，国内各大互联网公司就先后推出了大模型产品，像是文心一言（百度）、通义千问（阿里）、豆包（抖音）、讯飞星火……

　　作为互联网巨头，腾讯动作不大，让人感觉成了大模型缺席者，事实上，腾讯开发了混元大模型，在腾讯部分产品里，正在发挥作用。

　　因为腾讯宣传力度不强，所以用户很难注意到，而前两天，腾讯终于带着他们的 AI 助手“元宝”强势来了。

　　当然了，几乎所有的 AI 助手都是如此，主流的 AI 助手里，只有天工开物搞了一个音乐创作的功能，可惜体验很一般。

　　回到腾讯元宝上来，按照腾讯官方说法，腾讯元宝接入了微信搜一搜、搜狗搜索、内容涵盖微信公众号文章，主打一个内容全面，信息准确。

　　元宝生成的回答，逻辑清晰，开头说明了预测的 GMV 数据，以及关键的兴趣电商与货架电商增长对比，也提到了抖音电商的市场策略和外部环境的竞争。

　　可以注意到，文章一共引用了 8 篇文章作为参考，来源比较多样，从公众号到新浪新闻、网易新闻甚至还有《财富》杂志，在生成的结果里会标注资料来源，重要数据能迅速找到出处。

　　相比于引用资料来说，其实文末的文章质量更高，其中也包含可引用的相关数据，但它们没有被元宝收纳到“引用资料”中。

　　为了见到自己的文章出现在引用资料里，老狐找了曾写过的选题，结果第 7 条和第 8 条是科技狐发表在不同平台的同一篇文章。

　　大模型这类涉及到问答形式，需要 AI 引用数据资料来生成回答的模式，回答的质量取决于引用资料的质量。

　　腾讯元宝背后有腾讯的整个生态，尤其是微信公众号，后者有大量团队和个人在上面发布高质量文章，仅就文字内容来说，这是知乎、小红书比不了的。

　　元宝在生成答案的末尾，附上的内容都是文字，没有视频内容，形式上不够丰富，尤其是在特定的问题上，视频能呈现出更好的效果。

　　比如面对“佛跳墙怎么做”这个问题，文心一言会提供视频内容，其中还有“老饭骨”明星大厨制作的视频，而元宝只有文字。

　　今年 3 月中旬，Kimi 宣布支持文档最高字数达到 200 万字，没过多久，通义千问就把字数上限提升到 1000 万字。

　　腾讯说元宝能一次性解析最多 10 个 PDF/word/tet 文件，一次性阅读一本书不成问题素质拓展团建活动。

　　总结里提到 SU7 的销量超出预期，以及雷军设定新的销售目标，相关数据原文有提到，但总结却没有列出来。

　　继续增加难度，我同时向它扔了蔚来、小鹏和理想三家车企的去年英文版年报的链接，让它整理一些关键数据。

　　老狐猜测原因是三篇财报字数接近 350 万，超过了元宝的文字长度限制，于是默认使用了最后上传的小鹏财报数据。

　　不过，改成只总结蔚来的年报时，元宝正确引用了蔚来的数据，但却犯了一个致命错误，把 RMB 和 Dollar 弄混了。

　　值得一提的是，在微信里打开好友发过来的 word 或 PDF 文档，可以选择用元宝打开，通过元宝小程序总结文档内容。

　　AI 写作也是如今大模型必提的功能之一，宣传的文案、策划等场景，大模型已经能够满足。至于技术要求更高、代替老狐工作的长文写作能力，大模型已经很少提及。

　　“帮我写一份上周的周报。我周一写完了之前没写完的视频稿，周二，周三，周四写了两篇公众号稿子，并体验了一款大模型产品，周五做了测评并写了一部分文稿”

　　Prompt 里只有简单的工作内容，生成的周报丰富了细节，比如“与视频团队沟通”、“撰写过程中注重内容的深度和广度”。

　　整体来说，这份周报内容写得还不赖，完成了大部分框架，根据实际情况再做调整，便足够应付咱们工作中的需要。

　　“策划一场公司团建活动，参与人数为20人，地点就在公司，时间是下午一点半到六点半，活动内容包括近期工作总结，互动游戏。”

　　在考验大模型的逻辑能力时，最常用的题目类型是鸡兔同笼求解，不过类似问题已经难不倒普通的大模型，元宝同样如此。

　　小伙伴也别觉得元宝计算能力差，事实上，这道题我之前用文心一言、Kimi、通义千问、豆包都计算过（且都无法直接用图片提取题目文字）。

　　元宝，文心一言、Kimi、豆包利用不等式知识解题是正确的思路，但是原题需要变通必一运动官网，将 36=4（a+b）带入进去提取常数，大模型显然没有这个创造力，纷纷选择硬解，集体翻车。

　　我调整了 prompt，让它用不等式知识计算，看着它输出了 3 分钟计算过程，中途还更改计算步骤，最后变成了系统超时。

　　常识问题在去年大模型爆发初期常常见到，还闹出了“林黛玉倒拔垂杨柳”的笑话。现如今，这个 Bug 已经得到优化，元宝在面对这类问题能轻松避开。

　　不过有些陷阱它还是无法避免，比如我在周五问元宝今年多特蒙德为何夺得欧冠冠军，它说得头头是道，然而比赛是周日凌晨才进行。

　　老狐进行了多次测试后发现，如果人物是正面，且脸部占据画面较大的面积，元宝对人物面部刻画会更准确，一旦角度是斜侧，或者人物面部较小时，面部就会出现比例失调，尤其是后一种情形。

　　不过有些大模型在处理这类问题时，要讨巧得多，要么选择展示人物背面，避免脸部的刻画，要么就直接正脸，给侧脸是死活不会给的。

　　反过来，耿直的元宝也更“听话”，画面与 prompt 更契合，用户更容易得到自己想要的画面。

　　以上就是关于腾讯元宝的简单体验，在内容方面，它与微信生态结合更紧密，能引用更多微信公众号内容，这是元宝独一无二的优势。

　　不过最令老狐印象深刻的还是元宝在作画时的耿直，照着用户的 prompt 生成，不惜暴露自己的缺点，少了文心一言、通义千问的“圆滑”。

　　一边是元宝、豆包听话但有缺点的大模型，另一边是文心一言会隐藏缺点但执行不到位的大模型，大家觉得哪个好？