首页 > 学习

全球智能体榜单新SOTA！中国公司登顶，Office三件套一键生成，全程可控可溯源，打工人直接拿来用

左超 Manus，右跨 Genspark，GAIA 榜单上又一家中国公司登顶！

天工超级智能体（Skywork Super Agents），出自昆仑万维，今日刚一上线即霸榜。

Agent 赛道开始热闹之后，GAIA 就成为大家摩拳擦掌的竞技场。

作为一个评估 Agent 解决实际问题能力的基准，它包括 450 个问题，这些问题需要不同级别的工具支持和自主能力，为此它还划分了三个 Level 水平。

结果能够看到，天工超级智能体（Skywork Super Agents）在前两个 Level 都以较大分数超过 Manus 和 OpenAI 的 Deep Research，最后一个较高难度的 Level 3，能力与 Manus 持平。

另外，它还在 SimpleQA 排行榜上，实现了对 OpenAI 和当前 SOTA 的超越。

除了在排行榜表现惊艳，它还有很多与其他产品不同的细节点。

摘一个最重要的（对打工人最友好的）来说。

它支持五种模态一站式生成，包括 Office 三件套（Word、PPT、Excel）、网站、网页、播客，一应俱全。

而且生成的结果可溯源、可编辑，还有类似 NotebookLM 的在线私人知识库的功能。

要知道，以前 Agent 那么多，但对打工人都不是特别的友好，生成的报告无法溯源、支持的文件格式又有限……

现在似乎是一个真正强大且对打工人友好的 Agent 来了，具体来看看。

超越 Genspark 和 Manus，GAIA 榜单第一

在说天工超级智能体（Skywork Super Agents）之前，有必要说说 GAIA 的含金量。

它之所以能成为众多 Agent/ 大模型屡试不鲜的通用 Benchmark，主要在于它提出了真实世界中一系列需要基本能力的问题，如推理、多模态处理、网页浏览和一般工具使用熟练程度。

而且还很细致地区分了三个层次，分别代表着不同的难易程度，级别越高，难度越大。

Level 1，往往不需要任何工具，或者有且最多只使用一种工具，但步骤不超过 5 步。

Level 2，涉及到的步骤在 5-10 步之间，需要结合不同的工具。

Level 3，这一级别的问题已经接近通用 Agent 了，要求采取任意长的行动序列，使用任意数量的工具，并能访问整个世界。

不过别看这么复杂，但其实这种难度只是「AI 限定」，对人类来说很简单。他们的实验表明，人类答题者的得分率为 92%，而装有插件的 GPT-4 的得分率仅为 15%。

这种显著的差异与「当前大模型在诸多任务优于人类」的现象形成了鲜明的对比。

于是乎这也就成为了海内外 Agent 的擂台，结果没想到现在又出现一个国产 Agent「天工超级智能体」（Skywork Super Agents）突出重围，实现 SOTA。

另外，它还收获了 SimpleQA 上评分第一、Product Hunt 日榜第一。

具体来看看产品。

从入口上看，目前只有网页端口，界面相比其他 Agent 产品丰富和清晰不少，覆盖的模式和场景都更全面一些。

在模式中有六种可以选择，其中 Office 三件套（文档、PPT、表格）还都是专家模式。

尤其是表格的首发，让 AI 生成数据表格和图标，这是其他 Agent 产品尚且还不具备的。

而这次通用模式，它可以生成音乐、MV、宣传片、绘本、有声书等内容。昆仑万维过去在多模态技术上的多方面探索这次沉淀下来，并且All in One。

此外它还可以细分场景，基本上我们日常生活工作高频场景都覆盖了。

这样拆分其实简化了用户的流程，不需要再去多思考如何想提示词，只需选定一个模式和场景，简单地提出一个需求就可以搞定，直接降低了使用门槛。

当然有一些详细需求且里面的场景没有涉及到，也跟其他 Agent/AI 助手一样，支持「通用」场景和模式。

比如生成个游戏 / 网页，研究报告啥的。

我是个技术小白，我想从零做一个小游戏的微信小程序，要真正能够上线分享给其他人的，请问我应该一步步怎么做，给我写一个详细完整的攻略和教程，要具有实际可操作性，步骤要清晰，阅读起来不要太费劲。

给我做个网页，一个 tab 是微信聊天界面，另一个 tab 是朋友圈，模拟历史上的各位皇帝在聊天和发朋友圈，要符合各个皇帝的性格和特点，然后互相还会在朋友圈点赞，增加一个继续看的按钮，每次点击都会触发新的聊天和朋友圈事件。

整体看下来，其他智能体有的它都有，而且产品功能设计得更贴合用户习惯，大大简化了用户使用门槛。

那就来看看它的真本事 ~ 彻底地来实测感受一下。

实测天工超级智能体：真正对打工人友好

这次天工超级智能体（Skywork Super Agents）支持了 Office 三件套，据说还做了专门的优化，那就来看看它的实力所在。

首先来看看 PPT 模式。

主题：大模型与智能体科普，目标：中小学生

在如此简单的提示词驱动下，它就开始运作了。当然除了 Prompt，也可以投喂资料或你的个人知识库内容，可以是图片、在线文档、网页、PDF。

发起任务后，它会根据任务生成一个表单，你可以跳过也可以修改，这样让需求更具体。

这样也能让它更能 get 你的需求，避免没有搞清楚就开干。这是不是比工作伙伴靠谱聪明多了（Bushi）。

确认需求之后，它会生成一个「待办清单」，包括收集、整理、生成大纲到制作等详细步骤，这里也有一个「确认」的操作需要你来执行，有任何补充也都 OK。

整个过程在一些关键节点上都会有这种把关的「表单」需要你来执行，比如确认 PPT 大纲，当然也可以跳过。总之就是关键步骤更可控，而不是一股脑地完成，避免一步错步步错，让它最后完成的结果也能更符合你的预期。

在使用各种 MCP 依次完成步骤之后，来看看生成的结果，整体看上去还是不错。

风格和排版设计也很契合中小学生这一群体，仔细一看还会发现有动画效果？！可以说是很全面了，毕竟我就不会弄这个。

里面的案例也不局限于文本这一形式，还有视频、图片等多种模态穿插，而且也都是可溯源的真实案例，是真正可以直接拿出去用的程度。

这种高可用的特点，其实还挺惊艳的。

毕竟不是所有 Agent 平台都能生成这么丰富的多模态内容，也不是所有平台生成的内容都真实可用，但此处天工超级智能体（Skywork Super Agents）两者都实现了，不仅有用还好用，对于用户来说还敢直接在真实场景中使用。

而要是需要微调内容，它也支持「可编辑」，文字所到之处，都可以进行调整。

最后支持 PPT、PDF 以及 HTML 导出。

值得一提的是，在要完成其他的需求或者需要跳转其他的任务时，可以将它置于后台自行运作。然后就静静地等待它完成之后来「通知」你。

之前使用其他 Agent 可能还会担心置于后台就不干活的情况，经过这一番实测来看，它生成过程以及结果都还挺稳定的。

这种「通知」的设置，真的就有种拥有一个打工助理的感觉：你忙你的，我做我的，我做完再跟你汇报 ~

接下来再来试试其他两件套：Excel 和 Word 模式。

Excel 模式下，要求它统计 GitHub 上热门的 MCP 项目，要求有项目名称、作者、Star 数。在确认具体需求之后，它就开始运作了。

得到的结果是酱婶的 ~ 能够看到项目都是最新更新的，最后还附带了个 Star 排名表。

再来看看 word 模式：AI 产品经理的面试指南，要求给问答清单写优秀示例。

最后这些生成的内容，都可以储存在知识库中，也可以自己上传 pdf、doc、ppt、xls 等多种格式的文件，可以上传录音，也可以上传 url 和 youtube 视频播放地址。每个知识库支持上传最多 50 个文档，方便之后可以调用。

适合工作场景的「三件套」模式说完了，通用模式其实更有意思。它集成了十余个 MCP，包括网页搜索、图片搜索、网页爬取、文档搜索、思考分析、图片生成、图片理解、语音生成、音乐生成、视频生成、股票查询等。

于是在各种工具混合之后，就可以生成一些酷炫的产物，比如 MV、宣传片、有声书、绘本……

帮我生成一个小猫的旅行 vlog，内容分别是小猫到法国埃菲尔铁塔、美国自由女神像、中国长城、澳大利亚悉尼歌剧院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并与这些著名景点自拍合照，配乐轻松欢快。

最后，他们还考虑到了开发者，也就是今天，他们在 GitHub 上开源了 DeepResearch Agent 框架。并且把生成「三件套」的能力，集成 MCP，供开发者调用。

DeepResearch Agent 框架开源：https://github.com/SkyworkAI/DeepResearchAgent

MCP 地址：https://mcp.so/server/skywork-super-agents/Skywork-ai

智能体从有用、敢用到好用

整个产品体验下来，能够感知到的是，AI Agent 赛道从 " 技术秀场 " 向 " 真实生产力工具 " 的跨越。

首先，它不仅以 GAIA 榜单冠军和 SimpleQA 评分第一的成绩证明了技术能力的领先。

它还更通过一系列基于用户特点的产品设计，比如 Office 三件套深度优化、多模态一站式生成和可溯源可编辑的交互设计，重新定义了智能体的价值标准：

从 " 有用 " 到 " 敢用 "，最终实现 " 好用 "。

智能体虽然能够让 AI 开始触达到真实任务执行中去，但往往会因生成内容有限，结果不可控被职场人束之高阁，但天工超级智能体（Skywork Super Agents）正在打破这样的信任壁垒。

比如全链路可控，从 " 需求确认 - 大纲审核 - 内容溯源 "，让用户随时介入关键决策点，而且交付流程稳定，后台任务持续运行的特点，解决了 AI 工具 " 半成品烂尾 " 的痛点……用户才敢真正将核心工作交付给智能体。

此外，天工的好用易用其实并非简单的界面优化，而是围绕 " 真实需求 - 可用结果 " 一整套的闭环设计。

像场景化入口将 " 提示词工程 " 转化为 " 选模式 - 填需求 " 的极简操作，私人知识库支持导入企业文档、会议记录等私有数据，让输出结果天然贴合用户知识体系；真实场景中往往数据类型更为复杂，还会涉及跨模态联动，智能体能够做到多模态一站式生成，落地场景就可以进一步得到延伸和扩展。

当下，全球 Agent 赛道激战正酣，OpenAI、Google 等巨头押注通用智能体，还有一群像 Genspark、Manus 争先恐后的创业玩家。

中国玩家们，以天工超级智能体（Skywork Super Agents）的突破为例，其实正在探索一条更本质的进化路径：

AI 的价值不在于炫技刷榜，而是针对真实用户体验，甚至可以让人忘记技术所在。

这场 " 有用→敢用→好用 " 的进化，或许正是撬动 AI 大规模落地的终极密码。

目前海外版国内版均已上线，可戳下方链接体验哦 ~

海外版：https://skywork.ai

国内版：https://tiangong.cn

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见