热搜词:

全球智能体榜单新SOTA!中国公司登顶,Office三件套一键生成,全程可控可溯源,打工人直接拿来用

左超 Manus,右跨 Genspark,GAIA 榜单上又一家中国公司登顶!

天工超级智能体(Skywork Super Agents),出自昆仑万维,今日刚一上线即霸榜。

Agent 赛道开始热闹之后,GAIA 就成为大家摩拳擦掌的竞技场。

作为一个评估 Agent 解决实际问题能力的基准,它包括 450 个问题,这些问题需要不同级别的工具支持和自主能力,为此它还划分了三个 Level 水平。

结果能够看到,天工超级智能体(Skywork Super Agents)在前两个 Level 都以较大分数超过 Manus 和 OpenAI 的 Deep Research,最后一个较高难度的 Level 3,能力与 Manus 持平。

另外,它还在 SimpleQA 排行榜上,实现了对 OpenAI 和当前 SOTA 的超越。

除了在排行榜表现惊艳,它还有很多与其他产品不同的细节点。

摘一个最重要的(对打工人最友好的)来说。

它支持五种模态一站式生成,包括 Office 三件套(Word、PPT、Excel)、网站、网页、播客,一应俱全。

而且生成的结果可溯源、可编辑,还有类似 NotebookLM 的在线私人知识库的功能。

要知道,以前 Agent 那么多,但对打工人都不是特别的友好,生成的报告无法溯源、支持的文件格式又有限……

现在似乎是一个真正强大且对打工人友好的 Agent 来了,具体来看看。

超越 Genspark 和 Manus,GAIA 榜单第一

在说天工超级智能体(Skywork Super Agents)之前,有必要说说 GAIA 的含金量。

它之所以能成为众多 Agent/ 大模型屡试不鲜的通用 Benchmark,主要在于它提出了真实世界中一系列需要基本能力的问题,如推理、多模态处理、网页浏览和一般工具使用熟练程度。

而且还很细致地区分了三个层次,分别代表着不同的难易程度,级别越高,难度越大。

Level 1,往往不需要任何工具,或者有且最多只使用一种工具,但步骤不超过 5 步。

Level 2,涉及到的步骤在 5-10 步之间,需要结合不同的工具。

Level 3,这一级别的问题已经接近通用 Agent 了,要求采取任意长的行动序列,使用任意数量的工具,并能访问整个世界。

不过别看这么复杂,但其实这种难度只是「AI 限定」,对人类来说很简单。他们的实验表明,人类答题者的得分率为 92%,而装有插件的 GPT-4 的得分率仅为 15%。

这种显著的差异与「当前大模型在诸多任务优于人类」的现象形成了鲜明的对比。

于是乎这也就成为了海内外 Agent 的擂台,结果没想到现在又出现一个国产 Agent「天工超级智能体」(Skywork Super Agents)突出重围,实现 SOTA。

另外,它还收获了 SimpleQA 上评分第一、Product Hunt 日榜第一。

具体来看看产品。

从入口上看,目前只有网页端口,界面相比其他 Agent 产品丰富和清晰不少,覆盖的模式和场景都更全面一些。

在模式中有六种可以选择,其中 Office 三件套(文档、PPT、表格)还都是专家模式。

尤其是表格的首发,让 AI 生成数据表格和图标,这是其他 Agent 产品尚且还不具备的。

而这次通用模式,它可以生成音乐、MV、宣传片、绘本、有声书等内容。昆仑万维过去在多模态技术上的多方面探索这次沉淀下来,并且All in One。

此外它还可以细分场景,基本上我们日常生活工作高频场景都覆盖了。

这样拆分其实简化了用户的流程,不需要再去多思考如何想提示词,只需选定一个模式和场景,简单地提出一个需求就可以搞定,直接降低了使用门槛。

当然有一些详细需求且里面的场景没有涉及到,也跟其他 Agent/AI 助手一样,支持「通用」场景和模式。

比如生成个游戏 / 网页,研究报告啥的。

我是个技术小白,我想从零做一个小游戏的微信小程序,要真正能够上线分享给其他人的,请问我应该一步步怎么做,给我写一个详细完整的攻略和教程,要具有实际可操作性,步骤要清晰,阅读起来不要太费劲。

给我做个网页,一个 tab 是微信聊天界面,另一个 tab 是朋友圈,模拟历史上的各位皇帝在聊天和发朋友圈,要符合各个皇帝的性格和特点,然后互相还会在朋友圈点赞,增加一个继续看的按钮,每次点击都会触发新的聊天和朋友圈事件。

整体看下来,其他智能体有的它都有,而且产品功能设计得更贴合用户习惯,大大简化了用户使用门槛。

那就来看看它的真本事 ~ 彻底地来实测感受一下。

实测天工超级智能体:真正对打工人友好

这次天工超级智能体(Skywork Super Agents)支持了 Office 三件套,据说还做了专门的优化,那就来看看它的实力所在。

首先来看看 PPT 模式。

主题:大模型与智能体科普,目标:中小学生

在如此简单的提示词驱动下,它就开始运作了。当然除了 Prompt,也可以投喂资料或你的个人知识库内容,可以是图片、在线文档、网页、PDF。

发起任务后,它会根据任务生成一个表单, 你可以跳过也可以修改,这样让需求更具体。

这样也能让它更能 get 你的需求,避免没有搞清楚就开干。这是不是比工作伙伴靠谱聪明多了(Bushi)。

确认需求之后,它会生成一个「待办清单」,包括收集、整理、生成大纲到制作等详细步骤,这里也有一个「确认」的操作需要你来执行,有任何补充也都 OK。

整个过程在一些关键节点上都会有这种把关的「表单」需要你来执行,比如确认 PPT 大纲,当然也可以跳过。总之就是关键步骤更可控,而不是一股脑地完成,避免一步错步步错,让它最后完成的结果也能更符合你的预期。

在使用各种 MCP 依次完成步骤之后,来看看生成的结果,整体看上去还是不错。

风格和排版设计也很契合中小学生这一群体,仔细一看还会发现有动画效果?!可以说是很全面了,毕竟我就不会弄这个。

里面的案例也不局限于文本这一形式,还有视频、图片等多种模态穿插,而且也都是可溯源的真实案例,是真正可以直接拿出去用的程度。

这种高可用的特点,其实还挺惊艳的。

毕竟不是所有 Agent 平台都能生成这么丰富的多模态内容,也不是所有平台生成的内容都真实可用,但此处天工超级智能体(Skywork Super Agents)两者都实现了,不仅有用还好用,对于用户来说还敢直接在真实场景中使用。

而要是需要微调内容,它也支持「可编辑」,文字所到之处,都可以进行调整。

最后支持 PPT、PDF 以及 HTML 导出。

值得一提的是,在要完成其他的需求或者需要跳转其他的任务时,可以将它置于后台自行运作。然后就静静地等待它完成之后来「通知」你。

之前使用其他 Agent 可能还会担心置于后台就不干活的情况,经过这一番实测来看,它生成过程以及结果都还挺稳定的。

这种「通知」的设置,真的就有种拥有一个打工助理的感觉:你忙你的,我做我的,我做完再跟你汇报 ~

接下来再来试试其他两件套:Excel 和 Word 模式。

Excel 模式下,要求它统计 GitHub 上热门的 MCP 项目,要求有项目名称、作者、Star 数。在确认具体需求之后,它就开始运作了。

得到的结果是酱婶的 ~ 能够看到项目都是最新更新的,最后还附带了个 Star 排名表。

再来看看 word 模式:AI 产品经理的面试指南,要求给问答清单写优秀示例。

最后这些生成的内容,都可以储存在知识库中,也可以自己上传 pdf、doc、ppt、xls 等多种格式的文件,可以上传录音,也可以上传 url 和 youtube 视频播放地址。每个知识库支持上传最多 50 个文档,方便之后可以调用。

适合工作场景的「三件套」模式说完了,通用模式其实更有意思。它集成了十余个 MCP,包括网页搜索、图片搜索、网页爬取、文档搜索、思考分析、图片生成、图片理解、语音生成、音乐生成、视频生成、股票查询等。

于是在各种工具混合之后,就可以生成一些酷炫的产物,比如 MV、宣传片、有声书、绘本……

帮我生成一个小猫的旅行 vlog,内容分别是小猫到法国埃菲尔铁塔、美国自由女神像、中国长城、澳大利亚悉尼歌剧院、埃及金字塔、印度泰姬陵、日本富士山等地旅游并与这些著名景点自拍合照,配乐轻松欢快。

最后,他们还考虑到了开发者,也就是今天,他们在 GitHub 上开源了 DeepResearch Agent 框架。并且把生成「三件套」的能力,集成 MCP,供开发者调用。

DeepResearch Agent 框架开源:https://github.com/SkyworkAI/DeepResearchAgent

MCP 地址:https://mcp.so/server/skywork-super-agents/Skywork-ai

智能体从有用、敢用到好用

整个产品体验下来,能够感知到的是,AI Agent 赛道从 " 技术秀场 " 向 " 真实生产力工具 " 的跨越。

首先,它不仅以 GAIA 榜单冠军和 SimpleQA 评分第一的成绩证明了技术能力的领先。

它还更通过一系列基于用户特点的产品设计,比如 Office 三件套深度优化、多模态一站式生成和可溯源可编辑的交互设计,重新定义了智能体的价值标准:

从 " 有用 " 到 " 敢用 ",最终实现 " 好用 "。

智能体虽然能够让 AI 开始触达到真实任务执行中去,但往往会因生成内容有限,结果不可控被职场人束之高阁,但天工超级智能体(Skywork Super Agents)正在打破这样的信任壁垒。

比如全链路可控,从 " 需求确认 - 大纲审核 - 内容溯源 ",让用户随时介入关键决策点,而且交付流程稳定,后台任务持续运行的特点,解决了 AI 工具 " 半成品烂尾 " 的痛点……用户才敢真正将核心工作交付给智能体。

此外,天工的好用易用其实并非简单的界面优化,而是围绕 " 真实需求 - 可用结果 " 一整套的闭环设计。

像场景化入口将 " 提示词工程 " 转化为 " 选模式 - 填需求 " 的极简操作,私人知识库支持导入企业文档、会议记录等私有数据,让输出结果天然贴合用户知识体系;真实场景中往往数据类型更为复杂,还会涉及跨模态联动,智能体能够做到多模态一站式生成,落地场景就可以进一步得到延伸和扩展。

当下,全球 Agent 赛道激战正酣,OpenAI、Google 等巨头押注通用智能体,还有一群像 Genspark、Manus 争先恐后的创业玩家。

中国玩家们,以天工超级智能体(Skywork Super Agents)的突破为例,其实正在探索一条更本质的进化路径:

AI 的价值不在于炫技刷榜,而是针对真实用户体验,甚至可以让人忘记技术所在。

这场 " 有用→敢用→好用 " 的进化,或许正是撬动 AI 大规模落地的终极密码。

目前海外版国内版均已上线,可戳下方链接体验哦 ~

海外版:https://skywork.ai

国内版:https://tiangong.cn

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

点亮星标

科技前沿进展每日见