ALL About AI 系列(七): DeepResearch
在人工智能领域,DeepResearch(深度研究)正在成为一种新的研究范式。它通过大语言模型(LLM)、信息检索和自动化推理技术,系统化地自动化和增强研究流程。
ALLAboutAI系列(七):DeepResearch
DeepResearch(深度研究)是人工智能驱动的研究范式革新,依托大语言模型(LLM)、信息检索与自动化推理技术,旨在系统化地自动化和增强研究流程。其发展背景源于传统研究方法依赖手动文献综述与数据分析的局限性,而AI技术(如AutoGPT、Gemini等)推动了端到端工作流的智能化。目前Google、OpenAI以及一些大模型相关的厂商都有开源/闭源的DeepResearch产品。
基础框架
核心步骤包括3个:
•规划(Plan):让一个模型将用户的主问题分解成一系列具体的、可独立研究的子问题。
•执行(Execute):并行地对每个子问题进行研究,调用搜索API(网络+本地知识库)获取信息,并让模型对单个信息源进行总结。
•合成(Synthesize):将所有子问题的答案汇总起来,交给一个高级模型,让它撰写成一篇连贯、完整的最终报告。
OpenAI的一些最佳实践
为正确的任务选择正确的模型(核心成本与性能优化策略)
不同任务对模型能力的要求不同,混用模型可以极大地优化成本和速度。
•问题澄清和改写:使用小一些、更快的模型。这两步只是启动研究过程,如果输入的prompt足够详细,这两步甚至可以跳过。
•规划(Plan)和合成(Synthesize)阶段:使用能力最强的模型,因为这两个步骤需要强大的推理、逻辑组织和长文本生成能力,它们的质量直接决定了最终报告的上限。
•执行(Execute)阶段:对搜索到的单个网页或文档进行初步总结时,可以使用更便宜、更快的模型,因为这个任务相对简单(总结一篇具体文章),不需要顶级的推理能力。
并行处理以最大化效率
研究过程中的多个子问题通常是相互独立的,等待一个完成后再开始下一个会非常耗时。
在“执行”阶段,一旦“规划”步骤生成了所有子问题列表,就应该使用异步编程(如Python的asyncio)来并行发起对每个子问题的研究请求。这样可以将原本需要数分钟的串行过程缩短到一分钟以内。
使用函数调用(FunctionCalling)或JSON模式获取结构化输出
直接让模型输出文本并用代码去解析,既不稳定也容易出错。为了保证工作流的稳定可靠,应始终让模型返回结构化的数据。
•规划阶段:指示模型使用“函数调用”或“JSON模式”,输出一个包含所有子问题字符串的JSON列表。这样您的代码就可以直接、准确地解析出需要执行的任务清单。
•执行阶段:同样,在总结单个页面时,也可以要求模型以固定的JSON格式返回结果,例如{“summary”:“…”,“key_points”:[…]}。注意:确保您的提示词中清晰地描述了所需的JSON结构或函数签名。
外部工具的必要性(LLM不是万能的)
大型语言模型本身没有实时联网能力,其知识也非最新。因此,必须集成外部工具。
•集成一个或多个高质量的搜索API(如GoogleSearchAPI,BraveSearchAPI,Serper等)来获取实时、广泛的信息。
•在提示词中明确告知模型它可以使用这些工具,并通过函数调用等方式将工具的输出结果返回给模型。
精心设计提示词
•规划提示词:应明确告知模型其角色是一个“世界级的首席研究员”,任务是“将一个复杂问题分解为一组可以独立研究的、详尽的子问题”。
•执行提示词:应指示模型扮演“专家分析师”,任务是“根据提供的原始文本,回答一个具体的问题,并进行简洁总结”。
•合成提示词:这是最终决定报告质量的关键。应包含所有子问题的答案,并给出非常明确的指令,例如:“你是一位顶级行业分析师,请整合以下所有研究资料,撰写一份全面、客观、结构清晰的深度研究报告。报告应包含引言、正文和结论,并保持专业的语调。”
加入人工审核环节(Human-in-the-Loop)
对于非常严肃或重要的研究任务,完全自动化的流程可能存在风险。可以在规划阶段之后加入一个人工审核步骤。让用户(或您自己)审查和修改模型生成的子问题列表,确保研究方向正确无误后,再启动昂贵的“执行”阶段。这可以有效避免后续步骤的“垃圾进,垃圾出”。
一些个人看法
•首先,对于企业级应用场景来说,可信的数据源是生成一篇报告可用的前提,因此引入企业私有知识库作为DeepResearch的输入数据源是必须的。
•其次,对于规划阶段一般来说需要使用能力最强的模型,以保证任务规划的合理,那么如何降低成本呢?一方面给就是人工审核,让人去给模型生成的规划内容进行反馈、修改;另一方面对于一些研究场景来说,企业原本就有标准的SOP,是不是可以直接给到模型作为参考,让它基于标准的SOP去完善丰富具体细节。
•最后,虽然现在的AI很强,让它写一份研究报告,它能瞬间检索几十、上百的参考文献,然后哐哐哐吐几千字,但是实际内容可能经不起细看,并且往往会出现前后矛盾的情况,还需要依赖模型性能的提升或者一些工程化的优化解决。需要不断关注新技术、新研究,例如谷歌的最新研究等。
后记
DeepResearch是智能体技术在研究型任务中的重要应用方向,已经取得了一定实际落地应用和良好效果“相对成熟的技术”,随着大厂投入的研究越来越多,其可用性会越来越高。