解锁终极智能体验：OpenAI Deep Research 及其平替全面横评

2025-02-26

Duty

Bloger

Page content

解锁终极智能体验：OpenAI Deep Research 及其平替全面横评 by 未闻Code

今天起床看到个大新闻，OpenAI 把 Deep Research 产品开放给 Plus 用户了！我心目中“太阳系”最智能的软件终于能让更多人体验了。

体验推理模型的心路历程

去年 o1 系列发布时，除了对其原理做了一些学习与推测^[1] 外，自然也开始在日常工作中尝试使用这类推理模型。但当时思维局限在让它做比较复杂的 STEM 类问题上，使用频率并不高，也没有体会到它能力的强大之处。

随着后续 DeepSeek-R1 系列的发布，有了低门槛的 App，结合联网搜索功能，开始在更多的任务上尝试使用推理模型，瞬间感觉打开了一扇新世界的大门。之前用 4o 这类模型或者 Perplexity 这类产品，从心态上来说完全是在使用一个“工具”。用了 R1 之后，第一次感觉模型在很多问题的思考广度、深度、创造性甚至文笔表达上，都已经超过了我。用鸭哥的话来说，心态已经转变为“拜个大哥^[2]”了。

有意思的是，当时也有不少人讨论 R1 好像要比 o1, o3-mini-high 这些模型更强。为了对比这些模型，我也第一次开了 ChatGPT 的 Plus 会员（之前都是用 API），用一些真实案例做了些测试。当时我得出的结论也是一样的，R1 的输出效果感觉明显好于 o3-mini-high。只不过后来我才知道，这里面有个很大的坑，很多跟我得出类似结论的人可能都没有注意到……

第一次体验 Deep Research

随着 R1 使用的深入，我也逐渐感觉到它的一些局限性。第一个是感觉它在表达上的技巧过于突出，有点 reward hacking 的味道了，导致如果你真想去追究细节时会有些心理落差。最明显的例子是问一些解决方案的问题时，它基本总会给出“数据支撑”，比如某某公司用这个方案 xx 效率提升 yy% 之类。这里绝大多数都是“幻觉”。可能是数据标注时对于有数据支撑的答案有比较强的倾向性导致的。其它例子包括它很喜欢用一些看起来高深莫测的词，比如“量子纠缠”，“熵增熵减”等，或许与他们团队里有不少喜欢物理、哲学方面的人才有关？

另外一块比较有局限的是对于一些比较新的知识信息，模型没有在训练阶段见过，然后 App 上的搜索无论是触发概率还是搜索结果来说可能都不是很令人满意。比如当时想学习一下 DeepSeek 提出的 GRPO 与 PPO 的一些对比，发现 DeepSeek-R1 的回答就很难让人满意。

这个时候又在几个不同的微信群里都看到有人强烈推荐 OpenAI 的 Deep Research，包括很多专门做相关 Agent 开发的大佬也这么说，加上大家分享出来的 chat session，着实让人心动。咬咬牙开通了 ChatGPT Pro 订阅，终于第一次体验到了 OpenAI 的 Deep Research。当时用了一个公司内部流程机制设计的问题来测试，发现效果还是相当不错的，没有 DeepSeek-R1 那样华丽的词藻和狂野的想象力，但整体看起来思考逻辑非常严密和深入，细节上的控制很好，几乎没有幻觉，一看就是“内力深厚”！

使用小贴士

这里就要回到前面说的使用 ChatGPT 的“大坑”了。我在第二天继续密集使用 Deep Research 时，发现怎么也没法触发它去做 research 了，而是直接很快给出了回复。上网做了些调研，才知道在国内使用 ChatGPT 很容易被“降智”。

这背后的逻辑大家猜测很多，大概也是 OpenAI 为了防止账号共享、滥用，会进行一些安全检测。在用 Claude 时，如果你被检测为有风险的账号，可能直接被封了，但 ChatGPT 用了另一个方案，就是“降智”，会用一个低智能的小模型来回答你，速度很快，效果很差。这可能也是为什么很多人都没觉得 o1 Pro，o3-mini-high 这类模型有什么特别之处的原因，因为你体验的根本不是原版模型。

为了解决这个问题，网上也有很多解决方案，比如避免用共享账号，使用“纯净 IP”，上传一张空白图片，使用 iOS/macOS 客户端等，甚至还有专门一个开源项目^[3] 来防止被降智。不过我尝试下来，最有用的还是使用独享账号加上纯净 IP，关键词“家庭宽带”，其它就不多展开了。

自从能稳定触发 Deep Research，我就越来越离不开这位“大哥”了。而且跟 DeepSeek-R1 过了新鲜期容易有些审美疲劳不同，o1 Pro 和 Deep Research 真的是越用越觉得惊喜，而且会更推动我去思考如何更好地使用它，今天应该用它来做些什么，未来这类 Agent 普及之后，我们的日常工作形式会有怎么样的变化。

Deep Research 类产品对比

在折腾过程中，我也用很多问题测试了一下市面上的各种类似 Deep Research 产品，相信应该也有不少朋友会对这类“平替”产品感兴趣。

Genspark Deep Research

他们家的 Mixture-of-Agents 模式很有意思，使用 o3-mini-high 和 R1 领导 research，GPT/Claude/Gemini 等 instruct 模型来“挑战”每个 insight，不但有分工，还最大程度利用了不同家模型的多样性，使得结果更全面深入。

一次问题的典型 research 时间在 20 分钟以上，总体效果不错，也是比较稳重，幻觉较少的风格，在所有评估过的产品中应该是最接近 OpenAI Deep Research 的了。以上图为例，整个过程花了 27 分钟，阅读了 690 个网页，如果人工来做需要花费 46 小时才能读完这么多内容。

目前免费用户一天只能使用一次。如果你有兴趣尝试可以使用我的邀请码：

https://www.genspark.ai/invite?invite_code=ZmY0Y2Y3NTlMNjUwN0xmZjc0TDIwNGJMMjA5NTk1ZTU5ZTE4

Grok Deep Search

唯一一个不叫 Deep Research 的产品 [手动狗头]。在过程中会边搜索边输出，如果你很喜欢“看 AI 干活”，那就挺适合。其它产品一般都是扔一个请求过去就不管了。

在模型的调教上，Grok 的“语气”跟其他 AI 挺不一样，有种自信满满的气质，而且有不少细节信息，很令人信服的感觉。不过仔细看会有一些幻觉，这块的控制还是不如 OpenAI。

在搜索方面，Grok 能对接 X 上的数据，很多用户表示这部分的数据质量高，非常有用。这也是它的一个独有优势。模型能力结合搜索优势，总体来说也是一款接近 OpenAI Deep Research 的产品。

Gemini Deep Research

可能是最早的一款 Deep Research 产品？推出时也收到了不少好评，几乎被认为 NotebookLLM 时刻再现。

可能由于用的还是 Gemini 1.5 系列的模型，试用下来发现输出的内容经常比较粗浅，甚至有一些莫名其妙的响应（看了一堆网页只输出一句话）。

不过产品交互上感觉做的还挺好的，会提前跟用户确认 research plan 并可以编辑（与 OpenAI 的确认过程类似）。对于需要等上好几分钟才能拿到一份报告的流程来说，这种提前确认还是挺有必要的。总体来说差距跟 OpenAI 比较明显，更适合做一些简单的信息收集类工作。

对于 Gemini Deep Research 背后的研发与思考感兴趣的同学，也可以看 Latent Space 的这个访谈节目^[4]。

Perplexity Deep Research

输出内容比较短，感觉只是在原先 search agent 基础上略微加强了一些，没有体现“Deep”，不太推荐。

秘塔搜索

秘塔也推出了类似的“研究模式”，比 Perplexity 的 Deep Research 输出要长很多，利用 R1 做 planning 效果很不错。

比起 Grok 来说更擅长直接回答中文类的问题，可能跟对接和使用了中文搜索引擎有关。但是 search query 用中文也有弊端，有时候搜索的信源质量不够，或者时效性比较差。

如果你对于仅接入 R1 和搜索的产品（如 DeepSeek，元宝）不太满意，希望拿到更详细全面的报告结果，那么不妨试试秘塔的这款产品。

开源平替

由于时间关系，并没有测试开源复现 Deep Research 的产品，有兴趣的同学可以尝试这些项目，学习他们的实现方式。

LangChain 的 Open Deep Research^[5]
HuggingFace 的 Open Deep Research^[6]
Another Open Deep Research^[7]

对比总结

我也让 OpenAI Deep Research 对比了一下上面的几款产品，它总结的表格也挺全面的，基本跟我个人体验的结论差不多。

个人目前的使用偏好是默认都用 OpenAI Deep Research，同时持续评估 Genspark 和 Grok。中文场景会考虑使用秘塔。

为什么 OpenAI Deep Research 这么强？

由于“ClosedAI”的特性，我们很难了解其中的技术细节。收集到一些相关的信息源：

Deep Research 的介绍^[8]，里面透露了他们在 o3 模型基础上针对 agent 任务做了端到端的强化学习微调，这也让 Deep Research 成为目前唯一可以体验到 o3 能力的途径。文中提到了 2 个 benchmark，分别是 Humanity's Last Exam^[9] 和 GAIA^[10]，也可以从侧面窥探一些模型使用的训练数据内容。
Deep Research 的 System Card^[11]，同样信息量很少。模型训练一节提到了一些任务是可以客观评估的，应该指的就是用规则。其它一些更通用的任务，使用了 CoT 模型来评估，应该类似于之前提到过的 generative CoT reward model 的思路。
红杉对 Deep Research Team 的访谈节目^[12]，才发现 Josh Tobin 回 OpenAI 了……Tobin 提到很有意思的一点是他觉得用 workflow 的方式来构建 Agent 系统是很容易碰到瓶颈的。长期正确的道路是端到端的强化学习优化。

最后总结一下，2025 将是“the year of Agent”，而且“RL is so back”！推荐做 Agent 应用的同学都可以去深入体验一下 OpenAI Deep Research。

参考资料

[1]

对其原理做了一些学习与推测: https://zhuanlan.zhihu.com/p/720718887

[2]

拜个大哥: https://yage.ai/o1-pro.html

[3]

开源项目: https://github.com/wangjianpro999/GPT-foolproof

[4]

Latent Space 的这个访谈节目: https://www.youtube.com/watch?v=3HWOzuHp7VI

[5]

LangChain 的 Open Deep Research: https://github.com/langchain-ai/open_deep_research

[6]

HuggingFace 的 Open Deep Research: https://github.com/huggingface/smolagents/tree/gaia-submission-r1/examples/open_deep_research

[7]

Another Open Deep Research: https://github.com/btahir/open-deep-research

[8]

Deep Research 的介绍: https://openai.com/index/introducing-deep-research/

[9]

Humanity's Last Exam: https://lastexam.ai/

[10]

GAIA: https://openreview.net/forum?id=fibxvahvs3

[11]

Deep Research 的 System Card: https://cdn.openai.com/deep-research-system-card.pdf

[12]

红杉对 Deep Research Team 的访谈节目: https://www.youtube.com/watch?v=bNEvJYzoa8A

未闻 Code·知识星球开放啦！

一对一答疑爬虫相关问题

职业生涯咨询

面试经验分享

每周直播分享

......

未闻 Code·知识星球期待与你相见~

原文链接