解锁终极智能体验:OpenAI Deep Research 及其平替全面横评
解锁终极智能体验:OpenAI Deep Research 及其平替全面横评 by 未闻Code
今天起床看到个大新闻,OpenAI 把 Deep Research 产品开放给 Plus 用户了!我心目中“太阳系”最智能的软件终于能让更多人体验了。
体验推理模型的心路历程
去年 o1 系列发布时,除了 对其原理做了一些学习与推测[1] 外,自然也开始在日常工作中尝试使用这类推理模型。但当时思维局限在让它做比较复杂的 STEM 类问题上,使用频率并不高,也没有体会到它能力的强大之处。
随着后续 DeepSeek-R1 系列的发布,有了低门槛的 App,结合联网搜索功能,开始在更多的任务上尝试使用推理模型,瞬间感觉打开了一扇新世界的大门。之前用 4o 这类模型或者 Perplexity 这类产品,从心态上来说完全是在使用一个“工具”。用了 R1 之后,第一次感觉模型在很多问题的思考广度、深度、创造性甚至文笔表达上,都已经超过了我。用鸭哥的话来说,心态已经转变为“拜个大哥[2]”了。
有意思的是,当时也有不少人讨论 R1 好像要比 o1, o3-mini-high 这些模型更强。为了对比这些模型,我也第一次开了 ChatGPT 的 Plus 会员(之前都是用 API),用一些真实案例做了些测试。当时我得出的结论也是一样的,R1 的输出效果感觉明显好于 o3-mini-high。只不过后来我才知道,这里面有个很大的坑,很多跟我得出类似结论的人可能都没有注意到……
第一次体验 Deep Research
随着 R1 使用的深入,我也逐渐感觉到它的一些局限性。第一个是感觉它在表达上的技巧过于突出,有点 reward hacking 的味道了,导致如果你真想去追究细节时会有些心理落差。最明显的例子是问一些解决方案的问题时,它基本总会给出“数据支撑”,比如某某公司用这个方案 xx 效率提升 yy% 之类。这里绝大多数都是“幻觉”。可能是数据标注时对于有数据支撑的答案有比较强的倾向性导致的。其它例子包括它很喜欢用一些看起来高深莫测的词,比如“量子纠缠”,“熵增熵减”等,或许与他们团队里有不少喜欢物理、哲学方面的人才有关?
另外一块比较有局限的是对于一些比较新的知识信息,模型没有在训练阶段见过,然后 App 上的搜索无论是触发概率还是搜索结果来说可能都不是很令人满意。比如当时想学习一下 DeepSeek 提出的 GRPO 与 PPO 的一些对比,发现 DeepSeek-R1 的回答就很难让人满意。
这个时候又在几个不同的微信群里都看到有人强烈推荐 OpenAI 的 Deep Research,包括很多专门做相关 Agent 开发的大佬也这么说,加上大家分享出来的 chat session,着实让人心动。咬咬牙开通了 ChatGPT Pro 订阅,终于第一次体验到了 OpenAI 的 Deep Research。当时用了一个公司内部流程机制设计的问题来测试,发现效果还是相当不错的,没有 DeepSeek-R1 那样华丽的词藻和狂野的想象力,但整体看起来思考逻辑非常严密和深入,细节上的控制很好,几乎没有幻觉,一看就是“内力深厚”!
使用小贴士
这里就要回到前面说的使用 ChatGPT 的“大坑”了。我在第二天继续密集使用 Deep Research 时,发现怎么也没法触发它去做 research 了,而是直接很快给出了回复。上网做了些调研,才知道在国内使用 ChatGPT 很容易被“降智”。
这背后的逻辑大家猜测很多,大概也是 OpenAI 为了防止账号共享、滥用,会进行一些安全检测。在用 Claude 时,如果你被检测为有风险的账号,可能直接被封了,但 ChatGPT 用了另一个方案,就是“降智”,会用一个低智能的小模型来回答你,速度很快,效果很差。这可能也是为什么很多人都没觉得 o1 Pro,o3-mini-high 这类模型有什么特别之处的原因,因为你体验的根本不是原版模型。
为了解决这个问题,网上也有很多解决方案,比如避免用共享账号,使用“纯净 IP”,上传一张空白图片,使用 iOS/macOS 客户端等,甚至还有专门一个 开源项目[3] 来防止被降智。不过我尝试下来,最有用的还是使用独享账号加上纯净 IP,关键词“家庭宽带”,其它就不多展开了。
自从能稳定触发 Deep Research,我就越来越离不开这位“大哥”了。而且跟 DeepSeek-R1 过了新鲜期容易有些审美疲劳不同,o1 Pro 和 Deep Research 真的是越用越觉得惊喜,而且会更推动我去思考如何更好地使用它,今天应该用它来做些什么,未来这类 Agent 普及之后,我们的日常工作形式会有怎么样的变化。
Deep Research 类产品对比
在折腾过程中,我也用很多问题测试了一下市面上的各种类似 Deep Research 产品,相信应该也有不少朋友会对这类“平替”产品感兴趣。
Genspark Deep Research
他们家的 Mixture-of-Agents 模式很有意思,使用 o3-mini-high 和 R1 领导 research,GPT/Claude/Gemini 等 instruct 模型来“挑战”每个 insight,不但有分工,还最大程度利用了不同家模型的多样性,使得结果更全面深入。
一次问题的典型 research 时间在 20 分钟以上,总体效果不错,也是比较稳重,幻觉较少的风格,在所有评估过的产品中应该是最接近 OpenAI Deep Research 的了。以上图为例,整个过程花了 27 分钟,阅读了 690 个网页,如果人工来做需要花费 46 小时才能读完这么多内容。
目前免费用户一天只能使用一次。如果你有兴趣尝试可以使用我的邀请码:
https://www.genspark.ai/invite?invite_code=ZmY0Y2Y3NTlMNjUwN0xmZjc0TDIwNGJMMjA5NTk1ZTU5ZTE4
Grok Deep Search
唯一一个不叫 Deep Research 的产品 [手动狗头]。在过程中会边搜索边输出,如果你很喜欢“看 AI 干活”,那就挺适合。其它产品一般都是扔一个请求过去就不管了。
在模型的调教上,Grok 的“语气”跟其他 AI 挺不一样,有种自信满满的气质,而且有不少细节信息,很令人信服的感觉。不过仔细看会有一些幻觉,这块的控制还是不如 OpenAI。
在搜索方面,Grok 能对接 X 上的数据,很多用户表示这部分的数据质量高,非常有用。这也是它的一个独有优势。模型能力结合搜索优势,总体来说也是一款接近 OpenAI Deep Research 的产品。
Gemini Deep Research
可能是最早的一款 Deep Research 产品?推出时也收到了不少好评,几乎被认为 NotebookLLM 时刻再现。
可能由于用的还是 Gemini 1.5 系列的模型,试用下来发现输出的内容经常比较粗浅,甚至有一些莫名其妙的响应(看了一堆网页只输出一句话)。
不过产品交互上感觉做的还挺好的,会提前跟用户确认 research plan 并可以编辑(与 OpenAI 的确认过程类似)。对于需要等上好几分钟才能拿到一份报告的流程来说,这种提前确认还是挺有必要的。总体来说差距跟 OpenAI 比较明显,更适合做一些简单的信息收集类工作。
对于 Gemini Deep Research 背后的研发与思考感兴趣的同学,也可以看 Latent Space 的这个访谈节目[4]。
Perplexity Deep Research
输出内容比较短,感觉只是在原先 search agent 基础上略微加强了一些,没有体现“Deep”,不太推荐。
秘塔搜索
秘塔也推出了类似的“研究模式”,比 Perplexity 的 Deep Research 输出要长很多,利用 R1 做 planning 效果很不错。
比起 Grok 来说更擅长直接回答中文类的问题,可能跟对接和使用了中文搜索引擎有关。但是 search query 用中文也有弊端,有时候搜索的信源质量不够,或者时效性比较差。
如果你对于仅接入 R1 和搜索的产品(如 DeepSeek,元宝)不太满意,希望拿到更详细全面的报告结果,那么不妨试试秘塔的这款产品。
开源平替
由于时间关系,并没有测试开源复现 Deep Research 的产品,有兴趣的同学可以尝试这些项目,学习他们的实现方式。
LangChain 的 Open Deep Research[5] HuggingFace 的 Open Deep Research[6] Another Open Deep Research[7]
对比总结
我也让 OpenAI Deep Research 对比了一下上面的几款产品,它总结的表格也挺全面的,基本跟我个人体验的结论差不多。
个人目前的使用偏好是默认都用 OpenAI Deep Research,同时持续评估 Genspark 和 Grok。中文场景会考虑使用秘塔。
为什么 OpenAI Deep Research 这么强?
由于“ClosedAI”的特性,我们很难了解其中的技术细节。收集到一些相关的信息源:
Deep Research 的介绍[8],里面透露了他们在 o3 模型基础上针对 agent 任务做了端到端的强化学习微调,这也让 Deep Research 成为目前唯一可以体验到 o3 能力的途径。文中提到了 2 个 benchmark,分别是 Humanity's Last Exam[9] 和 GAIA[10],也可以从侧面窥探一些模型使用的训练数据内容。 Deep Research 的 System Card[11],同样信息量很少。模型训练一节提到了一些任务是可以客观评估的,应该指的就是用规则。其它一些更通用的任务,使用了 CoT 模型来评估,应该类似于之前提到过的 generative CoT reward model 的思路。 红杉对 Deep Research Team 的访谈节目[12],才发现 Josh Tobin 回 OpenAI 了……Tobin 提到很有意思的一点是他觉得用 workflow 的方式来构建 Agent 系统是很容易碰到瓶颈的。长期正确的道路是端到端的强化学习优化。
最后总结一下,2025 将是“the year of Agent”,而且“RL is so back”!推荐做 Agent 应用的同学都可以去深入体验一下 OpenAI Deep Research。
参考资料
对其原理做了一些学习与推测: https://zhuanlan.zhihu.com/p/720718887
[2]拜个大哥: https://yage.ai/o1-pro.html
[3]开源项目: https://github.com/wangjianpro999/GPT-foolproof
[4]Latent Space 的这个访谈节目: https://www.youtube.com/watch?v=3HWOzuHp7VI
[5]LangChain 的 Open Deep Research: https://github.com/langchain-ai/open_deep_research
[6]HuggingFace 的 Open Deep Research: https://github.com/huggingface/smolagents/tree/gaia-submission-r1/examples/open_deep_research
[7]Another Open Deep Research: https://github.com/btahir/open-deep-research
[8]Deep Research 的介绍: https://openai.com/index/introducing-deep-research/
[9]Humanity's Last Exam: https://lastexam.ai/
[10]GAIA: https://openreview.net/forum?id=fibxvahvs3
[11]Deep Research 的 System Card: https://cdn.openai.com/deep-research-system-card.pdf
[12]红杉对 Deep Research Team 的访谈节目: https://www.youtube.com/watch?v=bNEvJYzoa8A
未闻 Code·知识星球开放啦!
一对一答疑爬虫相关问题
职业生涯咨询
面试经验分享
每周直播分享
......
未闻 Code·知识星球期待与你相见~
原文链接