驾驭 deep research,你必须知道的 100 件事|一次性构建出你的 deep research 个人知识体系

Page content

驾驭 deep research,你必须知道的 100 件事|一次性构建出你的 deep research 个人知识体系 by Howie和小能熊

  • deep research 很可能(probable,60%--80%概率)是自chatgpt之后第二个革命性AI技术。因为它真正改变了脑力劳动者的生产力格局
  • 你对 deep research 的态度在本质上取决于你对技术本质的判断,对技术的敏感度与洞察;
  • 我目前对“deep research是革命性技术”的置信度是80%,如果相反证据出现,我自然会贝叶斯更新我的推断;在相反证据出现之前,我建议你对这项技术予以足够重视。能花 100 小时在这上面,就别只花 99 小时
  • 对改变了生产力格局的deep research,你的个人知识体系越全面,理解就越深,使用就越好。通过这篇文章,我把自己脑子里关于 deep research 的知识和经验全部敲出来,希望帮你更全面深入地理解 deep research 到底是什么为什么重要,如何使用,如何改变生命;

why

  • 2025年是agent之年。根据openai的agi分级框架,chatbot/知识模型是L1 agi,reasoning model/推理模型是L2 agi,而agent/任务模型是L3 agi;
  • 今年,openai 已经陆续推出chatgpt tasks、operator 和deep research 这三个 agents。tasks 是基础的任务提醒,operator 是直接操作浏览器,与真实世界互动,deep research是帮专业人士做研究;
  • 前两个几乎无人问津。但是,对于 deep research,如果你不是干体力活的,真的没理由不关注一下,除非你端的是铁饭碗,而且是最稳的那种🤣;

what

  • deep research(深度研究)是一个功能,一个模型,一个以“研究”为专业的AI agent(智能体/代理)。openai的官方广告语是:你的个人研究助理;
  • 最先推出deep research功能的是 google gemini,发布于 2024 年 12 月中旬;然后是openai(25 年 2 月),紧接着是 perplexity;
  • grok3 推出的是 deep search(ai 搜索,更接近推理模型版本的 chatgpt search),不是 deep research(本质是 ai agent);
  • google deep research 底层模型是gemini 1.5 pro,全名叫“Gemini 1.5 Pro with Deep Research”。虽然 google在搜索上有近 30 年技术积累,但由于模型基础性能拉跨,导致输出结果和openai deep research 有数量级差距;
  • google deep research 会在用户提出问题后自动制定多步骤研究计划。系统先生成一个分步研究方案供用户审核,可根据需要修改,然后用户点击“Start research”开始执行。获得授权后,Gemini 会像人类研究者一样反复执行 “搜索-阅读-分析”循环:利用 google 搜索查找相关内容,读取网页获取信息,再根据新发现调整搜索策略。这一过程会持续数分钟,期间 gemini 持续完善对主题的理解,发起多轮检索和推理,以确保覆盖话题的各个方面。整个浏览和思考过程在后台自动完成,无需用户干预。基本上各家的 deep research 都是这个流程。
  • google deep research的特点是在搜索上大力(结果没有奇迹):通常浏览上百个网站,阅读上千个网页,提供的研究报告带上百个参考文献。很唬人,不明觉厉。但是,openai deep research 出来后,这一套就不灵了,经不住内容质量上的鲜明对比;
  • perplexity 推出的 deep research 基本属于蹭热点、找存在感,相当于“挂羊头卖狗肉”,质量差到没人用,不建议浪费时间
  • google ai 会员 20 美金/月,支持 6 人家庭共享,deep research 不限量;perplexity ai 会员 20 美金/月,也不限量;openai 20 美金的 plus会员,每月 10 次限额;价格差异一方面是成本差异巨大,一方面是质量差异带来底气;
  • deep research 本质上在做一件事:主题研究。这件事对本科生来说有涉及,对研究生来说是关键能力,但是,大多数人做不好。AI 在这件事上展现出的实力,让人类用户震惊、感慨,思考自己智力活动的价值(包括形而上的意义价值,更包括形而下的经济价值)(人的智力活动当然有价值,但必须重新调整自身智力活动的定位,只能做到 ai 能做到的程度,那就危险);
  • 决定deep research 效果的,不是“如何做研究”的步骤方法流程技巧(模型的系统指令很简单,o3的基础智能极强,不需要你教它如何做研究),而是底层的 reasoning model。这也是为什么 o3 驱动的 deep research 效果惊人;

openai deep research

  • openai deep research 是 2025 年 2 月 3 号推出的,开始时是 200 美金/月的 pro 用户独享。pro 用户独占使用 3 周后,openai 把这个功能普及到 plus 用户,后续会普及到免费用户
  • deep research 发布后,由于是pro独占,我思考了 5 分钟,然后升级到 200美金 pro 会员。今天,使用了接近一个月后,我可以这么说:除非我娃没钱吃饭了,否则我会一直用pro(我自己没钱吃饭也会开pro);
  • 使用 chatgpt pro 的难度不低,不是200 美金问题(舍不得在“软件”上花钱的人,在其他地方花钱可能很豪气),而是视角问题(到底是软件?是工具?还是待你整合到工作流、为你创造价值、甚至金钱价值的智能体?),以及网络技术问题(openai 无良降智);
  • 使用 pro,需要极高的 agency(能动性):要有与openai斗智斗勇永不妥协的能力和意愿,要心态开放到至少开一个月试试智能时代全新工作学习体验;
  • pro用户每月限额 120 次,plus 用户每月 10 次,免费用户每月 2 次(暂估);
  • pro、plus和免费用户使用的 deep research 功能是一样的,只有限额的次数区别,没有性能区别
  • 每月限额并非以自然月份划分,而是以你升级会员的具体日期划分;
  • openai deep research的底层模型是尚未发布的满血版 o3,是针对互联网浏览特别微调的一个特殊版本;
  • 我的 deep research 的总结是:o3 reasoning model + search = deep research magic。与常规的 ai 搜索不同,deep research 的重点是深度,而非时效。你提出研究需求,deep research 会帮你把互联网翻个底朝天,而且吃透这些材料,为你私人定制研究报告。
  • 口诀:快问快答,用ai搜索;系统调研,用 deep research;
  • 我把 ai 搜索分为三个层级。L1 是 gpt-4o+search,搜索信息、综合多个信息源内容,给出一个整体回答;level 2 o3-mini+search,加上了推理能力,如果问题是需要思考的,需要多步骤的推理过程,最终给出一个权衡、分析后的结果,就用o3-mini;level 3 o3+deep research,难度提高到研究级别,输出结果为上万字的研究报告;
  • 换一个时间角度:如果一个问题是人工用几分钟可以解决的,用gpt-4o+search 就够了;如果一个问题是人工用几十分钟可以解决的,用o3-mini+search;如果一个问题是人工用几个小时、甚至几天才能解决的,用 deep research;
  • 信息来源上,deep research 可访问所有公开网页,包括网上的图片、pdf、文档,也支持你上传自己本地的图片、文档;

how

  • 既然限额是20或120次/月,那么,怎么就算“一次”?只要有研究进度条开始走动,就正式启动了deep research阶段,算一次研究;
  • 一次deep research流程分为两个阶段:对齐需求阶段,正式研究阶段;
  • 你提出研究需求,chatgpt 会重述它的理解,并针对不明确、表达模糊、你没想到的地方提出问题(clarifying questions),你需要一一确认;这个“对齐需求阶段”可能会重复一轮或多轮;
  • 可惜的事:即使不对比研究阶段,只是需求对齐阶段,人类往往就和 deep research 这样的 ai 拉开了差距;
  • 对齐需求阶段使用的不是 o3 模型,而是你在 model picker(模型选项卡)里面选择的模型;一般情况下,建议你选择 o1 模型,其次是 gpt-4o 模型;实际差异不大,因为正式研究都是o3 模型,而在理解需求这种简单任务上区别不大;
  • 你可以在提需求时上传自己的资料:word、PDF、md、图片,作为deep research 的参考材料;
  • 正式研究开始后,一般耗时 5~30 分钟,长度根据任务难度而变化。我目前研究时长最长的,是让 deep research 用一个报告解读芒格 100 模型,耗时 36 分钟,报告 5.7 万字,质量惊人;
  • 对 deep research 会话中,页面右侧有一个类似 CoT 的侧边栏,展示了本次研究的全部信息源、以及具体的分步骤研究过程。就好像你站在一个真人研究员身后看他做研究:思考——搜索——阅读——思考——搜索……
  • deep research 本质是 agent,deep research 任务是异步任务(对比之下,chat 是同步活动);你交代完之后,模型开始干活,你该干嘛干嘛,网页可以关掉,app 可以退出,研究在服务器远程运行,完成后会推送给你;
  • 报告生成后,你可以在原始对话中继续提出新的研究需求,模型会保持对之前研究的记忆,但本质上是一次新的研究(不会在原始报告上修改,会重新生成新的研究报告);
  • 研究报告除了文字之外,还会插入表格、图片、图表等促进理解的内容形式;未来,你会看到AI 自动生成的数据可视化、示意图等;
  • deep research 对参考文献的引用,精确到“行”。点击报告内的参考文献链接,原始网页上实际被模型做了高光标记。目前受限于浏览器,一般人看不到这个精确引用而已;
  • deep research 精确引用这一点,在论文写作等场合堪称大杀器;
  • openai 官方一再强调,即使 o3 模型很强,但 deep research 仍然可能有幻觉,因为模型目前不会主动去辨别网络上信息源的真伪,仍然受到“garbage in, garbage out”法则的制约;
  • 但是,主动辨别信息源质量高低、信息真伪,对推理模型来讲这本身不难(truth-grounding,事实接地技术),会在功能迭代中解决;
  • 正因为如此,你可能需要限定模型搜索使用的语言和资料范围:只有英文关键词搜索,只采纳英文资料。如果这个主题是国际范围有关注的,你应该这么做;
  • 目前的一大局限是无法接入付费资源(数据库、学术期刊)和私人知识库等非公开信息,但这可以解决;
  • 但是,如果你研究的主题只有中文资料,你或许应该限定模型只用中文关键词搜索,只采纳中文资料;
  • 研究报告数万字,直接在 chatgpt 页面阅读体验并非最好,无法高光划线,无法记笔记。最简单的方式是剪藏到 readwise reader 这样的阅读器软件,另一种方式是使用“chatgpt to markdown”chrome 插件导出为 md 文档,然后用 typora 转换为任意格式,例如可以导入微信读书 app 的 epub;
  • 我做了不少 deep research 测试,我的结论是研究报告的质量(内容丰富度、研究广度、信息质量、报告结构和语言清晰、参考文献等)超越了 99% 的人类产出,有人调研行业专家的反馈是每份报告让专家亲自来做的话耗时至少 10 小时,但这个数字可能保守了;我认为更接近的表述是 “就像有一个专业研究员为你工作了一周,然后写出完整分析报告”;
  • 相对于人类产出的传统知识媒介(文章、书籍、podcast 和视频),deep research 报告的信息密度、结构化程度、质量、丰富度、个性化程度,都碾压传统媒介一个数量级;一个顺理成章的结论:多读 deep research 报告,尽可能多读;
  • 举个例子,我昨天做了一次 deep research,发现它在一个主题的研究质量上竟然比 steven pinker 在《理性》那本书里面同主题内容的质量还高。不是 steven pinker 不行,而是他也是人,人类认知的局限性导致他也看不到只有 deep research 才看到的东西;
  • deep research 的一个典型应用场景:针对书籍生成导读报告;不取代原书整本书阅读,但绝对会让你更快更好地读透那些值得阅读 5678 遍的好书;
  • 从今以后,读完任何一本值得读的书,都要 deep research 一下!20 万字的一本书,假设阅读 6 小时(每天 1 小时一周读完),然后 deep research 一下,用半天研究阅读报告,整理 logseq 笔记,然后再和chatgpt 多轮对话…… 10个小时的效果,可能抵得上以前几十甚至上百个小时……满打满算,生命被延长了一大截;
  • 我在书籍解读上的测试,使用英文信息源 vs 中文信息源,原理上 garbage in garbage out, 结果上“差之毫厘,谬以千里”。以 《百年孤独》 深度研究报告为实例,同样的 prompt,同样的 o3 模型,同样的研究主题,只有一个区别:一次研究指定全部用英文信息源,另一次研究指定全部用中文信息源,其中一个不忍卒读;
  • deep research 运行在人类认知能力金字塔的信息综合层面:不需要创造力,不需要创新,不需要创意写作,就是非常朴实地、把有价值的信息找出来,全部读完,然后用结构化、清晰有序地方式把海量高价值信息整合成一篇高质量研究报告;
我基于benjamin bloom理论的升级改造
我基于benjamin bloom理论的升级改造
  • 这件事难度不高,从“信息综合”的要求层次来讲,按理说研究生水平的人就能干;但是,充分展示了当 AI 达到一个智力水平后,发挥出人类无法企及的信息获取、加工处理等算力优势时,会有多么恐怖。从这个层面会看到,deep research 只要在信息综合层面超过一个临界点,就会让人类同等层级的智力劳动(达不到创造级别的)价值暴跌;
  • deep research 的 system prompt 其实很简单,只有两个工具:browser 浏览器和 Python。browser 只做三件事:搜索、阅读、引用。Python 只做数据处理、表格呈现。但是,当底层模型的语言能录与逻辑推理能力足够强大时(如 o3),只需要极简的认知活动(搜索-阅读-引用,不需要显式定义复杂的主题研究流程),就能制造人类无法企及的出色结果;
  • deep research 的威力发挥,需要充分运用你的想象力,以及你在自身领域的专业知识。发现随着想象力的打开,一手经验的积累,deep research 的强大变得越来越显著;
  • 19名领域专家对 openai 和 google deep research 报告的评价结果:有 7 人(37%) 认为 openai deep research 达到了“经验丰富的专业人士”水平;有 10 人(52%) 认为 openai deep research 产出的报告至少需要花费自己 10 小时以上才能完成;

how good

  • deep research, is the new search。 deep research,会和 google 一样,从一个名词变成一个动词:“有问题?deep research 一下!”。背后的本质,是最优质的智能成为一种廉价、人人唾手可得的资源(智能时代的本质);
  • deep research,作为 ai agent 的杀手级应用,是直接提供产出,直接对标人类生产力和价值创造活动,是普通人应当战略重视、充分掌握的最强生产力技术。这也是 openai 首次在 blog 里面用预期经济价值、人类专家工时来衡量新功能,这个改变很说明问题;
  • openai在agent方面的愿景是打造 “超级助理”,能胜任人类专家才能完成的分析研究工作。很有可能这件事在2025年底就会发生(勿谓言之不预);
  • 所以,每天,deep research一下;每天,阅读一份 deep research 报告或同主题内容(例如本文)。

通过这篇文章,我把自己脑子里关于 deep research 的知识和经验全部敲出来了。

肯定有没想到的地方,欢迎你在评论区提问,在问答中我们来补充完善,让这篇文章帮助到更多的人。


原文链接