Claude 秒变 GPT o1?爆火的“神级”提示词,真的那么神吗? 实测对比

1- Claude 秒变 GPT o1?爆火的 " 神级 " 提示词,真的神吗

这两天突然爆火一个 " 神级 "PROMPT,据说用了这个提示词之后,就能让 Claude 3.5 Sonnet 达到 GPT-o1 水准,这事不但在 Twitter 上成了热门话题,也有观众朋友私信问我,神级 PROMPT 是不是这么神。 好,口说无凭,今天咱们就进行一次实测对比,用同一个任务,做三次,
分别是:

  • 直接丢给 Claude 回答
  • 让神级 PROMPT 加持的 Claude 回答
  • 让 GPT-o1 回答

YouTube 视频请 点击链接 观看。

2- 首先,如何安装使用神级提示词

我们来到作者的 Github,这个项目的名称叫做 Thinking Claude,链接如下:

https://github.com/richards199999/Thinking-Claude/tree/main

作者叫做 Richard,据说是高中生,确实很厉害很佩服,这个项目已经破 5 千颗星了。

首先是作者的一个快速提醒,我猜这是在网上大热之后,Richard 特地添加的说明,提醒中说到:Thinking Claude 并不是为了基准测试或在数学等方面取得巨大飞跃,因为这些是由基础模型(新的克劳德 -3.5 索尼特)预先确定的。我只想探索我们能通过克劳德的 " 深度思维 " 达到多远。从这里就能看得出来 Richard 的谦逊,非常好。

|1045

使用 Thinking Claude 有两种方式,一个是直接拷贝提示词到 Claude 的 Project 项目里用,一个是可以用 Richard 开发的浏览器插件,我们就先简单滴直接拷贝提示词来用。

按照说明,通过以下几个步骤就可以使用了:

  1. 复制 model_instructions 文件夹中的最新版本
  2. Claude.ai 中启动一个新项目
  3. 将说明粘贴到自定义说明部分
  4. 克劳德现在将遵循思维协议进行所有后续互动

3- 对比测试

测试的问题呢,是把 MKBHD 关于如何做好 YouTube 的一段 54 分钟视频的脚本,整理成一个脑图。

我们把字幕下载回来并转换成 TXT 文本文件,至于如何简单滴把 SRT 转换为 TXT,可以看我的这期视频:

或者,直接使用 ChatGPT 写的 Shell 脚本:

grep -vE '^[0-9]+$|^[0-9]{2}:[0-9]{2}:[0-9]{2},[0-9]{3}' MKBHD.srt | sed '/^$/d' > MKBHD.txt

然后使用一个简单提示:

请根据以下文本内容,创建一个清晰、逻辑关系准确且易于理解的 Markdown 格式的脑图,输出中文

然后把生成的结果导入到脑图软件中显示。

3.1- 首先,直接让 Claude 回答

结果如下:

3.2- 接下来,使用 Thinking Claude

结果如下:

3.3- GPT-o1 测试

结果如下:

那么,三个结果的对比效果如何呢?大家可以自己对比一下,得出你自己的结论。

那么,我的结论是什么呢?

4- 三个结论

4.1- 用了神级提示词,Claude 是否能达到 GPT-o1 的水准了?

  • 首先,Claude 3.5 Sonnet 是 Claude 的中级模型,与 GPT-o1 对标的应该是 Claude 的高级模型 Opus,如果一个提示词就能让 Sonnet 达到 o1 的水准,我们是不是可以向 OpenAI 的老板 Altman 喊话了: " 别花钱训练模型了,干点正事研究下提示词吧 ",这合理吗?

4.2- 提示词是否能够提升模型表现?

  • 是的,好的提示词确实能够提升模型表现,但是不存在一个万能模版。给我一本详细的菜谱,可以让我炒的菜好吃一点,但是不可能我就成大厨了,没有银弹!没有银弹,解决问题依然需要持续学习和迭代

4.3- 神级提示词是否值得学习?

  • 是的,这位高中同学写的提示词非常值得学习。有哪些值得学习的地方?我们同样可以分别让 Thinking Claude 和 o1 给出答案。

以下是一个详细的 PROMPT,用于提升大语言模型 Claude 的回答质量,请分析这个 PROMPT 的优点、有哪些值得 AI 爱好者们学习的地方以及 AI 爱好者该如何通过学习此 PROMPT 来提高自己写 PROMPT 的能力,使用中文输出为 Markdown 格式的脑图。

5- PROMPT 分析对比

首先,是 Thinking Claude 的输出转换为脑图的结果,由于输出的 Markdown 结构并不完美,所以二级节点的内容在导入脑图之后,都变成了注释。屏幕截图如下,我点开了 " 核心特点分析结构设计 " 部分:

接下来是 GPT-o1 的输出结果,无论是从 PROMPT 遵从性,还是总结后的条理性来说,这个结果远超 Claude 的输出效果:

以上,就是本次测试结果。当任何一个事情成为流行之后,比如 AI,就会不可避免地出现各种杂音、充斥着各种碎片信息。这也是为什么说「信息的获取变得越来越容易,而信息的甄别将会成为一件成本高昂的事情」。