51前朋友邀请做分享嘉宾。近期文章写得多,也有一些心得,想着可以聊聊。
完全新写内容太耗时间,刚好话题跟 Agent 相关。转念一想,这不就是个测试 Agent 干活的真实场景吗?那就来吧。

规划
先想清楚实现路径:
- 我本地有历史文章,分布在 PC 的不同目录
- Hermes 在局域网的 MacBook Pro 上,局域网有 NAS
- ChatGPT Image V2 正火(前面测了100多组 prompt 的文章还没发)
资料够了。剩下的问题是 PPT 的提纲和分享定位,我的想法有几个点:
- 不想只推荐某个工具,以前文章也说过,别追工具
- 客观展示工具的优势和问题,上手 AI 学习要用低摩擦的方式
- Agent 和 LLM 分不开,用好缺一不可
确定了分享提纲:以 Hermes Agent 为开头,讲如何低摩擦上手,把最影响效果的几个大坑讲出来——甚至是所有 AI 通用的问题。而且都是实际使用中必须面对和解决的,不是主流论调,是自己的实践经验。
准备实施
明天就要出差了,电脑不想带。我和电脑们的接口只有一个:Hermes。考验它能不能真的当生产力用。
素材准备
- 让 Hermes 读到我历史文章:告诉它本地 PC 的共享目录和 IP,让它挂载我的文章目录,指定读哪些
- 让 Hermes 挂载 NAS 目录——这样远程看内容更方便,不用每次让它发给我(微信发图片也不太方便),所有生产过程中的内容随时调用
- 让 Hermes 调用 ChatGPT Image V2 生成每页 PPT 的图片:
- Image V2 有很强的复杂图片生成能力
- 可编辑的 PPT 主要是因为要调整。但如果编辑成本低到一定程度,我可能根本不需要编辑(后面证明完全可行)
- 这次分享不需要华丽动画
测试关键步骤可行性
主要需要确认两件事:
- ChatGPT Image V2 能不能生成风格统一的 PPT 图片
- Hermes 能不能通过 CDP 直接操作 ChatGPT 网页,可控地完成整个流程
ChatGPT Image V2 生成稳定风格的 PPT 图片
先简单试了封面和内容页,完全没问题。剩下就是风格问题(不过对我这次任务来说,不重要)。

微调了一下 PPT 风格,丰俭由人。然后根据这个风格,结合 Image V2 的特性,让 ChatGPT 帮我生成了一个 prompt 模板。后面要用。

有个发现:Image V2 连续生成时会自主参考之前生成的系列图的风格和元素。“风格统一”的解法非常简单——整个 PPT 的图片都在一个对话中生成就行。

OK,可行性确认了一个。
Hermes 直接操作 ChatGPT 网页的可控性
OpenClaw 的 Chrome CDP 基本没法用。但 CDP 相比其他操作 Chrome 的方案,确实更灵活。之前也试过 AI 视觉方案:通过 API 获得屏幕截图,AI 识别内容给出操作建议,Agent 执行返回结果再循环……慢是肯定的,问题是不准。
百折不挠,决定再试试 Hermes 的 Chrome CDP。之前用它做简单操作还行,这次需要更复杂:
- 打开 Chrome
- 如果 ChatGPT 没有登录(防止出门后意外登出),使用 Gmail 登录
- 登录后选择我的公司工作空间
- 生成图片时选择 ChatGPT 的 Pro 模型,获得更好的生成效果
- 发送 PPT 总控 prompt → 再发送单页 prompt
- 等图片生成完成后下载
- 重复单页生成,直到全部完成
能行!Hermes 还是 6。

完整流程
告诉 Hermes 历史文章在哪个目录
分析 PPT 提纲和主线,让 Hermes 去读相关文章
文章比较多,我的方法是让 Hermes 派几个子 agent 去读所有文章,把每篇的核心意图和梗概反馈回来,然后由它总体编写。涉及到细节的部分,它会自己再去读相关文章。这样防止还没开始就把上下文撑爆了。
这时候我们获得了整个 PPT 的文稿:

让 Hermes 生成每页 PPT 的 prompt
- 把前面 ChatGPT 写的图片生成 prompt 模板发给 Hermes,让它用这个模板把每一页 PPT 写成完整的 prompt

- Hermes 通过 Chrome CDP 操作 ChatGPT Image V2 生成所有 PPT 图片
这个步骤还挺通用的,所以让它做成了一个 skill,以后备用。skill 比较简单,就是一个描述文件加配套的 Python 操作脚本。

把所有 PPT 图片打包成 PPTX 并添加演讲者注释

用 Python 扫描页面里的假二维码,替换成真实的
ChatGPT Image V2 生成的图片里如果出现二维码,那个是假的,不能用。可以让 Hermes 生成一个真实的二维码替换上去。
这里有个坑:替换二维码不要用视觉模型定位,视觉模型的偏差大到离谱。
我的 PPT 是暗色系,二维码都有白边。直接用 Python 扫描像素里的白色框,就能精确识别位置和大小。识别到以后,把真实二维码缩放到对应尺寸覆盖上去就行。

整个流程完成后,如果后续需要调整细节——比如某页内容要改——Hermes 知道改完以后要重新跑后续流程,直接给你输出最新版。所以如果能到这个程度,PPT 的可编辑我们真的还需要吗?

我做过的调整就是:看到哪里要改,直接对着手机语音说哪一页改成什么内容,全部修改就完成了。
