AI 实战2026年6月13日

出差前让Agent帮我做了整套PPT，全程没碰电脑

作者小虾子

51前朋友邀请做分享嘉宾。近期文章写得多，也有一些心得，想着可以聊聊。

完全新写内容太耗时间，刚好话题跟 Agent 相关。转念一想，这不就是个测试 Agent 干活的真实场景吗？那就来吧。

截屏2026-05-07 07.08.02

规划

先想清楚实现路径：

我本地有历史文章，分布在 PC 的不同目录
Hermes 在局域网的 MacBook Pro 上，局域网有 NAS
ChatGPT Image V2 正火（前面测了100多组 prompt 的文章还没发）

资料够了。剩下的问题是 PPT 的提纲和分享定位，我的想法有几个点：

不想只推荐某个工具，以前文章也说过，别追工具
客观展示工具的优势和问题，上手 AI 学习要用低摩擦的方式
Agent 和 LLM 分不开，用好缺一不可

确定了分享提纲：以 Hermes Agent 为开头，讲如何低摩擦上手，把最影响效果的几个大坑讲出来——甚至是所有 AI 通用的问题。而且都是实际使用中必须面对和解决的，不是主流论调，是自己的实践经验。

准备实施

明天就要出差了，电脑不想带。我和电脑们的接口只有一个：Hermes。考验它能不能真的当生产力用。

素材准备

让 Hermes 读到我历史文章：告诉它本地 PC 的共享目录和 IP，让它挂载我的文章目录，指定读哪些
让 Hermes 挂载 NAS 目录——这样远程看内容更方便，不用每次让它发给我（微信发图片也不太方便），所有生产过程中的内容随时调用
让 Hermes 调用 ChatGPT Image V2 生成每页 PPT 的图片：
1. Image V2 有很强的复杂图片生成能力
2. 可编辑的 PPT 主要是因为要调整。但如果编辑成本低到一定程度，我可能根本不需要编辑（后面证明完全可行）
3. 这次分享不需要华丽动画

测试关键步骤可行性

主要需要确认两件事：

ChatGPT Image V2 能不能生成风格统一的 PPT 图片
Hermes 能不能通过 CDP 直接操作 ChatGPT 网页，可控地完成整个流程

ChatGPT Image V2 生成稳定风格的 PPT 图片

先简单试了封面和内容页，完全没问题。剩下就是风格问题（不过对我这次任务来说，不重要）。

2026-05-07_064629

微调了一下 PPT 风格，丰俭由人。然后根据这个风格，结合 Image V2 的特性，让 ChatGPT 帮我生成了一个 prompt 模板。后面要用。

2026-05-07_064750

有个发现：Image V2 连续生成时会自主参考之前生成的系列图的风格和元素。“风格统一”的解法非常简单——整个 PPT 的图片都在一个对话中生成就行。

2026-05-07_064838

OK，可行性确认了一个。

Hermes 直接操作 ChatGPT 网页的可控性

OpenClaw 的 Chrome CDP 基本没法用。但 CDP 相比其他操作 Chrome 的方案，确实更灵活。之前也试过 AI 视觉方案：通过 API 获得屏幕截图，AI 识别内容给出操作建议，Agent 执行返回结果再循环……慢是肯定的，问题是不准。

百折不挠，决定再试试 Hermes 的 Chrome CDP。之前用它做简单操作还行，这次需要更复杂：

打开 Chrome
如果 ChatGPT 没有登录（防止出门后意外登出），使用 Gmail 登录
登录后选择我的公司工作空间
生成图片时选择 ChatGPT 的 Pro 模型，获得更好的生成效果
发送 PPT 总控 prompt → 再发送单页 prompt
等图片生成完成后下载
重复单页生成，直到全部完成

能行！Hermes 还是 6。

2026-05-07_065545

完整流程

告诉 Hermes 历史文章在哪个目录

分析 PPT 提纲和主线，让 Hermes 去读相关文章

文章比较多，我的方法是让 Hermes 派几个子 agent 去读所有文章，把每篇的核心意图和梗概反馈回来，然后由它总体编写。涉及到细节的部分，它会自己再去读相关文章。这样防止还没开始就把上下文撑爆了。

这时候我们获得了整个 PPT 的文稿：

截屏2026-05-07 07.06.19

让 Hermes 生成每页 PPT 的 prompt

把前面 ChatGPT 写的图片生成 prompt 模板发给 Hermes，让它用这个模板把每一页 PPT 写成完整的 prompt
Hermes 通过 Chrome CDP 操作 ChatGPT Image V2 生成所有 PPT 图片

这个步骤还挺通用的，所以让它做成了一个 skill，以后备用。skill 比较简单，就是一个描述文件加配套的 Python 操作脚本。

截屏2026-05-07 07.02.17

把所有 PPT 图片打包成 PPTX 并添加演讲者注释

截屏2026-05-07 07.03.11

用 Python 扫描页面里的假二维码，替换成真实的

ChatGPT Image V2 生成的图片里如果出现二维码，那个是假的，不能用。可以让 Hermes 生成一个真实的二维码替换上去。

这里有个坑：替换二维码不要用视觉模型定位，视觉模型的偏差大到离谱。

我的 PPT 是暗色系，二维码都有白边。直接用 Python 扫描像素里的白色框，就能精确识别位置和大小。识别到以后，把真实二维码缩放到对应尺寸覆盖上去就行。

截屏2026-05-07 07.04.09

整个流程完成后，如果后续需要调整细节——比如某页内容要改——Hermes 知道改完以后要重新跑后续流程，直接给你输出最新版。所以如果能到这个程度，PPT 的可编辑我们真的还需要吗？

2026-05-07_065413

我做过的调整就是：看到哪里要改，直接对着手机语音说哪一页改成什么内容，全部修改就完成了。

2026-05-07_065302

原文发布于 AiCC，转载或引用请注明出处