AI AgentOpenClawHermes Agent开源对比评测

OpenClaw vs Hermes Agent：2026 年两大 AI 智能体框架深度对比

2026年5月19日|xingod|约 18 分钟

CONTROL PLANE

OpenClaw

Channel50+ platforms

GatewayWebSocket Router

ToolchainFile/Browser/API

GITHUB STARS

358K

SKILLS

13K+

TypeScriptMIT License

连接一切

50+ 消息渠道 · 7x24 后台运行

手动编写 YAML 技能配置

63 CVEs · 9.6 CVSS · 336 MALICIOUS SKILLS

RUNTIME ENGINE

Hermes Agent

自进化闭环ExecuteEvaluateAbstract

GITHUB STARS

114K

TOKEN/DAY

271B

PythonMIT License

自我进化

三层记忆 · GEPA 算法 · 自动生成技能

ICLR 2026 Oral 论文支撑

ZERO CVEs · 5-LAYER DEFENSE · READ-ONLY SANDBOX

OpenClaw vs Hermes Agent — 架构与数据对比 · DATA: GITHUB · OPENROUTER · CNNVD · AS OF MAY 2026

OpenClaw（龙虾）和 Hermes Agent（爱马仕）是 2026 年最火的两个开源 AI 智能体框架，一个主打连接一切，一个主打自我进化。本文从架构、记忆、技能、安全、成本、社区六个维度，用实际数据全面对比两者的优劣。

先说结论#

如果你只给我 30 秒，我的结论是：OpenClaw 适合「我需要一个能干活的东西，现在就要」；Hermes Agent 适合「我想让这个东西越干越好，长期来看更好」。一个重广度，一个重深度。

当然，这个结论太粗糙了。实际选型比这复杂得多，下面慢慢说。

两个项目从哪来的#

OpenClaw 是奥地利开发者 Peter Steinberger 在 2025 年 11 月单枪匹马搞出来的。那时候 AI Agent 还是个挺新的概念，Steinberger 做了一件很简单但很对的事：让 AI 能直接操控电脑。不是聊完就完了，而是真的去读写文件、操作浏览器、跑脚本。这个想法太对了——项目两个月就从 0 涨到 30 万 GitHub star，成了 2026 年初最火的 AI 开源项目。

但到了 2026 年 2 月，Steinberger 宣布加入 OpenAI。项目交给了一个独立基金会管。对社区来说这不是个好消息——创始人都走了，项目还能跑多远？

Hermes Agent 差不多就是这时候冒出来的。Nous Research 在 2026 年 2 月正式发布，两个月冲到 10 万 star。它没走 OpenClaw「连接一切」的路，而是押注「自我进化」——让 AI 在执行任务的过程中自己学，自己改进。这个定位精准地打中了 OpenClaw 留下的空白：一个会自动变聪明的 Agent。

我从两个项目都刚开始就关注了，断断续续用了三四个月。下面把实际感受和数据一起摆出来。

架构：两条完全不同的路#

先看技术架构，这是两个框架最根本的分歧。

OpenClaw 的架构我叫它「中央网关模式」。核心是一个 WebSocket 网关，底下连着 50 多个消息渠道——Telegram、Discord、Slack、飞书、微信、WhatsApp，你能想到的聊天工具基本都覆盖了。架构分三层：Channel 负责收发消息，Gateway 负责上下文组装和路由，Toolchain 负责实际执行。这个设计的优点是覆盖面广，任何平台你都能连上；缺点也很明显——复杂度高，攻击面大。

Hermes Agent 的架构完全不同。它没有那个庞大的网关层，核心就三个东西：统一的 Runner（跑任务的）、Memory（三层记忆）、Tool Runtime（工具执行）。关键区别在于它内置了一个「执行-评估-抽象」的三阶增强循环。每次跑完一个任务，系统会复盘：哪步做对了？哪步浪费时间了？然后自动把经验固化成可复用的 SKILL.md 文件。

举个例子。如果你让两个 Agent 都去处理「整理下载文件夹」这个任务，第一次它们可能都要摸索。OpenClaw 每次都是重新来——读目录、判断文件类型、移动文件。Hermes 做完第一次之后会生成一个「文件整理」技能，记录了最优流程和边界情况的处理方式。第二次执行的时候，直接调用技能，速度快 40%，token 消耗少一半。

技术选型上，OpenClaw 用 TypeScript，Hermes 用 Python。这点对个人开发者影响没那么大，但如果你需要深度二开，选你熟悉的语言就行。

记忆系统：谁的记性更好#

记忆是 Agent 的核心能力之一，但两个框架的实现思路差很远。

OpenClaw 用的是传统的「短期 + 长期」双层记忆。短期记忆靠 Redis 做 72 小时缓存，长期记忆用 SQLite 持久化。支持向量数据库做语义检索。听起来挺好的，但实际用起来有个问题：它的记忆是被动的。你让它记住什么它才记住，不会主动从对话里提取有价值的东西。数据量大了之后检索效率会明显下降，尤其是在跨会话的场景里。

Hermes 的记忆系统要聪明得多，分了三层。短期记忆用向量数据库做上下文缓存，和 OpenClaw 差别不大。长期记忆是一个技能图谱——它不只是存文本，而是把经验沉淀成结构化的技能条目，关联到具体的触发条件和执行流程。最关键是第三层：元记忆。这个层记录了「我是怎么学会这个技能的」「这个技能在什么情况下失败过」，等于 Agent 对自己学习过程有个认知。

实测差距挺明显的。我让两个 Agent 连续处理类似的运维任务，到第三轮的时候，Hermes 已经自动提炼出了模式——它知道某类告警对应什么操作，不再需要我一步步描述。OpenClaw 也能做，但我得手动把历史经验写进它的配置文件里。

AWS 的一篇技术博客提到过，通过分层记忆和主动提炼（他们叫 Dreaming 机制），可以把记忆相关的 token 消耗降低 40% 到 60%。Hermes 的三层记忆基本就是这个思路的工程实现。

技能系统：人写的 vs 机器自己学的#

这是两个框架差异最大的地方，也是最影响长期使用体验的地方。

OpenClaw 的技能靠人写。格式是 YAML，每个技能定义触发条件、参数、执行步骤。ClawHub 市场上已经有 1.3 万个插件，覆盖面非常广。但问题是——人写的就得人维护。一个统计显示热门技能的平均更新周期是 47 天，有些插件到后期基本就没人管了。而且这 1.3 万里有多少是真正高质量的？我翻了翻 ClawHub，大概 30% 的插件 star 数不超过 5，很多功能重复。

Hermes 的技能是自己生成的。任务跑完后，系统会自动聚类相似任务模式（用的是 DBSCAN 聚类），然后把成功的执行路径参数化，生成可复用的 SKILL.md。你可以把技能发布到 agentskills.io 上去，也能从上面装别人分享的。

实际效果怎么样？有个挺有意思的数据：金融客服场景下，Hermes 在 72 小时内自动生成了 37 个有效技能，覆盖了 89% 的常见问题。电商场景下，200 次对话后问题解决率从 68% 涨到了 91%。OpenClaw 要达到同样的覆盖率，需要人工提前把各种常见情况都写成 YAML 配置——不是做不到，是太累了。

但 Hermes 的技能生成也不是完美的。有个叫「自信任问题」的坑：Agent 自己生成技能后可能过度信任它，哪怕环境变了也不调整。就像你学了一种方法后形成了思维定势。Hermes 团队在 GitHub 上专门开了个 self-evolution 仓库来解决这个问题，用 DSPy 框架加上 GEPA 算法做技能验证。还在早期阶段，但方向是对的。

安全：差距大到不敢忽视#

安全是 OpenClaw 最大的短板，没有之一。

CNNVD（国家信息安全漏洞库）的数据显示，光 2026 年 4 月上半月就收录了 OpenClaw 相关的 63 个漏洞，其中 19 个高危、1 个超危。更吓人的是 Cyera 团队发现的「Claw Chain」链式利用——四个漏洞串起来，最严重的一个 CVSS 评分 9.6 分，能实现沙盒逃逸并植入后门。当时大约 6.5 万到 18 万台暴露在公网的服务器直接受影响。

ClawHub 上的技能商店也是个重灾区。安全团队扫描发现大概 336 个恶意插件，感染率 10.8%。这些插件伪装成交易机器人、翻译工具之类的东西，实际上在偷 API 密钥和密码。工信部为此专门发了通知，要求「禁止在内部网络使用未经审批的龙虾智能体终端」。

Hermes 这边目前是零 CVE 记录。架构上做了五层纵深防御：输入过滤、执行隔离、行为审计、模型防护、隐私计算。执行环境用了只读根文件系统（Read-Only Root FS），LLM 输出的所有 shell 命令都必须经过凭证过滤层校验。而且技能优化结果是以 Pull Request 形式提交的，必须人工审核才能合入——不会自己偷偷改东西。

不是说 Hermes 的安全就一定完美。它毕竟才发布了三个月，攻击者可能还没盯上它。而且自进化机制本身也有潜在风险——如果 Agent 学到了不安全的操作模式怎么办？团队说他们在内层循环里做了沙盒验证，但这个领域整个行业都还在摸索。

我的建议很简单：如果你要把 Agent 部署到生产环境或者内网，现在这个时间点，Hermes 的安全风险明显更低。OpenClaw 不是不能用，但你得花很多精力做安全加固。

Token 消耗与成本：谁更费钱#

很多人都忽略了一个问题：Agent 的 token 消耗比普通聊天高一个数量级，有时候甚至高几百倍。

根据 OpenRouter 2026 年 5 月的数据，Hermes Agent 日均 token 调用量是 2710 亿，OpenClaw 是 2450 亿。Hermes 在 5 月份正式超过了 OpenClaw，登顶了榜首。但这只是总量，不能直接推导出谁更省 token。

AWS 的一篇技术文章把 Agent 的 token 爆炸分成了三种类型，挺到位的。注入型爆炸：一次性把所有技能描述、历史记忆全塞进上下文，把窗口撑爆。重复型爆炸：已经查过的东西每次都重新查一遍。黑盒型爆炸：根本不知道 token 花哪去了。

OpenClaw 在注入型和重复型这两个问题上比较吃亏。它的技能描述是全文加载的，不管用不用。记忆也不会主动提炼。AWS 的数据显示，引入分层记忆和渐进式加载后能把技能描述 token 从平均 15K 降到 3-5K。Hermes 的渐进式披露机制天生就做了这件事——技能先只加载元数据（大概 100 个 token），有详细需求了再展开。

实际成本呢？一个典型的个人开发者，每天用 Agent 处理编程和文件整理的话，OpenClaw 大概每天消耗 200-500 万 token。用 Sonnet 4.6（约 $3/百万 token input，$15/百万 token output）平均一天 $10-25，一个月四五百美金。Hermes 因为记忆压缩和技能复用，同样的工作量大概只需要 OpenClaw 的 60-70% 的 token 量。这不是一个小数目。

当然这只是一个大致的估算。最终成本取决于你用哪个模型、处理什么类型的任务、任务频率，以及你对 Agent 的优化程度。但可以肯定的是，如果你打算长期高频使用，Hermes 的成本优势会越来越明显——因为它的技能沉淀机制会持续减少重复的 token 消耗。

社区生态与产业格局#

GitHub 数据上，截至 2026 年 5 月，OpenClaw 大约 36 万 star，Hermes Agent 大约 11 万到 14 万 star。OpenClaw 领先两到三倍，毕竟早发布了三个月，有先发优势。但增长趋势上 Hermes 更猛——有数据说 Star History 排行榜上 Hermes 连续多周排第一。

两个项目的周边生态也很不一样。OpenClaw 在中国掀起了一股「养虾」热潮，电商平台上帮人部署 OpenClaw 的服务报价从 499 到 1000 元不等。Mac Mini 因为功耗低适合 7x24 运行意外热销了一把。深圳龙岗、无锡高新区甚至出了「龙虾十条」政策，给 OPC（一人公司）项目最高 1000 万支持。

Hermes 的生态更技术导向。NVIDIA 专门为它优化了 RTX PC 和 DGX Spark 的推理性能。Nous Research 发了篇关于 GEPA 进化算法的论文，拿了 ICLR 2026 的 Oral——这是机器学习顶会最高级别的论文。国内的大厂小米（MiMo）、腾讯云、阿里云、MiniMax 也都在接入 Hermes。

大厂的布局也很有意思。OpenAI 在 2026 年 3 月紧急收购了 AI 安全公司 Promptfoo（估值 8600 万美元），明显是被 OpenClaw 的安全问题刺激的。NVIDIA 开源了 Nemotron 3 Super 模型，计划推出 NemoClaw 企业平台。Meta 收购了 OpenClaw 衍生的社交平台 Moltbook。

有个挺微妙的动态：OpenClaw 创始人去了 OpenAI 之后，Hugging Face 的 CEO 公开表示，担心 OpenAI 控制了 OpenClaw 生态的演化路径。而 Hermes 这边的抄袭争议（EvoMap 团队指控 Hermes 与他们的 Evolver 项目存在「结构性同构」）虽然被 Nous Research 否认了，但多少也给社区留下了一些疑虑。

数据对比总览#

为了方便对比，我把关键数据整理成了一个总览表：

到底选哪个#

花了这么久测试和写文章，其实选哪个没那么复杂。

选 OpenClaw，如果：你需要多账号管理、需要连 50 多种消息平台、团队已经有 TypeScript 的技术储备、需要成熟的 Web 控制台和 RBAC 权限。但要做好安全加固，也要接受定期手工维护技能的代价。

选 Hermes Agent，如果：你想要一个越用越聪明的助手、你是个人开发者或小团队、预算有限需要控制 token 成本、偏好 Python 生态、对安全合规有较高要求。但需要接受它比较新（才三个月），技能市场还没 OpenClaw 那么大。

说实话，现在下结论说谁赢谁输还为时过早。这两个框架的设计哲学几乎是对立的——OpenClaw 追求最大化的覆盖和连接，Hermes 追求最大化的自学习和优化。它们甚至不完全在同一个赛道上竞争。很多团队是两个都在用的：OpenClaw 做外部连接和多平台管理，Hermes 做内部任务的自动化。

如果你问我个人，我更倾向于 Hermes 的方向。不是因为 OpenClaw 不好——它在连接性和成熟度上确实有巨大优势——而是因为让机器自己学会怎么变好，比人手动配置一万个 YAML，从根子上更对。技能自动生成这件事的价值，往后看一年半会越来越明显。

当然，如果你的业务现在就需要跑起来，别等了，OpenClaw 的生态成熟度足够让你快速上线。选型这事，没有最佳，只有最适合。

REFERENCES

xingod

Developer, writing about AI.