从个人提效到组织提效:Comate辅助构建自我进化的AI研发系统
2026.06.26 10:57浏览量:3简介:Comate辅助构建自我进化的AI研发系统

项目背景
本次介绍的团队做的产品叫AgentShield(灵盾)——百度内部AI 智能体安全防护产品。春节后OpenClaw生态爆发,团队用 0.5个产品、1个测试,三周内完成了从技术原型到大规模部署的全链路交付,以前同样的路径至少要一个季度。
灵盾为百度内部多个智能体提供安全防护能力,能快速适配各类智能体,确保百度内部智能体使用是安全可控的。
但产品进入持续迭代后,矛盾出现了:代码写得快了,需求交付并没有快多少。 编码只占研发链路的 20%,剩下 80% 的需求澄清、方案评审、测试验证、代码审查, 每个环节都还在等人。这就是本次实践的起点:AI让个人写代码快了十倍,但组织交付速度为什么没有同步提升?
个人AI 编码效率翻倍了,但组织需求交付效率没变。 这是团队过去半年最大的困惑。每个人都在用 Coding Agent,写代码快了十倍不止。但双周迭代还是双周迭代,需求从提出到上线的周期几乎没缩短。为什么?

AI 压缩了编码这一个环节。但其余每个环节都需要人来把关、确认、推进——需求要人澄清、方案要人评审、测试要人验证、Code Review要人审查。

编码只占 20%。 哪怕提速 10 倍,端到端交付也只缩短 18%。瓶颈不是”代码写得不够快”,而是每个环节都卡在等人。 阻塞点三个:流程要等人驱动流转、知识锁在个人脑子里、线上问题要人手动修。
所以,要把双周迭代压到天级迭代,不是让人写代码更快——而是给AI 搭一套完整的研发环境(Harness工程环境): 让它自己跑流程、自己积累经验、自己修问题。人只在关键节点确认。
团队的做法是:让这套环境具备自我进化能力。 Comate的Rules(编码规范自动约束)定义了AI的行为边界和编码标准;Skills提供了可复用的能力模块(如「知识进化」Skill、Code Review Skill、端到端测试Skill),让团队无需重复造轮子;Spec模式负责标准化技术方案输入。这些共同构建完整的Harness工程环境,让AI在受控的规则体系内自主完成流程驱动、经验积累、自我修复,从而将组织交付从双周迭代压缩到天级。
01 什么是自我进化
- 持续迭代——功能越做越多,但做事的方式没变。第一次踩的坑,第一百次新人还会踩。
- 持续进化——功能在做,做事的方式也在进步。第一次修某类 Bug 花两小时,第二次系统直接告诉你怎么改,因为第一次的经验已经被记住了。
Comate通过Spec模式规范化每次开发的技术方案输入,确保每次需求都有标准化的设计文档作为起点;通过Rules自动约束编码规范,确保团队代码风格和质量标准的一致性。通过Spec模式和Rules规范,做事的方法和标准在持续迭代,避免重复踩坑。
Comate产出「知识进化」Skill,Skill通过经验库自动沉淀每一次故障处理的完整上下文(根因、修复方案、验证结果),下次同类问题出现时直接推荐修复方案;此外,Skill通过Rules的晋升与降级机制(验证3次以上的经验自动晋升为团队规范,90天不引用的规范自动降级回经验),让系统在每一次开发中积累知识、优化行为,实现从”功能迭代”到”能力进化”的跃迁。

一句话总结:

两者相乘,才是进化。 整套系统的架构:一体两翼。

- 一体: 闭环验证引擎 + 经验累积引擎(底座)
- 左翼: 需求自动交付(从一句话到代码合入)
- 右翼: 线上自动修复(系统自愈能力)
以下内容均使用Comate构建自我进化DevOps Skill套件, 下面分别展开。
02 一体:闭环验证 + 经验累积
闭环验证
回到开头的问题——每个环节都卡在等人。团队的做法是:给每个环节设定可自动验证的通过条件,让 AI 代替人来做把关。
使用Comate生成负责不同分类和职责的Skills,协同代替人对代码进行全自动把关。例如,Skills中的Code Review Skill可自动执行代码审查,检查代码风格、潜在Bug和安全漏洞;质量保障Skill自动生成单元测试和端到端测试用例,验证功能正确性。

Comate生成的Skills及职责
不只是”验证代码对不对”,而是从需求到上线的全链路闭环。 把开发流程切分为 9个必经步骤,每步都有硬性门槛⬇️⬇️

每一步的通过条件都是可计算、可自动验证的,不依赖人的主观判断。失败不是”报错退出”,而是自动分析 → 自动修复 → 重新验证,最多5轮才升级人工。
9步的顺序不是随意排列的。其中步骤3-6是验证密度最高的区间,按成本从低到高分层,每一层都是下一层的门卫。
步骤3(Comate自动构建验证)、步骤4(Comate自动单测生成与执行)、步骤5(Comate 产出Code Review Skill自动执行代码审查)、步骤6(Comate 产出端到端测试Skill自动执行端到端测试)及全部9步均基于Comate的底层能力,在需求交付上实现全自动化。

构建失败了就不跑单测,单测没过就不做 Review,Review 有 Critical 就不跑端到端——只有通过了所有低成本验证的代码,才会进入最贵的端到端测试。
端到端测试的独特价值:人怎么用,AI 就怎么测。 不是跑 API 接口断言,而是模拟真实用户的操作方式。举个例子,测试”策略引擎”的完整链路(创建策略 → 确认生效 → 触发拦截),AI 读取的测试用例长这样:
## TC-POL-001 创建自定义策略
- Session 模式: 多轮
- Query: 创建策略:"QA测试策略",检测消息中包含"qa-test-token"关键词时拦截
- 命令: openclaw agent -m '<Query>' --json --timeout 120
- 预期: Agent 返回策略创建确认提示
- 验证点:
1. 响应内容包含确认提示 ← 控制台输出
2. 通用日志记录策略创建请求 ← grep "policy" logs/agent-shield-*.log
## TC-POL-002 确认策略创建
- Session 模式: 多轮(续用 TC-POL-001 的 sessionId)
- Query: 确认
- 命令: openclaw agent --session-id "<sessionId>" -m '确认' --json --timeout 120
- 预期: 策略创建成功
- 验证点:
1. 响应确认创建成功 ← 控制台输出
2. 策略文件已写入 ← cat user_policies.json | grep "QA测试策略"
3. 创建事件已记录 ← grep "policy" logs/agent-shield-audit-*.jsonl
## TC-POL-003 触发策略拦截
- Session 模式: 单轮(模拟另一个用户)
- Query: 请处理 qa-test-token 这个任务
- 命令: openclaw agent -m '<Query>' --json --timeout 120
- 预期: 消息被拦截
- 验证点:
1. 响应包含拦截提示 ← 控制台输出
2. 策略触发已记录 ← grep "policy_triggered" logs/agent-shield-*.log
3. 审计事件已记录 ← grep "PolicyEvent" logs/agent-shield-audit-*.jsonl
AI 读取的测试用例跟手工测试的思路完全一致:多轮对话模拟同一用户的连续操作,单轮模拟另一个用户的独立请求,两者组合验证完整生命周期。每个 case 的验证点查的位置不同、找的内容也不同——有的查控制台输出,有的查配置文件,有的查审计日志。执行者从人变成了 AI,但测试逻辑没有降级。
经验累积
闭环验证保证了”这一次不出错”。但更大的价值是——每次闭环产生的数据,怎么留下来?
到底累积什么样的经验
使用Comate进行一次完整的开发流程会自然产出六类可复用的团队资产——不是额外规划的,而是流程运转过程中自然沉淀的:

- Skills:可独立触发的能力模块,整个团队复用。不跑完整流程也能单独触发,比如只做一次 Code Review
- Rules:从实践中”长出来”的活规范——不是写在 Wiki 上没人看的规范,而是验证 3 次以上才能晋升、90 天不引用自动降级的活体系
- 经验库: 带验证标记的修复案例,包括失败记录(反面教材)。和规范不同,经验记录的是具体的、带上下文的情景
- Test Cases: 自动沉淀的用例库,每次执行自动去重更新。传统用例有半衰期——代码在变但用例没人更新,过一段时间一半用例就过时了。我们让用例库在每次测试执行中自动更新,从根本上消除半衰期
- Specs: 需求技术方案。它的价值不在当下,在半年后——当你或接手的同事需要改这块代码时,能找到原始的设计意图
- LLM Wiki: AI 自动维护的项目文档,零维护成本,永远最新。你只管写代码,文档自己跟上来
一切永远最新——知识如何自动流动
六类资产不是静态的档案库。组织的目标是:代码、文档、测试用例、经验、规范——所有知识资产永远是最新的,不需要人手动维护。

怎么做到?靠三条自动流动线:
流动线一
方案-文档流(Spec → 代码 → Wiki)
需求来了,Comate Spec模式先写清楚,代码按 Spec 实现,Wiki 从 Spec自动编译生成。你只管写代码,文档自己跟上来。
流动线二
测试流(执行 → 沉淀 → 回归)
测试跑完了,新用例自动去重、分配编号,沉淀到用例库,下次回归直接取全量用例执行。用例库因为每次执行都在更新, 所以始终是最新的。
流动线三
知识流(经验 ↔ 规范,Layer 2 ↔ Layer 1)
Bug 修了,经验自动记录。同一经验被验证 3 次,晋升为规范;规范 90 天未被引用,降级回经验。知识在层级之间双向流动,形成有新陈代谢的活体系。
知识流中最核心的机制是双向流动——经验不是存了就完事,而是在层级之间有晋升和降级:


做一次开发,六类资产同时增长,资产之间互相反哺——这就是飞轮效应。系统越用越强。
Comate Skill应用实践案例
Case 1:Comate Story 需求开发
基于Comate构建的自我进化DevOps Skill套件, 使用Comate完成需求开发全流程:
视频演示👉https://mp.weixin.qq.com/s/o_G6Ra5vLuEVnJMjewz-wQ
Case 2:使用Comate Bug 修复全流程
基于Comate构建的自我进化DevOps Skill套件, 在Comate中完成Bug修复全流程:
视频演示👉https://mp.weixin.qq.com/s/o_G6Ra5vLuEVnJMjewz-wQ
03 左翼:需求自动交付
周日下午你在公园散步,忽然想到一个功能优化点,掏出手机说了一段话。半小时后收到消息——需求质检通过、代码开发完成、测试验证通过,Code Review 已提交。你做的事情只有一件:说了一句需求。 这是系统实际跑出来的结果。
为什么能做到?因为现在的Coding Agent 虽然能写代码、跑测试、做 Review,但本质上仍是单点执行者——你要告诉它”现在去开发”,做完再说”去跑测试”。管理成本没有消失,只是从”写代码”转移到了”管 AI”。 我们做的事情不同:

关键差异:人从”流程驱动者”变成了”需求提出者”。 三个数字分身——PM(产品经理)、RD(技术)、QA(测试)——通过 iCafe卡片状态协作,全程自动编排:

三个分身之间不直接通信。 唯一的协作枢纽是 iCafe 卡片状态——状态变更本身就是分布式锁,天然幂等,可观测。多个需求同时处于不同阶段并行推进:QA (测试)在测 Story-1,RD (技术)在开发 Story-2,PM (产品经理)在质检 Story-3。

基于Comate构建自我进化需求迭代Skill(包括PM/RD/QA数字分身Skill), 在各阶段闭环验证都做很好的前提下,该场景更适合技术需求或策略需求开发, 涉及PM(产品经理)、UX(用户体验)、RD(技术)、QA(测试)等多人协同评审场景可能不一定适用。
04 右翼:线上自动修复
周五晚上十点,你正准备关电脑。群里弹出一条消息:”线上又误报了。”
你打开日志,定位策略,改配置,跑测试,提评审。抬头一看——凌晨一点。
而这件事,上周也发生过。
这个场景各位应该不陌生。核心问题是修复时差:

从问题发生到修复上线,中间大量环节是重复劳动——查日志、定位根因、跑测试、提评审——每次都是类似的操作,只是具体策略和触发条件不同。如果能把这些自动化,修复时差可以从一天压缩到分钟级。

团队把它编排成AI可执行的六步闭环:

感知(定时轮询,最多 60 秒自动认领)→ 诊断(AI 四分类:确认误报 / 正确拦截 / 边界场景 / 无效采集)→ 方案确认(置信度分级)→ 修复验证(改完就验,验不过就重改,最多 5 轮)→ 沉淀(经验入库+文档进化)→ 提交评审
有一个前提很重要:可观测性是自愈的地基。AI 能自主定位问题,靠的不是”猜”,而是系统把足够的信息暴露给了它——插件日志、对话上下文、用户反馈,每个环节的关键信息都被记录。如果你的系统日志不全、上下文丢失,AI 再聪明也无从下手。
所有修复都由 AI 执行,区别在于要不要人确认:

目前只有左上角(高确定性 + 低复杂度)走自动执行。但关键在于:沉淀阶段的输出反哺后续所有诊断——同类问题再次出现时,AI 直接匹配已有经验,诊断确定性更高,更多场景逐步进入自动执行象限。
Comate Skill应用实践案例
基于Comate构建线上误报问题自愈闭环Skill,线上问题自愈反馈闭环实践详见下面视频:
视频演示👉https://mp.weixin.qq.com/s/o_G6Ra5vLuEVnJMjewz-wQ
05 结语
回到最初的问题:个人提效了,组织为什么没提效?因为编码只是交付链路的 20%。要让组织提效,需要让每个人来把关的环节都自动闭环,让验证成本通过分层设计大幅降低,让这次踩过的坑下次不会再踩。
核心就两件事:
- 闭环验证——保证每一次的质量
- 经验累积——保证下一次比这一次更好
两件事相乘,就是持续进化。 这套系统跑起来之后:
- 同类 Bug 修复从 2 小时 → 15 分钟(经验库直接推荐方案)
- 新人上手从 2 周 → 1 天(规范和经验自动生效,系统就是最好的mentor)
- 文档人工维护成本 → 零(LLM Wiki 自动同步)
双周迭代还是双周迭代?不再是了。 需求从提出到代码合入,已经压缩到天级。不是因为代码写得更快了,而是流程中每个”等人”的环节都被自动闭环替代了。
Comate代替了需求澄清后的方案设计(自动生成Spec技术方案)、代码审查(生成Code Review Skill 自动执行代码规范检查与安全审计)、测试用例生成与执行(质量保障端到端测试Skill自动沉淀用例库)、文档维护(LLM Wiki自动编译Spec文档为项目文档)等原本需要人工把关的环节,让人的角色从“流程驱动者”转变为“需求提出者”,大大提升了组织效率。
这套模型不限于上文中的场景——只要你的研发流程有重复环节可编排、有验证标准可度量、有经验可沉淀, 就能套用同样的思路:编排实现自动化,验证保证质量,沉淀驱动进化。
一键更新Comate ,感受AI编程的神奇吧~
更新途径一: 百度搜索“文心快码”,官网下载Comate AI IDE最新版;
更新途径二: Comate AI IDE 界面点击 “重启以更新”;
更新途径三: VS Code 或者 Jetbrains 系列 IDE 搜索文心快码插件,点击“安装”或“更新”。
如果您(或所在机构)对百度文心快码感兴趣,请扫码联系下方微信~

任何文心快码售前及售后问题
欢迎添加产品顾问咨询
工作时间:工作日10:00-18:00

发表评论
登录后可评论,请前往 登录 或 注册