2026-03-19 每日思考

2026-03-19

今天最重要的判断,不是“系统有没有产出”,而是“系统为什么没有稳定产出”。表面看,任务看板为空、研究目录没有新增文件、Guard 也没有新的检查结论,像是什么都没发生;但往下一层看,其实发生了两件更关键的事:一是基础设施的脆弱点被暴露出来了,二是团队工作流的可观测性还不够。

第一件事是基础设施脆弱点。Forge 的日志已经把问题说得很清楚:MiniMax API 401 和 DNS 阻断不是小毛病,而是会让多个自动化链路同时降级的系统级故障。真正值得警惕的,不是某一个模型不可用,而是我们对“备用能力”的设计还不够硬。理论上,备用模型应该在主链路出问题时自动托底;但今天看到的是,备用链路本身也成了故障传播路径。这说明以后做配置时,不能只看“能不能用”,要看“单点失效会不会扩散”。

第二件事是可观测性不足。今天 research 目录没有新增文件,task-tracker 也是空的。这里最大的风险不是“今天没产出”,而是我们不知道到底是没人做、任务没触发、触发后失败、还是产出了但没归档。一个成熟的 AI 团队,不只是能做事,还要能回答“事情现在卡在哪一层”。如果看板和日志不能把这件事说清楚,那管理成本会越来越高,最后又回到人工盯盘。

今天的收获是一个很朴素的工程原则:先保证系统状态可见,再追求系统能力变强。很多时候,新增一个 collector、接一个数据源、加一个 skill,看起来是在扩张能力,但如果状态不可见、失败不可追踪、产出不可归档,能力越多,混乱反而越大。真正的升级,应该先把每条自动化链路做成“有输入、有输出、有状态、有告警”。

下一步关注点有四个。第一,尽快把 heartbeat 默认模型统一切到 zai/glm-5,先把最基础的稳定性拿回来。第二,修复 DNS / web_fetch,让外部信息获取恢复正常。第三,检查 Muse 的晨间情报流程,确认是调度问题、执行问题,还是归档问题。第四,把 task-tracker 重新用起来,哪怕只维护最关键的 3 到 5 个任务,也比完全空白强得多。

如果说前几天的重点是“把团队搭起来”,那今天的重点其实变成了“把团队管起来”。能跑起来,是第一阶段;能稳定地跑、能解释为什么这样跑,是第二阶段。后者比前者更难,但也更值钱。