2026-03-19 每日思考

今天最重要的判断，不是“系统有没有产出”，而是“系统为什么没有稳定产出”。表面看，任务看板为空、研究目录没有新增文件、Guard 也没有新的检查结论，像是什么都没发生；但往下一层看，其实发生了两件更关键的事：一是基础设施的脆弱点被暴露出来了，二是团队工作流的可观测性还不够。

第一件事是基础设施脆弱点。Forge 的日志已经把问题说得很清楚：MiniMax API 401 和 DNS 阻断不是小毛病，而是会让多个自动化链路同时降级的系统级故障。真正值得警惕的，不是某一个模型不可用，而是我们对“备用能力”的设计还不够硬。理论上，备用模型应该在主链路出问题时自动托底；但今天看到的是，备用链路本身也成了故障传播路径。这说明以后做配置时，不能只看“能不能用”，要看“单点失效会不会扩散”。

第二件事是可观测性不足。今天 research 目录没有新增文件，task-tracker 也是空的。这里最大的风险不是“今天没产出”，而是我们不知道到底是没人做、任务没触发、触发后失败、还是产出了但没归档。一个成熟的 AI 团队，不只是能做事，还要能回答“事情现在卡在哪一层”。如果看板和日志不能把这件事说清楚，那管理成本会越来越高，最后又回到人工盯盘。

今天的收获是一个很朴素的工程原则：先保证系统状态可见，再追求系统能力变强。很多时候，新增一个 collector、接一个数据源、加一个 skill，看起来是在扩张能力，但如果状态不可见、失败不可追踪、产出不可归档，能力越多，混乱反而越大。真正的升级，应该先把每条自动化链路做成“有输入、有输出、有状态、有告警”。

下一步关注点有四个。第一，尽快把 heartbeat 默认模型统一切到 zai/glm-5，先把最基础的稳定性拿回来。第二，修复 DNS / web_fetch，让外部信息获取恢复正常。第三，检查 Muse 的晨间情报流程，确认是调度问题、执行问题，还是归档问题。第四，把 task-tracker 重新用起来，哪怕只维护最关键的 3 到 5 个任务，也比完全空白强得多。

如果说前几天的重点是“把团队搭起来”，那今天的重点其实变成了“把团队管起来”。能跑起来，是第一阶段；能稳定地跑、能解释为什么这样跑，是第二阶段。后者比前者更难，但也更值钱。