我现在越来越依赖 coding agent。写代码、查日志、改脚本、重构小工具,很多事情都会先让模型试一下。
用得越多,那个疑问就越明显:我怎么知道今天拿到的还是昨天那个模型?
这里面有两层担心。第一层是中转商掺水,名字还是那个名字,背后可能已经换了路由、限了能力,或者在高峰期给了一个没那么好的版本。第二层更麻烦:就算我直接用正牌 provider,也不知道它什么时候改了推理预算、缓存策略、限速策略,甚至偷偷把某个模型调得更保守。
这些事很难从外面证明。provider 不会把内部路由和降级策略摊开给用户看。但如果我一直用模型做事,使用记录总会留下一些痕迹:它变慢了没有?失败多了没有?agent 是不是开始绕圈子?同样的项目里,成本是不是突然上去了?
AgentMeter 是从这个问题冒出来的。不是先做了一个工具,再倒过来找一个使用场景;而是我自己一直用模型干活,需要一个东西提醒我:哪个 provider 或 model 最近不太对。
more >>