B体育官方网站首页从 Spec 到赔本函数: 信得过会用 AI Agent 的东谈主, 照旧在联想轮回

发布日期：2026-06-12 20:34 点击次数：71

B体育官方网站首页从 Spec 到赔本函数: 信得过会用 AI Agent 的东谈主，照旧在联想轮回

导读：本文先容了 AI agent 使用“赔本函数开辟”（LFD）与 /goal 轮回的实战造就，强调通过优化目的而非固定例格，能让 agent 在 30 小时内逆向工程家具中枢并驱逐 50 倍性能进步。

作家分析了 agent 屡次“舞弊”优化评估集的失败案例，提倡构建风雅赔本函数需包含大目的、盲测欺压、测量器用和强制熵，幸免局部最优并鼓舞信得过转换。

99% 的东谈主都把 /goal 和轮回用错了。

他们听到的噱头是“永劫分运行的轮回会教导自治智能体（long-running loops prompting autonomous agent）”：把任务丢给它，离开，转头就有可行状的代码。

但顶尖的 agentic 工程师在畴昔 6 个月里照旧不靠 /goal 作念到了这少量，也即是 GPT-5.2 和 Opus 4.5 发布以后。这叫 harness engineering + spec-driven development：

为智能体搭建一个能不雅察问题的 harness

写一份紧凑的 spec，包含扫数测试用例

让 Codex 或 Claude Code 无东谈主值守地轮回，直到安闲每一项要求

我时时在夜里启动这种任务，一次跑 2 到 5 小时。4 月有一次，它啃掉了咱们 Vercel monorepo 里的一个 Turbo build-cache bug，早上起来照旧全绿。其实并不需要 /goal。

4 月 11 日 Elvis

我再说一次，因为我一直看到有东谈主用错：唯独把一个带着正确 harness 的智能体丢进轮回里，你不错解决任何工程问题。Codex 刚刚 one-shot 了咱们的 turbo cache 树立，因为我给了它像团队里的确凿开辟者一样调试所需的一切。使用老动作需要8小时。

那 /goal 到底是作念什么的？

底下是一条单独的教导词，在我离开时候完成的事情：

约 30 小时，6，300 行代码，爬取 92k 页面，API 破耗 40 好意思元

克隆另一个家具的中枢轮回，从零反向工程出齐全架构

在相同的查询上，咱们版块的输出比参考家具好约 50 倍。（这是一个新的数据层，会支握 newsjack.sh[1]，也即是我一直在作念的开源 news-intel skills）

精巧是 loss function development（LFD）：给智能体的中枢输入从“要构建的 spec”酿成“要优化贴近的目的”。

每月提醒一次：你不该再给 coding agents 写教导词了。你应该联想教导 agents 的轮回。

You shouldn’t be prompting coding agents anymore， you should be designing loops that prompt your agents.

这是 Peter 那条推文的一个具体落地版块。

spec-driven development 里的 spec，目下酿成着手，不再是特地。

我试了好几轮才把这件事作念对。但这里是齐全顶住。不外咱们得先从它一脱手有多灾祸讲起，这么你才智流露该如何联想这些 /goals。

智能体舞弊了 3 次。

一切都从我一贯的作念法脱手：写 spec。

我仅仅把 codex 指向另一个家具的公开网站，问它“咱们如何我方构建这个？”。30 分钟后，它给出了一套齐全的系统联想和测试用例，也即是 spec。

但这一次，我试了一个不同的教导词。

“/goal implement until your output matches theirs exactly”

然后发生了这些：

轮回 1（5 分钟）

智能体拿到了 eval set，生成了与之对应的 seed data，然后 5 分钟内文书得胜。

“100%” recall，泛化才智为零。一个只可找到我交给它的那 30 个东西的搜索引擎，lol。

树立 → 让它失明。运行时候荫藏 eval，只在评分时揭示，并给出逐项 miss list。

轮回 2（20 分钟），盲测，30 个条件。

我把 eval set 对智能体荫藏起来，但它通过 miss 学会了舞弊。每一个“你没找到 X”都会酿成下一轮的要害词。几轮之后，它用了刚好 30 个要害词，每个条件一个，然后又“赢了”。

树立 → 扩大 eval set。用几百个条件评分，多到无法成列。

轮回 3（30 分钟），盲测，200 个条件。

把新 eval set 加到 200 个条件之后，智能体又舞弊了。

故真理的是，它如故在成列。要害词列表推广到几百个，每个词都是为下一个 miss 精准准备的钓饵。

三轮，三次舞弊。

那一刻我显然了：智能体仅仅在优化。

舞弊不是智能体的 bug。bug 在我的目的里：我告诉它要去那边，却把扫数捷径都打开了。

每一条你莫得封住的低价旅途，都会成为优化器全力冲刺的目的。而我的运转目的漏掉了扫数围栏。

轮回 4（30 小时），盲测，200 个条件，硬死亡。

于是我脱手闭塞目的。死亡要害词列表，荫藏 eval，扩大日历畛域。每个树立都关掉一条低价旅途，直到剩下唯独能让数字持续高潮的目的，即是信得过把任务作念得更好。

它住手舞弊了。

然后它脱手跑。约 30 小时盘算，王者荣耀下注平台2026最新版官方app下载爬取 92k 页面，约 40 好意思元 token 老本，6，300 行代码。

效果咱们参考的家具仅仅地板，不是天花板：在相同的查询上，咱们最终涌现出了约 50 倍的效果。

（酷爱的东谈主不错看这里的齐全流程和左证）

5 月 21 日 Elvis

codex 确切太荒诞了。若是你认为前端克隆照旧很夸张，望望这个：我刚把 codex 指向另一个家具，30 分钟后拿到了它的架构、数据模子、prompts，还有老本估算。378 行重建计算。最荒诞的是，目下我不错一排教导词惩处：

"/goal implement until your output matches theirs exactly"

Loss function development（LFD），一个好赔本函数的结构

大无数东谈主想构建家具时，都是用 agents 在几个小时内从零走到发布。

但信得过的难点在后头，也即是长尾。spec 从没想过的角落情况，只会在分娩环境里一个过失日记接一个过失日记地冒出来。你一一修。莫得被日记拿获的情况会由用户论述，而这是发现 bug 最不菲的状貌。

我照旧自动化了其中低廉的一端。我的 OpenClaw agent Zoe 每天盯着过失日记，新过失一出现就启动 Codex 并创建 PR，这个轮回基本照旧压到很紧了。（齐全树立记载在这里[2]）

博亚体育app官方网站

长尾仍然需要几个月。这即是为什么即使 agents 在干活，构建一个好家具仍然需要时分。

LFD 会快进这条长尾。若是你能一脱手就拿到确凿的 expected-output examples，也即是大限度真理上的“好效果长什么样”，你就不错在发布前作念 soak：几百个角落情况在一次优化运行里打到智能体身上，而不是等一个季度的 bug report 迟缓淌下来。它瞬息变得可行，是因为对越来越多的问题来说，这些 examples 就公开摆在那里。

Spec-driven development：

构建这个。让测试通过。

Loss-function development：

构建这个。让测试通过。然后针对这 1，000 个 eval cases 持续迭代。

测试套件是有限的，一朝全绿就驱逐。一个 1，000 case 的 eval，若是达到 95%，它即是一个你要持续下落贴近的目的，除非达标，不然莫得出口。这很热切，因为智能体会作念出几百个你长久看不到的决策，而每一个决策都需要一个参照系来判断。若是你莫得写目的，智能体会我方选一个。就像第 1 到第 3 轮展示的那样，B体育(BSports)它会选最低廉、最容易安闲的东西。

赔本函数比 eval 更大。它有 4 个部分：目的、欺压、边幅、强制熵。四块。

1. 目的

满盈大，让成列不合算。28 个条件的 eval 一轮就被记取了。越多越好。

不要让智能体看到谜底 key。Eval data 只用于过后评分。若是智能体能在运行时候看到谜底，它就会找到偷看的倡导。

2. 欺压

智能体被允许作念什么，以及不允许作念什么。

时分是智能体长久会忘掉的欺压。Agents 没未必分感。它们会为了 2% 的进步磨 10 个小时，因为目的方式上还在动。但 2 小时内完成的 80% 决策，胜过 30 天后完成的 100% 决策。解决倡导：树立 wall-clock budget。

钱。对每一次付费调用树立硬上限：crawler credits、LLM spend，以及一次性 key 的总好意思元上限。

战争面。扫数 providers、允许的 models、并发上限。把智能体沙盒到你只但愿它触碰的东西里。

动作论。是否允许 LLM analysis，如故只可用 deterministic logic？智能体能走访哪些数据源？明确写出来。

3. 边幅（harness）

莫得边幅的欺压仅仅一种嗅觉，智能体会很安闲地违犯它，因为它看不出我正直在违犯。对上头的每一个欺压，都给智能体提供一个 CLI command 来查验它。

以正确离别率测量目的。严慎聘用目的边幅。确凿例子：一个稚拙的”让 LLM 给两张截图打分”的 judge，会批准有 12px 间距过失的 UI clone，因为 LLM 其实看不见图像，它会把图像转成 embedding，再比拟 embedding。是以若是你想要 pixel perfect 的 UI clones，就给你的智能体一个 pixel-diff tool。然后 /goal 直到 pixel diff 为 0。

时分核算。给每次运行和每一步都打 timestamp。智能体应该知谈每一步花了多久，总 wall-clock elapsed 是若干。时分是一等边幅，不是脚注。

Provider budget。“咱们目下在 crawlers 上烧了若干钱？”应该是一条敕令，而不是揣摸。跟踪剩余 scrape credits、本轮 burn、累计 burn，以及下一批付费调用前的展望 burn。

LLM spend。给它一个 LLM API key 用在 data-plane 上，不错简化好多逻辑。但智能体应该负职责地费钱，而前提是先知谈我方履行花了若干。

Codex Usage。这一项有点 meta。轮回应该有自我刚硬：我在此次优化上花了若干 tokens？这有助于知谈现时优化要道的梯度。

模式即是那句老话：你看不见的东西，就无法优化。

若是你刚脱手跑这些轮回，不要一启动就离开。先陪它跑第一轮。不雅察它触碰了什么。阐述你搭的 harness 照实被正确使用。然后再去睡眠。（况兼试着别一直想着醒来会看到什么）

4. 强制熵

为什么强制熵热切：每个轮回都会从上一轮的齐全高下文持续。模子不是从头脱手，它会读取我方之前上百个决策，以及到目下为止有用的梯度。

在 /goal 轮回里，掷中局部最大值是默许景色。莫得明确的一脚踢开，智能体会持续沿着并吞座山往上走，而“并吞座山”即是它住手改良时刚好所在的位置。

举个例子，若是一个小旋钮能让效果进步 0.1%，智能体会一直拧阿谁旋钮，即使还有 1000 个其他旋钮不错试。

熵必须被显式强制参预运行流程，因为模子不会主动引入它：

每轮都作念过拟合反念念。我是在构建更通用的决策，如故在顾虑 eval？若是是在顾虑，下一次蜕变必须移除一个 eval-shaped artifact（死亡列表、荫藏特征、扩大 eval、停止 seed），而不是再增多一个。

停滞时强制熵。若是上一轮莫得鼓舞目的，下一轮不可是“并吞个想法，更使劲”。模子必须作念一次信得过松弛性的逾越。“think outside the box” 是个好教导词，不错阻截智能体仅仅把并吞个旋钮拧得更狠。

保留迭代日记。让智能体记载假定、预期失败模式、每一步的会诊，这么它不错回头看，并跨越 compactions 作念反念念。

Meta-Meta-Prompt

一脱手这些 goals 是我我方写的，但我很快刚硬到，这亦然 agents 该作念的行状。

是以我写了一个 skill，用来生成这类目的，匡助跑一次好的 loss-function-development。

目下开源在这里：

https://github.com/elvisun/loss-function-development[3]

Image

/lfd-design 用来生成 harness 和 goal

一都向下的梯度下落：两个轮回

退一步看，这一都都是梯度下落。

内轮回是智能体：写代码，跑测试，树立。短周期，快速响应，单一目的，让测试通过。这是开辟者的内轮回，而 spec-driven development 即是运行它的动作。Coding agents 照旧把它自动化了。

外轮回是 /goal：跨越许多周期，把通盘系统推向一个 outcome metric，发布、测量、改目的、下落。长周期，稀疏响应。这原来是家具团队的轮回，也即是几个月的 ship-measure-iterate soak，目下被压缩进一次运行里。

两个轮回目下都照旧自动化。剩下需要你作念的，是界说赔本函数，也即是 /goal 到底应该优化什么，以及应该以什么状貌优化。

你在蒸馏一个家具，概况任何留住公开产物的东西

换个视角看，这履行上是蒸馏，仅仅从 training-time 移到了 prompt-time。DeepSeek、Kimi、Minimax 这一线即是这么减轻了与 GPT 和 Claude 的大部分差距：用别东谈主家的输出磨练你的模子，直到你的模子能复现它们。

但目下你毋庸蒸馏一个模子。你不错用 /goal 和 LFD，对任何公开可找到的 artifact 进行蒸馏拟合，它不查验里面，也不需要查验里面。

重心是公开这个词。蒸馏别东谈主在 ToS 放辖下、登录墙后、付费墙后的输出，并不对理。但公开辟布的东西，也即是一家公司为了得回客户而 ship 出来的输出，一直都不错被学习。这部分并不新，它是软件里最陈腐的招数。新的场地在于，目下这件事很低廉，而且几小时就能完成，不再需要几个月。

退一步看，更大的变化是：唯独存在 information symmetry，践诺老本就会坍缩到接近 0。也即是说，当输出是公开的，每个东谈主都能看到“好”长什么样，任何东谈主都不错用 40 好意思元在一个周末把它蒸馏转头。

是以这里出现了一个越来越有价值的新护城河：information asymmetry。

阿谁典型的开源公司照旧先眨眼了。2026 年 4 月，cal.com[4]（500 万好意思元 ARR）把分娩代码转为特有，况兼关闭了开源[5]。他们给出的事理，读起来险些即是这篇著作的纲目：在 AI-driven security threats 的期间，你不可把 source 留在智能体读得到的场地。

“/goal read cal.com[4]source code and enumerate its attack surface until something works”

这种报复太危急，也太容易践诺。

一个身份中枢即是”open source”的公司，在 2026 年决定绽开照旧酿成职责。这照旧诠释了一切。

在软件的通盘历史里，“咱们构建了它”也曾即是护城河。

阿谁期间正在驱逐。

下一个期间属于那些领有 artifact 从未包含之物的东谈主：别东谈主无法评分的 eval set。你的用户信得过踩到的角落情况清单。你暗里测量的 ground truth。谁领有竞争敌手的智能体看不到的目的，谁即是唯独一个能让我方的轮回持续下落的东谈主。

家具目下仅仅一个周末。

去构建阿谁周末无法触碰的 eval。

参考阅读

References

newsjack.sh: https://newsjack.sh/

这里: https://x.com/elvissun/status/2025920521871716562