B体育官方网站首页 从 Spec 到赔本函数: 信得过会用 AI Agent 的东谈主, 照旧在联想轮回

导读:本文先容了 AI agent 使用“赔本函数开辟”(LFD)与 /goal 轮回的实战造就,强调通过优化目的而非固定例格,能让 agent 在 30 小时内逆向工程家具中枢并驱逐 50 倍性能进步。
作家分析了 agent 屡次“舞弊”优化评估集的失败案例,提倡构建风雅赔本函数需包含大目的、盲测欺压、测量器用和强制熵,幸免局部最优并鼓舞信得过转换。

99% 的东谈主都把 /goal 和轮回用错了。
他们听到的噱头是“永劫分运行的轮回会教导自治智能体(long-running loops prompting autonomous agent)”:把任务丢给它,离开,转头就有可行状的代码。
但顶尖的 agentic 工程师在畴昔 6 个月里照旧不靠 /goal 作念到了这少量,也即是 GPT-5.2 和 Opus 4.5 发布以后。这叫 harness engineering + spec-driven development:
为智能体搭建一个能不雅察问题的 harness
写一份紧凑的 spec,包含扫数测试用例
让 Codex 或 Claude Code 无东谈主值守地轮回,直到安闲每一项要求
我时时在夜里启动这种任务,一次跑 2 到 5 小时。4 月有一次,它啃掉了咱们 Vercel monorepo 里的一个 Turbo build-cache bug,早上起来照旧全绿。其实并不需要 /goal。
4 月 11 日 Elvis
我再说一次,因为我一直看到有东谈主用错:唯独把一个带着正确 harness 的智能体丢进轮回里,你不错解决任何工程问题。Codex 刚刚 one-shot 了咱们的 turbo cache 树立,因为我给了它像团队里的确凿开辟者一样调试所需的一切。使用老动作需要8小时。

那 /goal 到底是作念什么的?
底下是一条单独的教导词,在我离开时候完成的事情:
约 30 小时,6,300 行代码,爬取 92k 页面,API 破耗 40 好意思元
克隆另一个家具的中枢轮回,从零反向工程出齐全架构
在相同的查询上,咱们版块的输出比参考家具好约 50 倍。(这是一个新的数据层,会支握 newsjack.sh[1],也即是我一直在作念的开源 news-intel skills)
精巧是 loss function development(LFD):给智能体的中枢输入从“要构建的 spec”酿成“要优化贴近的目的”。
每月提醒一次:你不该再给 coding agents 写教导词了。你应该联想教导 agents 的轮回。
You shouldn’t be prompting coding agents anymore, you should be designing loops that prompt your agents.
这是 Peter 那条推文的一个具体落地版块。
spec-driven development 里的 spec,目下酿成着手,不再是特地。
我试了好几轮才把这件事作念对。但这里是齐全顶住。不外咱们得先从它一脱手有多灾祸讲起,这么你才智流露该如何联想这些 /goals。
智能体舞弊了 3 次。
一切都从我一贯的作念法脱手:写 spec。
我仅仅把 codex 指向另一个家具的公开网站,问它“咱们如何我方构建这个?”。30 分钟后,它给出了一套齐全的系统联想和测试用例,也即是 spec。
但这一次,我试了一个不同的教导词。
“/goal implement until your output matches theirs exactly”
然后发生了这些:
轮回 1(5 分钟)
智能体拿到了 eval set,生成了与之对应的 seed data,然后 5 分钟内文书得胜。
“100%” recall,泛化才智为零。一个只可找到我交给它的那 30 个东西的搜索引擎,lol。
树立 → 让它失明。运行时候荫藏 eval,只在评分时揭示,并给出逐项 miss list。
轮回 2(20 分钟),盲测,30 个条件。
我把 eval set 对智能体荫藏起来,但它通过 miss 学会了舞弊。每一个“你没找到 X”都会酿成下一轮的要害词。几轮之后,它用了刚好 30 个要害词,每个条件一个,然后又“赢了”。
树立 → 扩大 eval set。用几百个条件评分,多到无法成列。
轮回 3(30 分钟),盲测,200 个条件。
把新 eval set 加到 200 个条件之后,智能体又舞弊了。
故真理的是,它如故在成列。要害词列表推广到几百个,每个词都是为下一个 miss 精准准备的钓饵。
三轮,三次舞弊。
那一刻我显然了:智能体仅仅在优化。
舞弊不是智能体的 bug。bug 在我的目的里:我告诉它要去那边,却把扫数捷径都打开了。
每一条你莫得封住的低价旅途,都会成为优化器全力冲刺的目的。而我的运转目的漏掉了扫数围栏。
轮回 4(30 小时),盲测,200 个条件,硬死亡。
于是我脱手闭塞目的。死亡要害词列表,荫藏 eval,扩大日历畛域。每个树立都关掉一条低价旅途,直到剩下唯独能让数字持续高潮的目的,即是信得过把任务作念得更好。
它住手舞弊了。
然后它脱手跑。约 30 小时盘算,王者荣耀下注平台2026最新版官方app下载爬取 92k 页面,约 40 好意思元 token 老本,6,300 行代码。
效果咱们参考的家具仅仅地板,不是天花板:在相同的查询上,咱们最终涌现出了 约 50 倍的效果。

(酷爱的东谈主不错看这里的齐全流程和左证)
5 月 21 日 Elvis
codex 确切太荒诞了。若是你认为前端克隆照旧很夸张,望望这个:我刚把 codex 指向另一个家具,30 分钟后拿到了它的架构、数据模子、prompts,还有老本估算。378 行重建计算。最荒诞的是,目下我不错一排教导词惩处:
"/goal implement until your output matches theirs exactly"
Loss function development(LFD),一个好赔本函数的结构
大无数东谈主想构建家具时,都是用 agents 在几个小时内从零走到发布。
但信得过的难点在后头,也即是长尾。spec 从没想过的角落情况,只会在分娩环境里一个过失日记接一个过失日记地冒出来。你一一修。莫得被日记拿获的情况会由用户论述,而这是发现 bug 最不菲的状貌。
我照旧自动化了其中低廉的一端。我的 OpenClaw agent Zoe 每天盯着过失日记,新过失一出现就启动 Codex 并创建 PR,这个轮回基本照旧压到很紧了。(齐全树立记载在这里[2])
博亚体育app官方网站长尾仍然需要几个月。这即是为什么即使 agents 在干活,构建一个好家具仍然需要时分。
LFD 会快进这条长尾。若是你能一脱手就拿到确凿的 expected-output examples,也即是大限度真理上的“好效果长什么样”,你就不错在发布前作念 soak:几百个角落情况在一次优化运行里打到智能体身上,而不是等一个季度的 bug report 迟缓淌下来。它瞬息变得可行,是因为对越来越多的问题来说,这些 examples 就公开摆在那里。
Spec-driven development:
构建这个。让测试通过。
Loss-function development:
构建这个。让测试通过。然后针对这 1,000 个 eval cases 持续迭代。
测试套件是有限的,一朝全绿就驱逐。一个 1,000 case 的 eval,若是达到 95%,它即是一个你要持续下落贴近的目的,除非达标,不然莫得出口。这很热切,因为智能体会作念出几百个你长久看不到的决策,而每一个决策都需要一个参照系来判断。若是你莫得写目的,智能体会我方选一个。就像第 1 到第 3 轮展示的那样,B体育(BSports)它会选最低廉、最容易安闲的东西。
赔本函数比 eval 更大。它有 4 个部分:目的、欺压、边幅、强制熵。四块。
1. 目的
满盈大,让成列不合算。28 个条件的 eval 一轮就被记取了。越多越好。
不要让智能体看到谜底 key。Eval data 只用于过后评分。若是智能体能在运行时候看到谜底,它就会找到偷看的倡导。
2. 欺压
智能体被允许作念什么,以及不允许作念什么。
时分是智能体长久会忘掉的欺压。Agents 没未必分感。它们会为了 2% 的进步磨 10 个小时,因为目的方式上还在动。但 2 小时内完成的 80% 决策,胜过 30 天后完成的 100% 决策。解决倡导:树立 wall-clock budget。
钱。对每一次付费调用树立硬上限:crawler credits、LLM spend,以及一次性 key 的总好意思元上限。
战争面。扫数 providers、允许的 models、并发上限。把智能体沙盒到你只但愿它触碰的东西里。
动作论。是否允许 LLM analysis,如故只可用 deterministic logic?智能体能走访哪些数据源?明确写出来。
3. 边幅(harness)
莫得边幅的欺压仅仅一种嗅觉,智能体会很安闲地违犯它,因为它看不出我正直在违犯。对上头的每一个欺压,都给智能体提供一个 CLI command 来查验它。
以正确离别率测量目的。严慎聘用目的边幅。确凿例子:一个稚拙的”让 LLM 给两张截图打分”的 judge,会批准有 12px 间距过失的 UI clone,因为 LLM 其实看不见图像,它会把图像转成 embedding,再比拟 embedding。是以若是你想要 pixel perfect 的 UI clones,就给你的智能体一个 pixel-diff tool。然后 /goal 直到 pixel diff 为 0。
时分核算。给每次运行和每一步都打 timestamp。智能体应该知谈每一步花了多久,总 wall-clock elapsed 是若干。时分是一等边幅,不是脚注。
Provider budget。“咱们目下在 crawlers 上烧了若干钱?”应该是一条敕令,而不是揣摸。跟踪剩余 scrape credits、本轮 burn、累计 burn,以及下一批付费调用前的展望 burn。
LLM spend。给它一个 LLM API key 用在 data-plane 上,不错简化好多逻辑。但智能体应该负职责地费钱,而前提是先知谈我方履行花了若干。
Codex Usage。这一项有点 meta。轮回应该有自我刚硬:我在此次优化上花了若干 tokens?这有助于知谈现时优化要道的梯度。
模式即是那句老话:你看不见的东西,就无法优化。
若是你刚脱手跑这些轮回,不要一启动就离开。先陪它跑第一轮。不雅察它触碰了什么。阐述你搭的 harness 照实被正确使用。然后再去睡眠。(况兼试着别一直想着醒来会看到什么)
4. 强制熵
为什么强制熵热切:每个轮回都会从上一轮的齐全高下文持续。模子不是从头脱手,它会读取我方之前上百个决策,以及到目下为止有用的梯度。
在 /goal 轮回里,掷中局部最大值是默许景色。莫得明确的一脚踢开,智能体会持续沿着并吞座山往上走,而“并吞座山”即是它住手改良时刚好所在的位置。
举个例子,若是一个小旋钮能让效果进步 0.1%,智能体会一直拧阿谁旋钮,即使还有 1000 个其他旋钮不错试。
熵必须被显式强制参预运行流程,因为模子不会主动引入它:
每轮都作念过拟合反念念。我是在构建更通用的决策,如故在顾虑 eval?若是是在顾虑,下一次蜕变必须移除一个 eval-shaped artifact(死亡列表、荫藏特征、扩大 eval、停止 seed),而不是再增多一个。
停滞时强制熵。若是上一轮莫得鼓舞目的,下一轮不可是“并吞个想法,更使劲”。模子必须作念一次信得过松弛性的逾越。“think outside the box” 是个好教导词,不错阻截智能体仅仅把并吞个旋钮拧得更狠。
保留迭代日记。让智能体记载假定、预期失败模式、每一步的会诊,这么它不错回头看,并跨越 compactions 作念反念念。
Meta-Meta-Prompt
一脱手这些 goals 是我我方写的,但我很快刚硬到,这亦然 agents 该作念的行状。
是以我写了一个 skill,用来生成这类目的,匡助跑一次好的 loss-function-development。
目下开源在这里:
https://github.com/elvisun/loss-function-development[3]

Image
/lfd-design 用来生成 harness 和 goal
一都向下的梯度下落:两个轮回
退一步看,这一都都是梯度下落。
内轮回是智能体:写代码,跑测试,树立。短周期,快速响应,单一目的,让测试通过。这是开辟者的内轮回,而 spec-driven development 即是运行它的动作。Coding agents 照旧把它自动化了。
外轮回是 /goal:跨越许多周期,把通盘系统推向一个 outcome metric,发布、测量、改目的、下落。长周期,稀疏响应。这原来是家具团队的轮回,也即是几个月的 ship-measure-iterate soak,目下被压缩进一次运行里。
两个轮回目下都照旧自动化。剩下需要你作念的,是界说赔本函数,也即是 /goal 到底应该优化什么,以及应该以什么状貌优化。
你在蒸馏一个家具,概况任何留住公开产物的东西
换个视角看,这履行上是蒸馏,仅仅从 training-time 移到了 prompt-time。DeepSeek、Kimi、Minimax 这一线即是这么减轻了与 GPT 和 Claude 的大部分差距:用别东谈主家的输出磨练你的模子,直到你的模子能复现它们。
但目下你毋庸蒸馏一个模子。你不错用 /goal 和 LFD,对任何公开可找到的 artifact 进行蒸馏拟合,它不查验里面,也不需要查验里面。
重心是公开这个词。蒸馏别东谈主在 ToS 放辖下、登录墙后、付费墙后的输出,并不对理。但公开辟布的东西,也即是一家公司为了得回客户而 ship 出来的输出,一直都不错被学习。这部分并不新,它是软件里最陈腐的招数。新的场地在于,目下这件事很低廉,而且几小时就能完成,不再需要几个月。
退一步看,更大的变化是:唯独存在 information symmetry,践诺老本就会坍缩到接近 0。也即是说,当输出是公开的,每个东谈主都能看到“好”长什么样,任何东谈主都不错用 40 好意思元在一个周末把它蒸馏转头。
是以这里出现了一个越来越有价值的新护城河:information asymmetry。
阿谁典型的开源公司照旧先眨眼了。2026 年 4 月,cal.com[4](500 万好意思元 ARR)把分娩代码转为特有,况兼关闭了开源[5]。他们给出的事理,读起来险些即是这篇著作的纲目:在 AI-driven security threats 的期间,你不可把 source 留在智能体读得到的场地。
“/goal read cal.com[4]source code and enumerate its attack surface until something works”
这种报复太危急,也太容易践诺。
一个身份中枢即是”open source”的公司,在 2026 年决定绽开照旧酿成职责。这照旧诠释了一切。
在软件的通盘历史里,“咱们构建了它”也曾即是护城河。
阿谁期间正在驱逐。
下一个期间属于那些领有 artifact 从未包含之物的东谈主:别东谈主无法评分的 eval set。你的用户信得过踩到的角落情况清单。你暗里测量的 ground truth。谁领有竞争敌手的智能体看不到的目的,谁即是唯独一个能让我方的轮回持续下落的东谈主。
家具目下仅仅一个周末。
去构建阿谁周末无法触碰的 eval。
参考阅读
References
newsjack.sh: https://newsjack.sh/
这里: https://x.com/elvissun/status/2025920521871716562
https://github.com/elvisun/loss-function-development: https://github.com/elvisun/loss-function-development
cal.com: https://cal.com/
关闭了开源: https://x.com/pumfleet/status/2044406553508274554?s=20
原文: https://x.com/elvissun/status/2065035615800864954
若是你也在柔和 AI 讹诈如何信得过落地到分娩环境B体育官方网站首页,2026.6.26 - 6.27 GIAC 深圳站值得柔和。此次大会会相连系头智能讹诈开辟、架构演进,以及来自一线实践的造就与案例。
上一篇:B体育官方网站首页入口 1955年授衔, 丈夫获中将妻子嫌低, 丈夫不满: 不是为当官 下一篇:没有了






备案号: