近来, 有一篇报道将Claude Code的「进步诀窍」给放置到了显眼之处。
据Business Insider称, Anthropic存在一个专门用以提升Claude Code的项目, 该项目凭借约1000名软件工程师所给出的反馈来对其加以打磨。
在数据公司Snorkel AI内部, 存在这么个项目, 其内部为此项目设定的代号是「Marlin」。

早在今年1月, Claude Code的负责人Boris Cherny爆料, 自己已经有两个多月没有手写过一行代码, 一天之内让Claude提交了22个拉取请求, 也就是Pull Request, 前一天提交了27个, 并且这些全都是模型写的。
也有报道称,Anthropic内部代码也大部分由AI生成。
有趣的地方开云真人app官方版入口,开云真人app官网入口,正在这儿。
其一, Anthropic自身核心的工程师, 已然将大量的编码工作交付给了模型;其二, 它正在花费资金聘请大约1000名外部工程师, 通过手把手的方式教导Claude Code何为「好代码」。
一小时280美元 买的到底是什么
由Business Insider所讲, Marlin项目所聘请的外部工程师均具备软件工程背景。他们所从事的工作, 听起来宛如一次名副其实的代码评审。
先是从一份有着数千个仓库的清单之中, 去往当中去选一个GitHub代码仓库, 接着去建一个PR, 意思即为是达到开发者提交代码改动的那一步成果产生程序状况, 随后还要书写一段提示的词语或是句子, 将任务详细且清晰地说明讲解明白具体具体。
模型会产出两套代码, 随即这些外部工程师接着要做的事情, 乃是A/B测试, 也就是去对比两套输出结果, 而后挑选出更为出色的那一套。
每一任务的报酬是280美元, 大概耗费一小时, 有的还需与Snorkel的审核层反复周旋好几轮。
作为评判的依据, 是对生产级别的代码针对正确性、安全性、可靠性还有可维护性加以评估。
举两个真实的例子。
有一个任务, 其中外部的工程师责令着让那模型去重新构建系统处理执行元数据所采用的方法形式, 其目的是使得代码能够变得更加清晰, 并且能够更好地去进行维护, 然而却不会对功能产生改变。
在另外的一个任务里面, 存在这样的情形, 外部的工程师面对着叫做MLflow的开源机器学习平台, 要针对在其加载模型的时候, 可能会出现下载Python包时命令进行注入这种漏洞去做安全方面的修复。有一份材料对这方面作了要求, 并且这个要求是十分清晰明确的, 那就是既要能够有效的阻挡住命令进行注入这种情况的发生, 同时呢又绝对不可以错误地伤害到那些本属于合法的pip也就是Python包管理器的选项。
这些任务提出的要求, 已然超越了数据标注所涵盖的范围, 进一步而言, 更近似于促使一位极具经验的工程师, 将脑袋里那套认定「这样写会更优」的判断, 原封不动地拷贝给模型。
显然, Anthropic购置的并非代码, 乃是资深程序员头脑里那个怎样将代码写得更具安全性、更趋纯净度的判断。
为什么非得是工程师
人为因素为何要这般费尽周折呢? 是由于克劳德代码早已不再是一个编写代码的聊天窗口了。
被Anthropic官方定义成项目级的AI智能体, 它能够读完整个代码库, 能够跨文件进行规划, 能够直接执行修改, 能够跑测试, 还能依据失败的结果自行迭代。

在Anthropic官网那里, 对于Claude Code所作出的定义是, 存在着这样一套智能体, 它能够做到读取代码库, 然后进行跨文件的改动操作, 又能够跑去运行测试, 进而交付已经提交上去的代码。
这意味着它会真的动手改文件、跑任务,接触整个代码工程。
Anthropic自身明白这件事情所具有的分量, 所以在工程博客当中, 一次又一次地讲述Claude Code的权限问题, 以及沙箱方面的情况, 还有批准疲劳此种情况。
正常的状态之下, 高风险类的文件相关修改活动或者命令执行行为, 是需要用户予以批准的;为达到降低因反复进行授权操作所引发的批准疲劳这一目的, Anthropic这个主体呢, 还专门引入了sandboxing这种机制, 使得Claude Code能够在预先设定好的文件系统、在既定好的网络边界范围以内, 更加安全、顺利, 没有任何阻碍地运行。
一旦一个人工智能具备运行命令以及修改线上代码的能力, 那么其所犯错需要承担的代价就会全然不同。与此同时, 训练目标也会随之发生变化, 即从要求写出正确的内容, 提升为要写出安全、可靠且可维护的内容。
这些事物, 平常的代码语料难以培育出来。它往昔隐匿于资深软件工程师的代码核查之中, 系人与人之间传递的经验。如今, Anthropic打算借助招募人类程序设计专家, 将其转变为能够购置的数据。
Snorkel 被低估的「数据军火商」
整件事情的真正主角是Snorkel。
2019年, 有一家公司从斯坦福AI Lab脱离而出, 它所押注的方向仅有一个, 那就是, 真正对机器学习成败起到决定作用的是数据, 并非模型或者算力。
Alex Ratner与其在斯坦福的导师Chris Ré是Snorkel的两位较为关键的创始人, 所言称来Snorkel的核心乃学术源头。只不过于他两人而已。

潜水式人工智能联合创始人, 首席执行官, 亚历克斯·拉特纳。
在2015那时候哎, Snorkel它仅仅只是Ratner在读博期间的时候碰到的那种被叫做一个「下午方面」里的项目哦: 就是说, 与其耗费很大的价钱去雇佣人员从而逐條地精确标记各类数据,倒不如采用程序以及规则去进行那所谓的「表现比较薄弱的监督」也就是(weak supervision)这样一种方式, 以此达到能够让模型在不依靠人工去逐条逐点进行标志这样的情况之下居然也能够学习!
借着这一套思路, Snorkel积攒起60多篇论文, 开源工具被Google、Intel加以运用, 直至2019年才开始正式拆分成为公司。

Snorkel AI联合创始人开云真人app官网登录app,开云真人app在线登录,斯坦福教授Chris Ré
Ratner的导师Chris Ré也是个狠角色。
他身为斯坦福教授, 他属于麦克阿瑟天才奖得主, 他是连续创业者, 他参与的项目, 乃是那种曾经会被苹果收购的, 他且还是创办了, 创办了估值一度多达50亿美元的SambaNova的人。
最有意思的还是这家公司的转身。
Snorkel当年所要突破的, 恰恰是“人工标注既慢、且贵、还不稳”这一极为棘手的难题, 在那个时候, AI开发大约80%的时间都耗费在了手工标注数据上面, 所以Snorkel最初的梦想, 就是尽可能地将人 从标注之中解放出来。
可步入前沿模型时代之时, 那最具稀缺性、最具价值的又再度回归至人这一主体之上, 只是转变为博士、医生、律师、资深工程师等这样的专家所具备的品味以及判断。此家凭借「少用人」作为起点发展起来的公司, 现如今最能够获取利润的业务反倒成了组织一支价格高昂的专家队伍去开展前沿AI的训练工作, Marlin仅仅是其中的一个案例而已。
它的工作流,刚好也呼应了Marlin项目的需求。
关于这套工作流, Snorkel官网是如此描述的: 首先得去定义任务, 以及评分标准和验证器, 以此来框定“什么算好”这一范畴 , 然后要运行专家评审流水线 , 其中包括作者参与把关 , 多名评审者层层把关 , 还有最终裁决者进行把关 , 并且整个过程都要留下痕迹。

斯纳克官网示意, 评审打分产生分歧后, 经由裁决加以解决, 且被写入评分标准变更记录当中, 每一处改动, 能够追溯到究竟是谁, 在哪一个时间, 依据了什么。
它还会搭建好评估环境以及数据, 使得同一批任务能够在不同的模型版本上反复运行, 进而得出可复现、可进行比较的分数。然而, 若要使分数清晰可比, 那么评分的人就不可以受到版本的干扰。这些外部工程师不清楚自己所评的是哪个版本, 原因便在于此。
报价也很能说明问题。
Snorkel有一个公开的法律方面合同岗位, 每一项高质量任务报酬在10到100美元之间;Marlin的软件工程任务每个280美元 , 大约需时一小时 , 折算后的时薪差不多是同行的两倍半(Scale AI、Mercor给工程师每小时开到110美元)。顶尖专家一周到手收入还能超过3000美元。
Snorkel招募的这些外部工程师的反馈,是真的贵。
Google、Mistral、Anthropic在客户名单之中。Snorkel于2025年5月完成了D轮融资, 其估值为13亿美元。
营收负责人凯特·詹森称, 要将克劳德的潜力彻底释放出来, 需借助引进领域专家以及人类反馈的全新评估方法, 而且人类公司会持续与像斯努克这样的公司展开合作行为操作。
Snorkel公司, Scale公司, Mercor公司, 这些公司, 过去被视作「标注平台」, 如今它们变成前沿模型公司背后不能被轻易发现的供应链。
给极为聪慧的AI提供素材的, 是这样一支分布于全球各个地方的、肉眼难以瞧见的专家队伍。
几个巨头 抢的是同一种数据
不单单是Anthropic在搞购买真实工程能力这件事, 这场存在着几个重磅玩家参与其中的竞赛, 仅仅是各自采用的打法有所不一样罢了。
Cursor走的是产品数据这条路。
它在官方明确表明: 当用户将隐私模式予以开启之后, 代码是绝对不会被它以及第三方用于训练的;只有在隐私模式被关闭的情形下, 它才有存在可能利用代码库数据、提示词、编辑行为、代码片段, 以此来对AI功能进行改进、对模型展开训练。
Cursor的Tab模型一天之内要产出超过10亿个编辑着的字符, 其请求量相较于初版而言大概上涨去约有100倍还多!况且此外更进一步推出的Composer却是, 采用为依靠着强化学习也就是RL这种方式来进行训练, 从而使得模型能够在大量代码任务的环境当中去学习怎样调用编辑以及搜索等各类工具, 进而处理那些周期更长阶段的工程任务呢。
来到最新的Composer 2.5 , 直接主要致力于需要数百步操作的长周期任务。
马斯克采用的是资本绑定/收购期权的方式。
今年2月, xAI被并入SpaceX。4月底, SpaceX取得了年内以600亿美元收购Cursor母公司Anysphere的权利。或者先给100亿美元进行深度合作。马斯克所看中的恰恰是Cursor手里那份全球最为活跃的真实开发者行为数据。
5月25日, 马斯克于X上宣告, 新一代基础模型Grok V9-Medium训练告终, 其参数为1.5T, 是当下生产模型的3倍。特别指出, 这乃未加Cursor数据补训时的成果, 加完后「编程能力会显著增强」, 模型预估于6月中旬公布。

要是这般, V9竟然会是首个系统性地“尝过”真实开发者所作所为数据的Grok。
OpenAI后续的Codex也踏上了这般道路, 2025年所发布的Codex是由codex - 1予以驱动的, OpenAI宣称它是历经在真实编码任务里借助强化学习展开训练的, 其目标在于撰写出贴近人类风格、契合PR习惯的代码, 并且还能够不断反复运行测试直至通过, 每一项任务均运行于预先安装了你代码库的隔离沙箱之中。
当前, Codex提升为OpenAI的agentic coding平台, 此平台由前沿编码模型予以驱动, 按照Axios的相关报道显示, 如今每周用户数目已经超出500万。
他们争夺的,其实是同一种东西:过程数据,只是路径各不相同。
Anthropic一开始有了模型, 然而缺少来自真实开发现场的反馈, 于是花了钱去聘请大约1000名工程师, 进而把软件工程的过程拆分成为能够用来学习的数据。
Cursor存在产品以及真实用户所作所为, 同时存在自行研创的Tab、Composer等等编程模式。要是跟OpenAI、Anthropic比较, 它更多地欠缺的是通用基本模型根基以及大规模训练计算能力。
马斯克缺乏的同样是数据, 索性谋求运用几百亿美元去购置一个能够持续生成开发者行为数据的产品入口。
OpenAI已具备模型与产品, 这样一来, 它专门搭建了沙箱, 在其中, 使得模型针对真实发生的编码任务, 借助强化学习的方式, 一次次地通过试错、测试、进而修正, 最终实现迭代。
有几家, 其打法存在差异, 然而却通过不一样的途径, 最终达到了相同的目的, 它们都在运用那些越来越逼近真实工程现场特性以及状况的数据, 以此来对自身所持有的AI编程模型展开训练。

真正的护城河 是人的品味和判断
有一篇名为SWE-chat的论文, 它首次进行了大规模的数据采集工作, 所采集的是真实的智能体编码会话, 其数量为6000段, 其中有超过6.3万条用户prompt, 还有35.5万次工具调用操作。
它得出一个令人心痛的数字,那个数字关联的是源于智能体产出的代码,在此之中,仅仅只有44%最终进入到了用户的提交里面。另外超过一半的代码的命运是,被别人进行了删减,被别人进行了修改,后来又被别人推翻啦。

对SWE - chat进行实测, 发现vibe编码在会话中所占比例为41% , 但智能体所写代码唯有44%最后进入提交阶段 , 用户在交互轮次的44%情况 , 皆是源于纠正 、报错或者中断来反向推导模型输出。
这表明, 像那类HumanEval的老基准测试, 也就是benchmark, 已然被刷到了饱和限度, 仅仅凭借查看跑分, 其意义已经不大了。实际真正的战场所在乎的并非全然如此, 而是在真实的开发过程当中, 存在着那些一而再、再而复之地经历反复琢磨探讨流程的, 有着试错历程的, 甚至是已经推翻原有方案而后重新再来构建新方案的数据。
模型倘若越强开云app在线入口,开云真人官方下载,那么就越需要花钱去购置人类尚未被替代的那一部分东西, 这种东西便是工程直觉。
人本公司以每个任务280美元的价格, 聘请了大约1000名工程师来进行A/B投票, 那种看起来显得累赘的工作内容, 所购买的恰恰就是这一特性。
把工程现场变为模型可消化的数据之人, 能握住进入AI编程下一程的入场券, 谁能做到呢。
参考资料:
https://www.businessinsider.com/anthropic-improve-claude-code-snorkel-data-training-contractors-2026-6%20
https://snorkel.ai/blog/anthropic-claude-aws-revolutionizing-pharma-data-analytics-with-snorkel-ai/
标签: AI编程 代码生成 数据训练 工程师反馈 Anthropic
还木有评论哦,快来抢沙发吧~