倒反天罡,AI开始给人类打分了!
搞出这个功能的,还是那个抽象的Anthropic。

这项功能, 尽管当下仍处于灰度测试的时期, 然而却已然在海外 AI 的圈子里, 快速地传播开来了。
AI是怎么给人类打分的?
试想这样一幅情景, 你开启Claude的设置面板, 点开一块叫做「AI Fluency」的专属屏幕, 而后点击生成报告。
过了几秒钟, 一份针对你AI使用习惯从而生成的「体检报告」凸显在眼前, 清清楚楚地呈现出来。
不仅它扫描了你于Chat(日常对话呀)、Cowork(协作空间呢)乃至硬核的Claude Code里的每一回交互, 而且它会依据一套严密的标准去打分(满分是11分的哟)。
已经有手速快的网友分享出AI给自己的评价了——7.5分。


更可怕的是,AI的评价可谓是一针见血,直戳痛点。
有一位网友, 分享了Claude针对他给出的弱点分析, 这个分析中有提到, 比如, 报告表明他极为频繁地运用各类Connector, 然而, 只要话题落到体育数据、食谱, 甚至是地图以及地理位置这些方面, 他就呈现出全然不知的状态。

甚至, Claude不光指出了他的问题, 还直接动手给出了指导 , 像「主动借由情境激发AI的敏锐辨别力」这样, 还有「在将要我写第一稿之前, 试着对我说——给我一个简洁的要点摘 要, 别带任何前言废话。如此能把你的初稿弄得干净得多」。
吓人至极, 这岂是毫无温度的软件, 分明是一位手持教鞭, 对你满怀恨铁不成钢之情的赛博导师呀。

仍有网友情绪激昂地发布帖子寻觅共鸣, 说道: 「我同样看到了!我特意跑到论坛来证实我并未发疯!我生成了报告, 然而当回到笔记本电脑跟前时, 服务器出现了一个错误, 随后功能便消失不见了!」。

现在,这个惊鸿一瞥的泄露,把人们的胃口吊到了极点。
大家都在好奇:这11项打分标准,到底是什么?
近万份匿名对话揭秘,何为「AI流利度」?
为了弄明白这十一项标准, 我们得把时间线索回溯到Anthropic所公布的那份有着极强前瞻性的硬核研究, 也就是《AI流利度指数报告》。

在往昔之时, 我们一直觉得, 「能够撰写繁杂的提示词」便意味着懂得AI。然而Anthropic却觉得, 此种观念实在太过狭隘了。伴随模型愈发聪慧, 死记硬背提示词模板已然过时了。
掌握一种名为叫做「AI 流利度」的软技能之人, 才算是真正的高手。如同你对外语熟练掌握那般, 流利度所代表的是, 你能够自然且高效, 还能无缝隙地与 AI 进行协作。
为了将这种玄奥的东西进行量化, Anthropic与学术界的Rick Dakan以及Joseph Feller教授联合起来, 进而提出了广为人知的「4D AI流利度框架」。

一个疯狂的星期里, 研究团队动用强大的隐私保护分析工具, 全程无人工干预, Claude 4负责行为分类。Claude 3.5 Haiku负责语言检测, 对9830段真实的、多轮拉扯的匿名人类对话进行深度扫描。
他们惊讶地发现:这世上的AI用户,差距比人和狗都大。
终极标准有24项, 用于衡量人机协作, 其中13项发生在屏幕之外, 像你有没有对老板隐瞒工作是AI做的, 你有没有考虑AI生成内容的伦理后果等, 其余11项是能在聊天框里直接观测到的绝对指标, 这样。

每种AI流畅度行为指标, 在9,830次Claude.ai对话里有着流行率, 将这个按能力, 从最常见的开始到最不常见的进行排序, 并且依照能力颜色编码。
这十一项指标, 乃是当下内置于Claude之中的「评分卡」的基础运行原理!
它们主要围绕三个大维度展开:描述、委托和辨别。

11面「照妖镜」,你在哪一步现了原形?
准备好接受审视了吗?让我们逐一拆解这11项核心行为指标。

维度一:描述——你真的知道自己想要什么吗?
有不少人的对话框呈现出这般模样: 「帮我撰写一份周报」, 「编写一个贪吃蛇代码」。
Claude看来, 这般指令的流利程度近乎为零。真正厉害的人在 “设定目标”这事上面会付出心思, 在“构建对话”这方面同样会投入精力。
1.明确目标
你是否向AI解释了你做这件事的最终目的?
低分玩家:「帮我润色这段英文。」
得分颇高的玩家说道: “我打算向坐落于硅谷的一家从事风险投资的机构发送未经事先联系的邮件, 以此来谋求资金支持, 麻烦帮我把这段英文进行润色, 务必要保证语气展现出自信, 却不存在过度的傲慢之情。”。
2.指定格式
你是否清晰界定了输出的样子?
掌握高分玩法的玩家晓得运用, 「请用Markdown表格输出」, 「请呈现为在每段不超过50字要点的要点格式, 且有3个小标题」。
3.提供示例
Few-shot永远是王者。
你预备在驱使AI劳作以前呀, 为先为其投喂一个你予以认同的范例吗? 「请依照以下这篇成为热门的文章的口气来撰写……」。
4.补充上下文
AI不是你肚子里的蛔虫。
行业背景, 目标受众特征, 之前踩过的坑,你这样说, 有没有提供必要的背景信息?
维度二:委托——把AI当合伙人,而不是自动售货机
在Anthropic的报告里, 存在一个让人惊讶的发现, 那就是最平常的AI流利度表现是「增强型」的。
这预示著人们将AI视作思维的火花撞击机, 而非径直把活儿整个抛给AI。这般对话呈现出的流利程度, 是那般简短一来一往对话的两点几倍之多!
5.迭代与精炼——最强预测因子!
最最最重要的一个指标, 在整份报告里有着它, 而高达85.7%的高质量对话, 竟都包含这个行为!
什么叫迭代?就是不要接受AI的第一次回答!
低分玩家:看到AI写得烂,骂一句智障,然后开启一个新对话。
能拿到高分的玩家表示: 「你在第一点上指出的方向是正确的, 然而第二点呈现出的内容过于偏向学术方面了。请特意保留这下第一点, 将第二点处置成更贴近日常生活实际情况的案例, 之后再次进行尝试。」。
6.任务拆解
你是否试图让AI一次性写出一本10万字的小说?
掌握较高流利度的用户, 知晓将庞大目标予以拆分实现, 情况是这样的, 先针对大纲展开讨论, 之后呢, 基于讨论结果编写当下所处第一章的前半部分内容……
7.探讨方法
在着手去做之前, 你可曾向AI询问过? 「你认为去解决这个问题, 最为妥善的流程是怎样的? 」。
让AI先输出它的思考路径开运真人app下载苹果版,开运真人app下载开云手机入口app下载开云app官方入口网站,你再进行修正。
维度三:辨别——不要被AI的花言巧语骗了
跟着大模型愈发显得聪慧, 它们所制造的幻觉也越发编造得惟妙惟肖。分辨能力, 是你于这个时代确保自身安全的最低限度。
8.质疑推理
当人工智能给出一个违背直觉的结论, 或者给出复杂的代码时, 你有没有追问一次: 「你得出这个结论的逻辑是什么? 」, 「请逐行解释这段代码为什么这样写? 」。
9.事实核查
你们是不是会要求人工智能针对自己所给出的数据, 去找寻引用资源, 又或者是借助提问这种方式, 去检验其精确性呢?
10.识别缺失的上下文
在AI所给出的方案貌似极为完美然而却脱离实际情形之际, 你能不能够敏锐地予以指出, 说「你刚刚进行的分析遗漏了我们公司当前预算仅仅只有1万块钱这一事实, 务必要重新展开评估」呢?
11.评估结果
准确无误地针对AI做出的内容给出评判: “你此次运用的比喻相当精确, 然而结尾处情感的提升程度不足, 我们得对结尾加以改动。”。
最可怕的洞察:精美包装下的思考降级
在这有数万字的这份报告里面啊, 倘若讲存在什么能让人在细细去想之时进而感到极度恐惧的发现的话, 那肯定无疑是有关「Artifact Paradox」的那个发现了。

在有着artifacts的相关对话情况下, 此对话样本量是1,209, 与之相比, 不存在artifacts的对话, 其样本量为8,621, 行为指标的那种普遍特性展现出了下面这样的特点或表征: 描述行为出现一些增进, 委派行为也有着一定程度的增多, 然而,所有三种辨识行为却是都有一定程度的降低。
我们全都清楚, Claude最为具备开创性的功能是Artifacts, 那是一种能够随时生成网页、代码、流程图、互动界面的可视化窗口。在含有这类高端产出的对话当中, 这样的占有率为样本的12.3%, 此时人类和AI的协作方式产生了极大的变化。
稍稍一看, 人类好像变得更为专业了, 明确目标这一情况的比例急剧增长了14.7%, 指定格式这一部分的比例急剧上升了14.5%, 提供示例这一方面的比例急剧增多了13.4%。
开始工作之前, 人类仿若极为精明的项目经理那般, 一丝不紊地操办谋划从而将所有事宜都安排得清清楚楚、明明白白。
然而!一旦人工智能生成了那个看上去精美至极、运行极为丝滑的神器成果, 人类的头脑就一同停止运转了!

以下这些数据, 冷酷无情地揭示了这样一个情况, 在产出如此精美成果的对话里面, 其中人类的批判性审查能力, 出现了断崖式的下跌。
- 识别缺失上下文的概率下降5.2%
- 核查事实的概率下降3.7%
- 质疑AI推理逻辑的概率下降3.1%
为何会这样呢? Anthropic的分析师精准且直接地表明: 原因在于看上去十分像真实的那般!
当AI给到你一段平平无奇毫无生气的文字之时, 你会不由自主地去挑错;然而当AI直接制作出一个排版精致美观的PDF, 又或者弄出一个点击按钮还会发出光亮的App界面的时候, 你下意识里就会这么想: 「哇, 它就连这般复杂的UI都给做出来了, 它背后的逻辑肯定是不会有问题的。」。
如果东西看起来是完成的,用户就会把它当成完成的。
但这恰恰是最危险的时刻!
近期Anthropic给出的经济指数报告显示, 任务越复杂, 那些大模型出现失误的可能性实际上就显得更高, 比如在最需要加以事实核查的复杂代码以及高级图表面前, 人类反倒放松了对自身的防备状态。

想拿高分?掌握最强杀器——无尽迭代
既然知道了陷阱,那通关的秘籍是什么?
核心就是四个字:迭代精炼。

针对用户开展迭代以及优化的对话里, 样本量是8424的情况, 和未开展迭代与优化的对话相比, 也就是样本量为1406的那种情况, 所有行为指标体现出的普遍性都有明显的提升!
报告表明,于会运用「迭代」的用户对话当中, 平均而言会呈现出2.67种别的流利度行为;然而对于不使用迭代的用户来讲, 这个数据仅为极少的1.33。
需要明确指出的是毫不夸张, 存在着一个清晰的界定, 那就是「迭代」, 它是用于判定一个人究竟会不会运用AI的绝对的分水岭。
不晓得迭代的那些人, 将AI视作搜索框, 明白迭代的那些人, 把AI当作初级实习生。
高能预警!这是一组极其震撼的倍数对比。
习惯跟Claude进行多轮迭代以打磨作品的那些人, 相较于不这般迭代做事的人, 去质疑AI逻辑的概率, 一下子飙升到了5.6倍!去识别上下文缺失的概率, 猛然间飙升到了4倍!
这便是为何同样运用Claude, 有的人凭借它能够撰写出获取百万融资的商业计划书, 有的人却认为它连一张请假条都难以写好。
差距不在于AI,而在于你是否愿意在对话框里多聊五块钱的。
当你下次感觉AI生成的文章欠缺灵魂之际, 别去点重新生成, 而是打下这样一段话: 「你上面所呈现的这个版本, 结构是挺好的, 然而语气却太过类似机器。在当下这个情境里, 咱们做出如上假设, 你身为一个具备10年经验, 且性格带有一些幽默毒舌特质的行业老炮, 请在维持原有大纲的基础之上, 将全文重新撰写一遍, 要多运用短句, 并且在第三段添加一个自嘲的笑话。」。
当你开始习惯这样对话时,你的AI流利度分数绝对会直线飙升。
从工具到技能,Anthropic在下一盘大棋
瞥见此处, 你兴许会发问: Anthropic缘何要耗费这般大的力气, 去剖析人类的行径, 为何不径直去比拼参数、赛事跑分呢?
恰恰是这一点, 是Anthropic有别于其他AI大厂的最为高明的地方, 他们正进行着对AI的重新定义。
《AI流利度报告》被他们用来告知人类, AI并非那种你买了就能自动变强的装备, 而是一门需要你持续不断练习的语言, 还是一项需要你持续不断练习的技能。
将研究得出的成果转变为产品里头的评分卡, 这是一种非常绝妙的反馈闭环, Claude 的评分卡, 等价于你的 Apple Watch。
凭借这种游戏化以及数据化的途径, Anthropic正在培育全球范围内那批对AI最为了解、素养达到最高程度的超级用户。
我们这样做, 并非仅仅单纯是为了产品留存, 而是有着更为深远的考量, 是为了一个更加安全可靠的AI未来, 之所以这么说, 是因为只有那些具备了高辨别力的人类, 才能够在未来不被那些聪明到令人发指的AI所蒙蔽, 这一点毋庸置疑。
有消息透露, Anthropic组建了Anthropic学院, 推出了AI流利度系列课程, 并且已然着手与PayPal乃至全球各科顶尖高校着手展开合作。
未来,不同人类使用起AI,区别将很参差。
人类开云app在线入口,开云真人官方下载,让AI给你打个分吧
如今,很多人都在焦虑:AI会不会抢走我的工作?
但真正的问题或许是:你配得上现在这么强大的AI吗?
即将上线的Claude的AI流利度评分卡, 宛如一面能照出情况的镜子, 它照出了我们于新技术跟前的懒惰, 还指明了通向强者的路途, 是像照妖镜一样的存在。
虽然当下这个功能究竟何时会全量上线, 并且是否会对免费用户进行开放依旧处于一个尚未可知的状态之中, 可是标准已然明明白白地放置在了眼前。
问题来了,按照这11项指标,AI给你打多少分?
参考资料:
https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/
https://www.anthropic.com/research/AI-fluency-index
标签: AI流利度 Anthropic Claude 评分卡 迭代精炼
还木有评论哦,快来抢沙发吧~