AI在96.25%的实际工作中不如人类
为什么我们总觉得AI无所不能?研究指出,以往的AI基准测试大多是模拟的人类工作,而非真实、复杂的综合性劳动。为了得出真相,研究人员采用了一种名为远程劳动力指数(RLI)的新方法,他们从众包平台Upwork上选取了240个真实、带薪的专业任务——涵盖了视频制作、CAD设计、图形设计、游戏开发、建筑建模等多个领域——并支付平均630美元的报酬。
结果如何?惨不忍睹。表现最好的模型(Claude Opus 4.5)的成功率仅为3.75%,Gemini的成功率甚至只有1.25%,这意味着,如果你交给AI 10个任务,它至少会在9个任务上搞砸,或者做得比人类差。
研究详细总结了AI在处理实际工作时的四大“死穴”:
文件损坏与格式错误:AI经常生成损坏的、空白的文件,或者交付完全无法打开的格式。
“半拉子”工程:交付内容不完整,比如要求制作8分钟的视频,AI可能只跑了8秒就停了,或者缺少关键的素材。
质量达不到专业标准:即便完成了任务,其产出也往往显得业余,无法满足商业交付的要求。
逻辑不一致(幻觉):这是最致命的,例如在3D建模中,一个房子从正面看是一个样,侧面看却变成了另一个样,平面图与设计草图完全对不上。
AI领域的教父级人物、卷积神经网络之父Yann LeCun指出,人类很容易被误导。我们习惯性地认为,能熟练操纵语言的人通常是聪明的,当AI能够流利地对话时,我们下意识地赋予了它“智慧”的属性,但事实上,大语言模型(LLM)只是在模仿人类说话,它们并没有建立起真正的“世界模型”。
LeCun举了一个经典的例子:AI读过了网上所有的棋谱和规则,却依然会在下棋时走出不合规的棋步,因为它从未真正理解国际象棋的逻辑,它只是在预测下一个概率最大的字符。
研究还揭示了AI热潮下被掩盖的阴影:
医疗风险:FDA已收到100多份关于AI医疗设备故障的报告,包括误导手术位置导致患者脑卒中甚至死亡的极端案例。
资本虚火:巨头们支付给网红博主几十万美金来推广AI模型,如果这项技术真的如宣传般革命性,为什么还需要花费巨资来“说服”我们它好用呢?
软件质量下滑:微软曾自豪地宣称30%的代码由AI编写,但随之而来的是公司历史上最严重的一系列软件问题。
AI目前是一个提高效率的工具,而非一个可以独立负责的雇员。
2026年初的现状告诉我们,那些急于裁员并试图用AI顶替岗位的公司,可能很快就会发现自己不得不把人请回来。正如研究指出,如果你是一名软件工程师,现在的致富机会或许不是开发AI,而是去修复那些由AI编写的、漏洞百出的代码。
点评
你把CAD设计和建筑建模扔给大模型,它们当然不行了。
但如果你机械图纸扔给大模型,那就是100%白给。
大模型AI看不出此图纸有重大缺陷错误
http://jixietop.top/forum.php?mod=viewthread&tid=69190&fromuid=779
你们这些研究员太保守了,下回让AI识别0号装备装配图,保证AI们全部拉垮。
https://s3.bmp.ovh/2026/02/28/GO9SyNuZ.jpg
https://s3.bmp.ovh/2026/02/28/pTjEhzoL.jpg
页:
[1]