AI在96.25%的实际工作中不如人类

寂静回声 发表于 2026-2-28 10:01:30

为什么我们总觉得AI无所不能？研究指出，以往的AI基准测试大多是模拟的人类工作，而非真实、复杂的综合性劳动。

为了得出真相，研究人员采用了一种名为远程劳动力指数(RLI)的新方法，他们从众包平台Upwork上选取了240个真实、带薪的专业任务——涵盖了视频制作、CAD设计、图形设计、游戏开发、建筑建模等多个领域——并支付平均630美元的报酬。

结果如何？惨不忍睹。表现最好的模型(Claude Opus 4.5)的成功率仅为3.75%，Gemini的成功率甚至只有1.25%，这意味着，如果你交给AI 10个任务，它至少会在9个任务上搞砸，或者做得比人类差。

研究详细总结了AI在处理实际工作时的四大“死穴”：
文件损坏与格式错误：AI经常生成损坏的、空白的文件，或者交付完全无法打开的格式。
“半拉子”工程：交付内容不完整，比如要求制作8分钟的视频，AI可能只跑了8秒就停了，或者缺少关键的素材。
质量达不到专业标准：即便完成了任务，其产出也往往显得业余，无法满足商业交付的要求。
逻辑不一致(幻觉)：这是最致命的，例如在3D建模中，一个房子从正面看是一个样，侧面看却变成了另一个样，平面图与设计草图完全对不上。

AI领域的教父级人物、卷积神经网络之父Yann LeCun指出，人类很容易被误导。我们习惯性地认为，能熟练操纵语言的人通常是聪明的，当AI能够流利地对话时，我们下意识地赋予了它“智慧”的属性，但事实上，大语言模型(LLM)只是在模仿人类说话，它们并没有建立起真正的“世界模型”。
LeCun举了一个经典的例子：AI读过了网上所有的棋谱和规则，却依然会在下棋时走出不合规的棋步，因为它从未真正理解国际象棋的逻辑，它只是在预测下一个概率最大的字符。

研究还揭示了AI热潮下被掩盖的阴影：
医疗风险：FDA已收到100多份关于AI医疗设备故障的报告，包括误导手术位置导致患者脑卒中甚至死亡的极端案例。
资本虚火：巨头们支付给网红博主几十万美金来推广AI模型，如果这项技术真的如宣传般革命性，为什么还需要花费巨资来“说服”我们它好用呢?
软件质量下滑：微软曾自豪地宣称30%的代码由AI编写，但随之而来的是公司历史上最严重的一系列软件问题。

AI目前是一个提高效率的工具，而非一个可以独立负责的雇员。
2026年初的现状告诉我们，那些急于裁员并试图用AI顶替岗位的公司，可能很快就会发现自己不得不把人请回来。正如研究指出，如果你是一名软件工程师，现在的致富机会或许不是开发AI，而是去修复那些由AI编写的、漏洞百出的代码。

点评
你把CAD设计和建筑建模扔给大模型，它们当然不行了。
但如果你机械图纸扔给大模型，那就是100%白给。
大模型AI看不出此图纸有重大缺陷错误
http://jixietop.top/forum.php?mod=viewthread&tid=69190&fromuid=779
你们这些研究员太保守了，下回让AI识别0号装备装配图，保证AI们全部拉垮。
https://s3.bmp.ovh/2026/02/28/GO9SyNuZ.jpg
https://s3.bmp.ovh/2026/02/28/pTjEhzoL.jpg

页: [1]

机械荟萃山庄's Archiver

AI在96.25%的实际工作中不如人类