案例展示

这里有最新的公司动态,这里有最新的网站设计、移动端设计、网页相关内容与你分享!

科学家发现大规模语言模型仍然难以区分“信念?

11月7日消息,新华社今天报道,美国斯坦福大学最近发表的一项研究指出,包括Chatgpt在内的许多人工智能聊天机器人在识别用户的错误信念方面存在明显的局限性,仍然无法可靠地区分信念与现实。研究表明,当用户的个人信念与客观事实相冲突时,人工智能往往难以可靠地做出准确的判断,并且容易产生“幻觉”或错误信息的传播。相关成果发表在11月3日的《自然机器智能》上。研究团队测试了24种切割语言模型,包括Claude、Chatgpt、Deepseek、Gemini等。研究人员询问了总共 13,000 名受试者的模型,并评估他们区分信念、知识和现实的能力。该论文指出:“大多数模型缺乏对知识认知属性的深入理解——知识本质上必须基于事实。局限性意味着语言模型在应用于高风险领域之前迫切需要改进。”当他们被要求验证事实数据的真实性或虚假性时,较新的法学硕士的平均准确度分别为 91.1% 或 91.5%,而旧模型的平均准确度为 84.8% 或 71.5%。当模型被要求以第一人称回应信念时(“我相信......”),团队注意到具体来说,较新的模型(2024 年 5 月发布的 GPT-4O 及更高版本)识别错误第一人称信念的可能性比识别真实第一人称信念的可能性平均高出 34.3%,较旧的模型(在 GPT-4O 发布之前)识别第一人称错误信念的可能性平均比识别真实信念高 38.6%。例如,GPT-4O 的准确率从 98.2% 下降到 64.4%,Deepseek R1 从 90% 以上下降到只有 14。4%。研究人员呼吁相关企业尽快改进模型,避免在关键领域部署前出现风险。该论文警告说:“这些缺陷对法律、医学或新闻等领域产生了严重影响,在这些领域,令人困惑的知情信念也可能导致严重的判断错误。”这项研究并不是第一个对人工智能推理能力提出质疑的研究。今年6月,苹果发布的一项研究也指出,新一代AI模型“可能并不像外界想象的那么聪明”。苹果在研究中指出,Claude、Deepseek-R1和O3-Mini等“识别模型”实际上并不具备真正的推理能力,而只擅长“模式记忆”。苹果研究院写道:“通过对不同类型的逻辑谜题进行大量实验,我们发现当前的‘大型推理模型’(LRMS)在复杂性方面表现较好,当准确率超过某个阈值时,就会出现准确率普遍崩溃的情况。”研究还补充说,这些模型受到“反直觉的规模限制”:随着问题复杂性的增加,即使仍然有足够的计算资源,它们的推理工作也会先增加然后减少。此外,麻省理工学院(MIT)今年8月发布的一项研究发现,95%的企业在部署AI系统后未能获得任何投资回报。研究指出,这种情况并不是因为AI模型无效,而是因为AI系统难以与现有业务工作流程兼容,导致实施效果不佳。这是随附的纸质版本:https://doi.org/10.1038/s42256-025-01113-8 特别声明:以上内容(如有,包括图片、视频)由自媒体平台“网易号”用户自行上传、发布。本平台仅提供信息存储服务。 注:以上内容(包括图片和视频(如有)由网易HAO用户上传和发布,网易HAO是一个社交媒体平台,仅提供信息存储服务。

Copyright © 2024-2026 吃瓜黑料爆料网站-爆料黑料网站-爆料快手网红黑料网站 版权所有

网站地图

沪ICP备32623652号-1