体育游戏app平台天然说论文是OpenAI发的-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期：2025-09-25 08:18 点击次数：198

文｜象先志

本文开动前，「象先志」先问群众三个问题，群众不错总计想考下

1. AI为什么要骗你？

2. 幻觉是诳言语模子的bug已经feature？

3. 为什么AI老是一册肃穆地瞎掰八谈？

OpenAI前段时代发了篇论文，题目叫《Why language models hallucinate》，讲明为什么诳言语模子会产生幻觉。「象先志」会先先容下论文内容，然后「象先志」再聊聊对这个问题一些不雷同的看法。

略微有点硬核，但愿群众耐性看到临了。这篇论文的基本论断，是大模子产生幻觉，原因是开辟东谈主员在教师它的时候荧惑它这样作念。等于说大模子天性是好的，是跟错了东谈主，背面路才走歪的。

为什么这样说呢？在教师大模子的时候，厂商里面会跑许多的测试，来评价和校准大模子的厉害。这些测试只看准确率，不看失实率，是以哪怕模子不知谈谜底是什么，它已经会倾向猜一个谜底。就跟咱们熟练的时候，哪怕不会作念，答题卡上也要涂尽是一个真理真理。

要措置这个问题，那就一口谈破嘛，论文作家号令群众要改动评测基准，不要再搞那套基于准确率的评估措施了，要荧惑大模子承认我方的无知，而不是一册肃穆的瞎咧咧。

论文主要说的等于这事，「象先志」想逻辑群众应该很容易王人集。简洁讲，天然说论文是OpenAI发的，但「象先志」合计莫得什么新东西。天然OpenAI出来发有个平正，东谈主家行业地位摆着这，出来吼两嗓子，有助于从业者更快地签订到问题，然后去针对性地措置。

聊完论文，「象先志」再聊下对模子幻觉问题的王人集。「象先志」认为话语模子实质上莫得幻觉不幻觉的主见，它们仅仅基于已有的信息，去瞻望下一个token。你教师数据里是什么样的概率分散，它就会尽量去拟合这个分散，仅此汉典。不论你怎么去波折模子评估的模样措施，它其实仍然是在投合新的评价想法。

比如说，蓝本答错不扣分，刻下答错要扣分，那模子信服更严慎，不笃定的事实，不知谈的谜底，它就更多承认我方不笃定大概不知谈。

但这样已经存在两个问题。

第一，模子仍然是莫得事实和非事实的主见辨认，它不是因为这个东西是幻觉，它才不输出；它是因为这个输出会扣分，它才不输出。

这就引出了第二个问题。按照这个王人集角度，要减少模子的幻觉，等于要合理建造模子的评估情状，去尽可能取悦模子的输出跟东谈主类融会上的事实述说重合。

这昭彰是一种治标不治本的模样，因为模子的输出闭幕跟东谈主类认为的事实是两个话语集会，咱们刻下等于没办法，凯旋对准背面这个集会作念优化，是以只可退而求其次，对前一个集会作念转折的闭幕。

但这样搞有多大成果？上限在那里？都是不知谈的。

打个譬如吧。东谈主发热是因为肉体内的免疫系统在剧烈响应，这个响应是有一个根底的诱发要素的，比如说病毒感染。那刻下要措置发热的问题，一种办法是凯旋对病毒作念处理，上一些抗病毒的药物，病毒措置了，肉体天然就不发热了。

还有一种办法是什么呢？等于把体温作为念优化想法，用药物把免疫响应按下去，大概在头上敷冰块，归正要达到降体温的想法。

刻下OpenAI提的措置决议就雷同于后者。这个措施有没灵验？天然灵验，就像东谈主若是一直发热发高烧，脑子就烧坏掉了，先把体温降下来、缓解症状，是赈济身手中必要的要害。

OpenAI新的GPT-5委果也比之前模子要好许多，幻觉症状有昭彰的缓解。但这能不可措置根底问题呢？我合计很难，你临了已经需要找到发热的原因才行。

只不外跟生病不雷同，东谈主发热是有客不雅原因的，可能受限于医学发展进度大夫找不到，但咱们知谈这个原因是客不雅存在的。而话语模子的幻觉问题有可能是与生俱来的，发热等于它肉体平素蜕故孳新的一部分，你措置不了。没阿谁才气，知谈吧？

趁机说一句，刚才「象先志」又被AI给骗了。「象先志」盘问柯洁得回过几个宇宙冠军时，ChatGPT荒谬笃定地回复，“截止2025年9月，柯洁共得回9个宇宙冠军，还列出了是哪几次以及哪一年。”

本来以为是GPT语料被欺凌了，因为岁首LG杯决赛时柯洁因顽抗裁判弃赛，随后把微博签名改为“九冠王”。但「象先志」定睛一看，发现情况并莫得那么复杂，因为ChatGPT回复里并莫得列出2025年的LG杯。

九冠的柯洁体育游戏app平台，仅仅它单纯的幻觉。

举报/反馈

资讯