AI时代,蝴蝶和海啸之间只隔一个错误,蝴蝶引起的一场海啸

长三角MOMO

如果一篇论文错信了“AI幻觉”,会造成多米诺骨牌效应,引发一连串的数据错误复发,怎么破?用魔法打败魔法,还是要靠AI工具。

开头讲两个故事。

第一个故事,关于普遍性。

现在的学生和老师,都在普遍地使用AI。前几天去亲戚家串门,他正在教育他闺女不要用AI写作文了,一定要自己写。结果她闺女特别委屈地方告诉他:这是老师让的,老师说写完之后,要传给AI,让AI给出修改意见。

前段时间,我去参加了一个大学教授和我们这些民间自媒体从业者的论坛,我特意问了关于使用AI的问题,答案是老师们也在普遍用AI做课件。

第二个故事,关于准确性。

前段时间,良渚的自来水事件,闹得沸沸扬扬,但是突然有个信息冲了出来,说农夫山泉在良渚有工厂,一时间快速发酵,幸亏事件查的及时,发这个微博的博主很快删除了信息,并且道了歉,说是AI上查到的信息,搞错了。一句搞错,差点给企业酿成大祸。

很显然,AI在过去的两年中,已经证明了自己能够给出比传统搜索更优质答案的能力,人们也更愿意毫无底线地相信AI的答案,这种相信,在教授、媒体、教师、学术界、科学界、行政公务中都普遍存在,但是我们有没有想过一个问题,如果AI在这些严肃学科领域,犯了良渚农夫山泉那个错,带来的后果会是什么?

我觉得就是蝴蝶效应。

一个媒体报道,或者一篇论文,用错一个数据之后,会引发一连串的数据错误复发,最终彻底让AI陷入一种认知错误,误导后面所有的人,这是一个多米诺的关系。

百度文心,最近弄了一个“放心写”功能,大大提高了媒体和教育行业的AI使用确定性,我实话实说,之前为了确保数据不出错,我还是会对比几个AI一起交叉验证,然后再配合权威媒体的报道,确保自己不出错,现在有了这个功能,直接把写好的文章,传给文心,有什么问题直接就会给我标注出来,我在线就可以修改,二次再审。

这等于给每个写作者,加了一道风控,有没有数据错误,有没有政策解读错误,有没有论点论据错误,我在内部开玩笑,我们行业的校对可以彻底下岗了,的确,我们公司的校对下岗很久了。

为什么学术界、媒体界是AI最应该关注的对象?因为AI的很多数据来源要取自这里,如果这里出错,会交叉污染数据,所以百度文心现在用“放心写”,堵住这个交叉污染的可能性,是抵制AI幻觉的一个非常有效的手段。

我也试用了一下,拿“最近汽车行业监管政策解读”这个问题生成了一篇文章,具体细节和最终成果我就不展开说了,只说结论:质量很可用,以对话助手的方式,达到了我以前用某些大模型的智能体的水平。

这个检验过程有意思,提示未通过部分,我专门查了一下,为什么AI判定「欧盟《新电池法》要求2027年动力电池回收利用率达到95%」不通过?原来法案是针对不同材料的,确实不能一概而论,很严谨。

再次重写后通过,下载分享也很丝滑。

还有一点要提示,记住要把左下角的“事实校对”打开。

近期还看到一条讯息,LMArena大模型竞技场新发布了最新排名,文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名中国第一,特别是在创意写作等方面表现突出。

值得点赞,不管从模型上还是应用上,文心在中文写作方面都很强劲,目前在文心APP最新版本可以体验最新的模型能力了。我了解到,放心写中文写作准确率已经超过了99%,幻觉率大大降低。

总之,我觉得未来如果要确保AI不产生过多幻觉,“放心写”还真是一条可行之路。

首先,数据库如何建立?

既然是一个帮助用户避免AI幻觉的写作工具,那就是要有一个属于自己的细分数据库,这个数据库不是开放式的,“放心写”采用的数据库都是权威可信机构媒体和政府官网,并没有从海量的互联网数据中去辨别,幻觉往往是因为错误信息权重大于正确信息之后,产生的结果。而且这种干扰,目前来看,是完全可实行的。

所以,用来二次辨别的工具,数据库一定不是开放式全网数据。

其次,在小细分领域循环。

现在,文心“放心写”对于公文、教育课件、行业报告、会议纪要等领域,已经有强大的复盘能力,但是这种能力有个特性,就是服务办公室工作比较多,并不是偏向娱乐和个人化需求,基本都是严肃话题,在这种特定场景中,数据就更容易保持干净,这种干净就可以传染给外面的大数据库。

第三,能够帮助新手快速上手工作。

其实,对于很多办公室新人,甚至新教师来说,如何规范自己的行文,规范自己的课件,是一件非常头疼的事,因为这些东西,往往都有固定的格式,其实不需要太多个性化的东西,但是这个格式需要经验,文心“放心写”除了可以检测错误之外,也可以帮你根据你提供的参考文档调整格式。

在过去的一年时间里,AI在很多公司,有了一个新名字,背锅侠。

以前,公司里的人们办公过程中出了错,会把锅甩给供应商,说是供应商的错,但是现在大家发现,AI也可以承接这种错误,这从侧面也说明了一个问题,AI幻觉的确普遍性存在,是一个现实问题。

无数的专家在担忧,我们社会未来的信息安全问题,人类在未来,到底还能不能真的分辨出哪些信息是真实的,哪些是AI杜撰出来的,今年良品铺子的花生酥,被AI做出了一张花生长在树上的图,成了闹剧,事实上,这种事情,以后这会越来越多。

百度这次做“放心写”,算是从反方向做了一次尝试,AI不仅仅可以是数据信息的提供者,也可以是数据信息的纠正者,幻觉可能是AI创造出来的,也可以是AI纠正的。

时间来到了2026年,AI的竞争很显然会陷入一种白热化,功能上的差异越来越小,那么下半场大家比什么?如果一个问题,所有AI给出的答案都大差不差,那么用谁都一样。那么如果一个问题,有一个AI能够给出不一样的答案,并且能够做到错误率很低,或者不出错,这就是胜算。

确保自己和物理世界的强关联,不出现幻觉,对自己的交付负责,这就是我心中AI后面的取胜法宝。

AI,在2026年,不能变成人们犯错的背锅侠,而应该是纠错侠。


nginx