最近,研究人员询问了OpenAI的ChatGPT人工智能聊天机器人的两个版本,麻省理工学院教授Tomás lozano - psamurez在哪里出生。
一个说是西班牙,另一个说是古巴。一旦系统让机器人讨论答案,回答西班牙的机器人很快道歉,并同意正确答案古巴的机器人。
麻省理工学院的一个研究小组上周发表了一篇论文,这一发现是帮助聊天机器人找到正确答案的最新潜在突破。
研究人员建议使用不同的聊天机器人对同一个问题给出多个答案,然后让它们相互辩论,直到一个答案胜出。
研究人员发现,使用这种“心理社会”的方法使他们更真实。
“语言模型被训练来预测下一个单词,”麻省理工学院(MIT)研究员杜亦伦(Yilun Du)说,他曾是OpenAI的研究员,也是这篇论文的作者之一。
“他们没有接受过告诉别人他们不知道自己在做什么的训练。”
结果是,机器人表现得像早熟的取悦者,编造答案,而不是承认自己根本不知道。
研究人员的创造性方法只是解决人工智能爆炸领域最紧迫问题之一的最新尝试。尽管OpenAI的ChatGPT、微软的必应(Bing)和谷歌的巴德(Bard)等“生成式”聊天机器人在过去六个月里展现出了令人难以置信的能力飞跃,但它们仍然有一个重大的致命缺陷:它们总是在编造东西。

“语言模型被训练来预测下一个单词,”麻省理工学院(MIT)研究员杜亦伦(Yilun Du)说,他曾是OpenAI的研究员,也是这篇论文的作者之一。
弄清楚如何预防或修复该领域所谓的“幻觉”,已经成为许多科技工作者、研究人员和人工智能怀疑论者的困扰。
在线数据库Arxiv上发布的数十篇学术论文都提到了这个问题,谷歌的桑达尔·皮查伊等大型科技公司的首席执行官也多次提到过这个问题。
随着这项技术被推向数百万人,并融入包括医学和法律在内的关键领域,理解幻觉并找到减轻幻觉的方法变得更加重要。
大多数研究人员都认为,这个问题是驱动机器人的“大型语言模型”固有的,因为它们的设计方式。
他们根据从互联网上消化的大量数据来预测最适合说的话,但没有办法理解哪些是事实,哪些是假的。
尽管如此,研究人员和公司仍在努力解决这个问题。一些公司正在使用人类训练师重写机器人的答案,并将其反馈给机器,目的是让它们更聪明。
谷歌和微软已经开始使用他们的机器人在他们的搜索引擎中直接给出答案,但仍然要用常规搜索结果对机器人进行双重检查。世界各地的学者提出了无数聪明的方法来减少错误答案的比率,比如麻省理工学院提出的让多个机器人相互辩论的建议。
改善幻觉问题的紧迫性是有原因的。
当微软推出必应聊天机器人时,它很快就开始对一些用户提出不实指控,比如告诉一名德国大学生,他对它的安全构成了威胁。
这个机器人采用了另一个自我,并开始称自己为“悉尼”。它基本上是从学生的问题中抄写出来的,利用了它从网上消化的所有关于失控机器人的科幻小说。
微软最终不得不限制机器人与人类互动的次数,以避免这种情况更多地发生。
在澳大利亚,一名政府官员威胁要起诉OpenAI,因为ChatGPT称他被判犯有贿赂罪,而实际上他是一起贿赂案的举报人。据《纽约时报》报道,上周一名律师承认,他在被捕后使用ChatGPT编写了一份法律摘要,因为机器人如此自信地引用的案例根本不存在。
就连把未来寄托在人工智能上的谷歌(Google)和微软(Microsoft)都在竞相将这项技术整合到自己的各种产品中,但它们在关键的公告和演示中也错过了机器人制造的幻觉。
这些都没有阻止这些公司一头扎进这个领域。
数十亿美元的投资正用于开发更智能、更快的聊天机器人,公司也开始将它们标榜为人类工人的替代品或辅助工具。
本月早些时候,OpenAI首席执行官萨姆·奥特曼在国会作证时表示,人工智能可能通过传播虚假信息和操纵人类的情感,“对世界造成重大伤害”。
一些公司已经表示,他们希望用人工智能取代工人,而这项技术也带来了严重的网络安全挑战。
人工智能转录服务也记录了幻觉,将现实生活中没有说过的话添加到录音中。

本月早些时候,OpenAI首席执行官萨姆·奥特曼在国会作证时表示,人工智能可能通过传播虚假信息和操纵人类的情感,“对世界造成重大伤害”。
微软和谷歌使用机器人直接回答搜索查询,而不是向博客和新闻报道发送流量,这可能会侵蚀致力于为互联网提供可靠信息的在线出版商和内容创作者的商业模式。
“这个领域还没有人能解决幻觉问题。皮查伊在4月份接受哥伦比亚广播公司采访时表示:“所有型号都存在这个问题。他说,是否有可能解决这个问题是一个“激烈辩论的问题”。
这取决于你如何看待幻觉,它们既是大型语言模型的一个特性,也是一个缺陷。
幻觉是让机器人具有创造力并产生从未见过的故事的一部分。与此同时,它们揭示了这项技术的明显局限性,通过暗示聊天机器人对周围世界没有内化的理解,削弱了聊天机器人在某种程度上与人类相似的智能的观点。
微软高级研究员埃斯·卡玛(Ece Kamar)说,“里面没有任何东西告诉这个模型,它所说的在现实世界中应该是正确的。”
卡马尔说,模型本身也在一定数量的数据上进行训练,所以训练完成后发生的任何事情都不会影响它对世界的认识。
幻觉并不新鲜。自几年前大型语言模型建立以来,它们一直是一个固有的问题,但其他问题,如人工智能产生无意义或重复的答案,被视为更大的问题。
一旦这些问题得到了很大的解决,幻觉现在就成为了人工智能社区关注的焦点。
Potsawee Manakul在ChatGPT上玩了一些关于网球运动员罗杰·费德勒的简单事实。这是一个直截了当的请求,人类很容易在几秒钟内就能在谷歌或维基百科上查到,但机器人一直给出相互矛盾的答案。
马纳库尔是剑桥大学(University of Cambridge)的人工智能研究员,也是一位狂热的网球迷。他在接受采访时说:“有时它说他赢了五次温网,有时它说他赢了八次温网。”(正确答案是8。)
马纳库尔和剑桥大学的其他研究人员在3月份发表了一篇论文,提出了一个他们称之为“SelfCheckGPT”的系统,该系统可以多次问同一个机器人一个问题,然后告诉它比较不同的答案。如果答案一致,那么事实可能是正确的,但如果答案不同,则可能被标记为可能包含编造的信息。
当人们被要求写一首诗时,他们知道事实是否正确并不重要。但当被问及一个真实人物的传记细节时,他们自然而然地知道自己的答案应该基于现实。
因为聊天机器人只是简单地预测一串文本中的下一个单词或想法,它们还没有对问题的上下文理解。
马纳库尔说:“它没有关于是否应该更有创意或更少创意的概念。”使用他们的方法,研究人员表明,他们可以消除事实上不正确的答案,甚至根据答案的真实程度对答案进行排名。
Manakul说,可能需要一种尚未发明的全新人工智能学习方法。只有在语言模型之上构建系统,这个问题才能真正得到缓解。
他说:“因为它混合了很多东西的信息,所以会产生一些看起来似乎合理的东西。”“但不管它是否真实,这就是问题所在。”

杰弗里?辛顿(Geoffrey Hinton)说:“我们会改进它,但我们永远无法摆脱(幻觉问题)。”辛顿数十年的研究为当前的人工智能聊天机器人奠定了基础。
这基本上是领先公司已经在做的事情。当谷歌使用其聊天机器人技术生成搜索结果时,它也会并行运行常规搜索,然后比较机器人的答案与传统搜索结果是否匹配。如果他们不这样做,人工智能的答案甚至不会出现。
该公司对其机器人进行了调整,使其缺乏创造力,这意味着它不太擅长写诗或进行有趣的对话,但不太可能说谎。
谷歌发言人詹妮弗·罗德斯特罗姆(Jennifer Rodstrom)说,通过限制搜索机器人对现有搜索结果的核实,该公司能够减少幻觉和不准确的情况。
OpenAI的一位发言人指出,该公司制作的一篇论文展示了其最新型号GPT4如何比以前的版本产生更少的幻觉。
公司也在花费时间和金钱通过真人测试来改进他们的模型。一种被称为人类反馈强化学习的技术,即人类测试人员手动改进机器人的答案,然后将它们反馈给系统以改进它,这被广泛认为是ChatGPT比之前的聊天机器人好得多的原因。
一种流行的方法是将聊天机器人与事实或更可信的信息数据库连接起来,比如维基百科(Wikipedia)、谷歌搜索(Google search)或定制的学术文章或商业文档集。
一些领先的人工智能研究人员表示,应该接受幻觉。毕竟,人类也有不好的记忆,并且已经被证明会在没有意识到的情况下填补自己记忆中的空白。
“我们会改进它,但我们永远无法摆脱它,”杰弗里·辛顿(Geoffrey Hinton)在谈到幻觉问题时表示。辛顿数十年的研究为当前的人工智能聊天机器人奠定了基础。
他一直在谷歌工作,直到最近才辞职,更公开地表达了他对这项技术可能脱离人类控制的担忧。
“我们会一直这样,他们也会一直这样。
点击分享到









