商业
人工智能革命正在摧毁数千种语言

  

  

  最近,Bonaventure Dossou在一个流行的人工智能模型中发现了一个令人担忧的趋势。该节目将丰语描述为“一种虚构的语言”,丰语是多苏母亲以及贝宁及其邻国数百万人使用的语言。

  我重复的这个结果并不罕见。多苏已经习惯了这样一种感觉,即他的文化被轻易为他人服务的技术所忽视。在他成长的过程中,没有维基百科(Wikipedia)的丰语页面,也没有翻译程序帮助他用他更流利的法语与母亲交流。“当我们有一种技术,把像我们的名字这样简单而基本的东西当作错误时,它就剥夺了我们的人格,”多苏告诉我。

  互联网的兴起,加上美国几十年的霸权,使英语成为商业、政治、科学和娱乐的通用语言。超过一半的网站是英文的,然而世界上超过80%的人不会说英语。即使是数字生活的基本方面——用谷歌搜索、与Siri对话、依赖自动纠错、简单地在智能手机上打字——也早已与世界上的大部分地区隔绝了。而现在,生成型人工智能的繁荣,尽管承诺将架起语言和文化的桥梁,但可能只会进一步巩固英语在网络内外生活中的主导地位。

  规模是这项技术的核心。与前几代人相比,今天的人工智能需要更多数量级的计算能力和训练数据,所有这些都是为了创造出让ChatGPT和其他程序的众多用户眼花缭乱的类人语言。生成式人工智能“学习”的大部分信息都是从开放的网络上抓取的。出于这个原因,在线英语文本的优势可能意味着生成式人工智能在英语中表现最好,这巩固了一种文化偏见,这种技术一直被宣传为“造福整个人类”的潜力。其他一些语言也很适合生成人工智能时代,但只有少数:近90%的网站只用10种语言编写(英语、俄语、西班牙语、德语、法语、日语、土耳其语、葡萄牙语、意大利语和波斯语)。

  世界上大约有7000种语言。谷歌翻译支持其中的133种。来自OpenAI、谷歌和Anthropic的聊天机器人仍然受到更多限制。“性能出现了陡峭的悬崖,”计算机科学家、科技公司Cohere旗下非营利研究机构Cohere for AI的负责人萨拉·胡克(Sara Hooker)告诉我。“大多数性能最高的(语言)模型都支持8到10种语言。在那之后,几乎是真空状态。”随着聊天机器人、翻译设备和语音助手成为浏览网络的关键方式,生成式人工智能的兴起可能会淘汰数千种本土语言和资源匮乏的语言,比如缺乏足够文本来训练人工智能模型的非语言。

  “无论是从语言学的角度还是从计算的角度来看,许多人都忽略了这些语言,”英属哥伦比亚大学(University of British Columbia)的人工智能研究员、计算语言学家Ife Adebara告诉我。年轻一代学习祖先语言的动力将越来越少。这不仅仅是复制网络现有问题的问题:如果生成式人工智能确实成为访问互联网的门户,那么数十亿人的生活可能会比现在更糟糕。

  阿德巴拉和Dossou现在是加拿大麦吉尔大学的一名计算机科学家,他们与Masakhane合作,Masakhane是一个为非洲语言开发人工智能工具的研究小组。反过来,Masakhane是一个不断增长的全球努力的一部分,与时间赛跑,为网络上表现不佳的语言创造软件,并希望拯救这些语言。爱丁堡大学(University of Edinburgh)的机器翻译研究员亚历山德拉·伯奇(Alexandra Birch)告诉我,近几十年来,“在为低资源语言建模方面取得了巨大进展。”

  计算机科学家发现,一些人工智能程序可以精确定位超越特定语言的交流方面,这是一项有希望的发展,说明了生成式人工智能的惊喜能力。也许这项技术可以用来让网络更多地意识到不太常见的语言。一个程序在有大量可用数据的语言(比如英语、法语或俄语)上进行训练,然后在资源较少的语言(比如丰语或旁遮普语)上表现得更好。乔治梅森大学(George Mason University)的计算机科学家安东尼奥·阿纳斯塔索普洛斯(Antonios Anastasopoulos)告诉我:“每种语言都会有主语或动词之类的东西。”“所以,即使这些以非常不同的方式表现出来,你也可以从所有其他语言中学到一些东西。”伯奇把这比作一个从小说英语和德语的孩子,即使他们没有学习过两种语言之间的直接翻译,也能在这两种语言之间无缝地转换——不是从一个词转移到另一个词,而是掌握一些关于交流的更基本的东西。

  但单凭这一发现可能还不足以扭转局势。为低资源语言构建人工智能模型是一项费时费力的工作。Cohere最近发布了一个大型语言模型,该模型对101种语言具有最先进的性能,其中一半以上是低资源语言。这样一来,就剩下6900种语言有待开发,光是这项工作就需要3000人在119个国家工作。为了创建训练数据,研究人员经常与以英语为母语的人合作,让他们回答问题、转录录音或注释现有文本,这些工作可能既慢又昂贵。阿德巴拉花了数年时间,为517种非洲语言整理了42gb的训练数据集,这是迄今为止最大、最全面的数据集。她的数据集是最大的公开英语训练数据集的0.4%。OpenAI的专有数据库——用于训练chatgpt等产品的数据库——可能要大得多。

  在资源贫乏的语言中,现成的有限文本中,有许多质量很差——本身翻译就很糟糕——或者用途有限。微调人工智能的关键例子,必须有意识地创建和管理——数据用于使聊天机器人有用,听起来像人类,而不是种族主义,等等——甚至更少。资金、计算资源和特定于语言的专业知识往往同样难以获得。语言模型很难理解非拉丁文字,或者由于训练样本有限,难以在资源匮乏的语言句子中正确分离单词——更不用说那些没有书写系统的句子了。

  问题在于,虽然为这些语言开发工具进展缓慢,但生成式人工智能正在迅速超越网络。合成内容像一种灰色的粘稠物一样充斥着搜索引擎和社交媒体,所有人都希望能快速赚钱。

  大多数网站通过广告和订阅来赚钱,这依赖于吸引点击和关注。网络上已经有很大一部分内容的文学或信息价值有限,这是一片无尽的垃圾海洋,只因为它们可能被点击而存在。有什么比用谷歌搜索中出现的人工智能程序将内容翻译成另一种语言更好的方法来扩大受众呢?

  这些翻译程序的准确性有时已经存在问题,对于资源匮乏的语言来说尤其糟糕。不出所料,研究人员在今年早些时候公布了初步调查结果,与英语或其他资源丰富的语言网站相比,这些语言的在线内容更有可能(很差地)从其他来源翻译而来,而且原始材料本身更有可能是为了最大化点击量。使用大量这种有缺陷的材料进行培训,将使ChatGPT、Gemini和Claude等产品对资源匮乏的语言更加糟糕,就像要求某人准备一份新鲜的沙拉,只需要一磅碎牛肉。加州大学圣巴巴拉分校(UC Santa Barbara)的计算机科学家、该研究的作者之一梅哈克·达利瓦尔(Mehak Dhaliwal)告诉我:“你已经在用不正确的数据训练模型,而模型本身往往会产生更多不正确的数据。”这可能会让使用低资源语言的人接触到错误的信息。而这些输出,在网络上喷溅出来,可能用于训练未来的语言模型,可能会造成数千种语言性能下降的反馈循环。

  想象一下,“你想完成一项任务,你想让一台机器帮你完成,”伦敦大学学院(University College London) DeepMind研究员戴维·阿德拉尼(David Adelani)告诉我。“如果你用自己的语言表达,而技术无法理解,你将无法做到这一点。在经济发达的国家,很多可以简化人们生活的事情,你们将无法做到。”网络现有的所有语言障碍都将上升:你将无法使用人工智能来指导你的孩子、起草工作备忘录、总结书籍、进行研究、管理日历、预订假期、填写纳税表格、上网冲浪等等。即使人工智能模型能够处理低资源语言,这些程序也需要更多的内存和计算能力,因此运行起来会变得更加昂贵——这意味着更高的成本会带来更糟糕的结果。

  人工智能模型也可能缺乏文化的细微差别和背景,无论它们在语法上多么熟练。阿德拉尼说,这些节目早就把“早上好”翻译成约鲁巴语中“有人去世了”的变体,因为同样的约鲁巴语可以表达这两种意思。翻译自英语的文本已被用于为东南亚数亿人使用的印尼语、越南语和其他语言生成训练数据。新加坡人工智能研究项目(AI Singapore)的研究员霍利·洛夫尼亚(Holy Lovenia)告诉我,由此产生的模型对汉堡和大本钟的了解远远超过对当地美食和地标的了解。

  现在挽救一些语言可能已经太晚了。随着人工智能和互联网使英语和其他资源丰富的语言对年轻人来说越来越方便,土著语言和不太广泛使用的语言可能会消失。如果你正在读这篇文章,很有可能你的大部分生活都是在网上度过的;随着时间的推移和技术的普及,这将成为世界上更多人的现实。要使机器起作用,使用者必须会说机器的语言。

  默认情况下,不太常用的语言似乎与人工智能、网络以及日常生活无关——最终导致被抛弃。阿德巴拉说:“如果对此不采取任何措施,许多语言可能需要几年时间才能灭绝。”她已经目睹了她在大学期间学习的语言在使用上的减少。“当人们看到他们的语言没有正字法,没有书籍,没有技术,这给他们的印象是他们的语言没有价值。”

  她自己的工作,包括一个可以用数百种非洲语言读写的语言模型,旨在改变这种状况。当她向说非洲语言的人展示她的软件时,他们告诉她:“‘我在你们构建的技术中看到了我的语言;我没想到会在那里看到它,’”阿德巴拉说。“‘我不知道有些技术能够理解我的语言的某些部分,’他们感到非常兴奋。这也让我感到兴奋。”

  几位专家告诉我,人工智能和低资源语言的未来之路不仅在于技术创新,还在于这类对话:不是不加选择地告诉世界它需要ChatGPT,而是询问母语人士这项技术能为他们做些什么。他们可能会受益于更好的当地方言语音识别,或者可以阅读和数字化非罗马文字的程序,而不是科技巨头出售的全能聊天机器人。Dossou告诉我,他希望建立一个“适合非洲语言和非洲人的平台,而不是像大型科技公司那样泛化”,而不是依赖meta或OpenAI。这样的努力可以让资源匮乏的语言出现在互联网上,供后代使用和学习。

  如今,维基百科有了一个Fon版本,尽管它的1300篇左右的文章只有英文版本的千分之二。Dossou一直致力于开发能够识别非洲语言名字的人工智能软件。他手工翻译了数百条法语和法语谚语,然后让人们告诉他常见的法语句子和短语。他制作的法语-法语翻译器帮助他更好地与母亲沟通,而他母亲对这些翻译的反馈也有助于改进人工智能程序。“我需要一个机器翻译工具才能和她交流,”他说。现在他开始在没有机器帮助的情况下理解她了。一个人和他们的社区,而不是互联网或一个软件,应该决定他们的母语,Dossou意识到他的母语是Fon,而不是法语。

点击分享到

热门推荐