


2021年,我战役到了一个让我以为与以往所报谈过的任何现实王人很不同的故事:新西兰的一个原住民社区,正在使用AI振兴毛利东谈主的民族谈话——毛利语(tereoMāori)。
与全球很多土著群体相同,几代毛利东谈主王人接收了殖民统率下的狰狞对待。1867年,字据《原住民学校法》,英语是学校独一可传授的谈话,毛利儿童会因为说我方的母语而遭受羞耻以致殴打。20世纪初,跟着快速城市化席卷宇宙,毛利社区徐徐解体并散播开来,社区当作文化息兵话保护中心的功能被大大恣意。毛利语使用者的数目从90%骤降至12%。120年后,在新西兰[毛利东谈主领先称这块地盘为“奥特亚罗瓦”(Aotearoa),意为“绵长白云之乡”]终于改动策略时,依然莫得满盈的毛利语磨真金不怕火能救济这一门焦躁的谈话了。与之前的很多其他谈话相同,毛利语险些从地球上灭亡了。

一门谈话灭亡的悲催很难尽述。正如AI研究东谈主员领先之是以将谈话当作工夫构建的中枢对象相同,一门谈话丧失的影响远不仅仅一种换取形式的丧失。每种谈话王人蕴含着丰富的历史、文化和学问;它们是千百万东谈主逾越时空的集体居品——他们努力寻找声息与笔墨形式,以捕捉对于天地、生命和东谈主类体验的最奥密的不雅察。他们借此才得以彼此共享惊东谈主的好意思与不幸的失败;才得以引导孩子,乞助于父老;才得以抒发爱意。
失去一门谈话,是一种全球性的悲催,亦然一种个体性的悲催。与我方的文化传承相终止,却被动去守护他东谈主的文化传承,不然便可能遭受殴打——这种情形以最为赤裸的方式确立了一种昭着的品级顺序:它界定了谁的历史、谁的文化、谁的学问值得传承下去,而谁的文化又如斯微不及谈,理当被抹除。
大谈话模子加快了谈话的灭亡。即便像GPT-2这么早发展几代的模子来说,全球也唯有少数几种谈话的使用东谈主数满盈多,在线文档贵府领域满盈大,从而大致振奋这些模子对数据的遑急需求。据融合国教科文组织统计,在咫尺仍存世的7000多种谈话中,近半数靠近沉进,约三分之一在网上有一定存在度,谷歌翻译撑合手的不到2%。而字据OpenAI我方的测试研究,唯有15种谈话(占比0.2%)在GPT-4中的准确率能达到80%以上。跟着这些模子成为数字基础圭臬,互联网对不同谈话群体的可及性,与其提供的经济发展契机的可及性相同,将不时镌汰。这会促使越来越多的社区优先采选学习和使用英语等主流谈话,而非母语。
恰是在这一近在咫尺的生涯威迫眼前——一种与经常所说的“生涯威迫”根柢上天壤之隔的领会,一双原住民伴侣,彼得-卢卡斯·琼斯(Peter-Lucas Jones)和凯奥尼·马赫洛纳(Keoni Mahelona),初次将AI视为一种可能的器具,来助力新一代的谈话使用者为毛利语注入活力。琼斯是毛利东谈主,马赫洛纳则是夏威夷原住民,他们既是责任上的伙伴,亦然生活中的伴侣。马赫洛纳说,他们再会并坠入爱河,缘于其作念过的一个梦:要是他搬到新西兰,就会遭逢一个毛利族男孩,并与之共度一世。
2012年,两东谈主从惠灵顿搬回了琼斯出身的小镇——位于新西兰北部的凯塔亚镇。琼斯成为TeHiku传媒的CEO,那是一家用毛利语演播的巨匠播送电台,隶属于一个更粗犷的发奋于毛利语回报的媒体偏激他组织麇集。在新职位上,琼斯发现了一个契机。在20多年的播送历史中,TeHiku麇集了大批东谈主们说毛利语的音频归档,其中就包括他祖母赖哈·莫罗亚(Raiha Moeroa)的灌音。祖母出身于19世纪末,国产a精品一区二区三区久久口音尚未受殖民者英语的影响而走样。琼斯还怀揣着一个志向,即是在毛利父老们离世前,为他们录制更多访谈,以纪录他们口述的历史和原汁原味的毛利语。在琼斯看来,这些灌音不错成为珍稀的谈话学习资源,能让新一代毛利语使用者穿越时空,凝听他们母语的领先的声息,并与祖宗的奢睿产生联接。
由于醒目毛利语的东谈主三三两两,将音频转录成笔墨以匡助肄业者长远学习,便成了一大挑战。2016年,偶然OpenAI初创之际,琼斯便向正在改版TeHiku网站的马赫洛纳寻求处理决策。马赫洛纳是个博大广博的东谈主,曾在奥林工程学院学习机械工程,第一次攻读硕士学位时主修营业照管,第二次则当作新西兰的富布赖特学者,主修物理学与计较纳米工夫。他很快便思出了诳骗AI的办法:经心磨真金不怕火一个毛利语语音识别模子,这么TeHiku只需少数几位使用者就能对其音频贵府库进行转录。
这恰是TeHiku的故事与OpenAI及硅谷AI开荒模式的天壤之隔之处。由于深知殖民攫取所带来的舍弃性影响,琼斯和马赫洛纳下定决心,唯有在开荒进程的每一阶段王人能确保三件事——知情原意、互惠互利以及毛利东谈主的自主权——的前提下,才会推动该技俩。这意味着,以致在技俩运行前,他们就会先征得毛利族群偏激长老的许可,征询他们是否至心但愿开展这项责任;汇集磨真金不怕火数据时,他们只会向那些充分了解数据用途并自发参与的东谈主搜集数据;为使模子说明最大效益,他们会倾听族群意见,了解哪种谈话学习资源最为实用;而一朝有了这些资源,他们还会购置土产货英伟达GPU和事业器来磨真金不怕火模子,幸免依赖任何科技巨头的云霄事业。
最为要道的是,TeHiku将建立一套机制,确保所汇集的数据能合手续为异日造福,但毫不会被挪用于未经族群原意、可能克扣或伤害他们,或以其他方式骚扰其职权的技俩。基于毛利东谈主的“kaitiakitanga”(守护者精神)原则,这些数据将由TeHiku崇拜看护,而非简略发布到网上;此后,TeHiku只会将数据授权给那些尊重毛利价值不雅,并盘算推算将其用于族群招供且认为故意的技俩的组织。
“数据是殖民统率的临了一块领土。”马赫洛纳告诉我,昔日的帝国从原住民群体手中攫取地盘,此后,要是原住民们思要重新获取地盘所有权,便会被动以新的戒指性条件和事业将其买回。“AI不外是又一次地盘攫取。大型科技公司心爱近乎无偿地汇集你的数据——用以构建它们思打造的任何东西,不管其最终宗旨是什么——然后转手将它当作一项事业再卖回给你。”
从始至终,琼斯和马赫洛纳王人未对技俩作出任何谐和。其间,他们发起了一场教养行动,旨在向更多毛利东谈主进步AI学问,还举办了一场社区竞赛,以众包方式搜集数据捐赠与标注。短短十天内,TeHiku便从约2500东谈主提供的近20万条灌音中,汇集到了310小时的高质地转灌音频。这种参与度对广博AI研究者而言属于盈篇满籍,它充分讲授了TeHiku的门径在其社区内引发了多么的信任与慈祥。一朝东谈主们领会并原意该技俩,且全王人信任TeHiku会不时对这些数据进行妥善照管,他们便十分乐意捐赠我方的数据。

《AI帝国:OpenAI的权力突破与东谈主类的异日》
[好意思]郝珂灵(Karen Hao) 著
浙江东谈主民出书社·之江文化 2026年4月
举报 著作作家
郝珂灵
经济东谈主的东谈主文修养阅读 有关阅读
AI周报 | OpenAI砸40亿好意思元成立新公司;谷歌秘书AI硬件“全家桶”ChatGPT网页端流量份额跌至53.7%;“最大AI芯片”公司上市首日涨68%。
6345 05-17 10:23
OpenAI新动作!砸40亿好意思元成立新公司,不卷模子卷落地AI “临了一公里”之战。
27673 05-12 13:57
营收放缓影响算力膨胀?OpenAI发文称算力建立已超领先研究仅在昔时90天就加多了非常3GW的数据中心容量。
9 651 04-30 10:01OpenAI未能完成里面研究,令投资者感到不安。
5 2712 04-29 07:50
AI观点股重挫,纳指跌近1%,英伟达跌1.63%,软银狂泻12%,海外油价联接七天走高东谈主工智能观点股集体走低。
6 2655 04-29 07:02 一财最热 点击关闭