在谷歌宣布将十种新的非洲语言整合到其自动翻译谷歌翻译中十天后,这家美国公司已经将它们上线。 沃洛夫和弗拉并不担心。
谷歌在其自动翻译器谷歌翻译中添加了 24 种新语言。 其中, 10 人是非洲人. 一个重要的创新,因为它将允许将整个网站翻译成 Lingala、Twi、Tigrinya、Sepedi、Oromo、Bambara、Luganda、Krio、Luganda 和 Tsonga。 或者,更简单地说,为几个非洲国家的当地人学习当地语言。
根据 Google 项目经理 Isaac Caswell 的说法,这些新增功能的目标之一是“支持经常被技术忽视的本地语言”。 “直到几年前,在技术上还不可能添加像这样的语言,它们被称为‘弱资源’。 这意味着没有很多文本资源,”工程师说。
事实上,翻译软件现在可以支持新的零样本神经机器翻译 (NMT) 人工智能技术 互联网上很少使用的语言,一般很少有文档记录。 我们通过谷歌翻译注意到了这一点,但是,尤其是在用户的参与下,翻译得到了改善。 当然,语言学家注意到翻译的 24 种新语言存在许多缺陷。 但即使对于新拉丁语,自动翻译过程也尚未完成。 尽管如此,谷歌翻译还是在 2006 年上线,从那时起,翻译有了很大的进步。
Fula 和 Wolof,谷歌被遗忘的伟人
但谷歌对选定非洲语言的选择存在问题。 因为自从 Google 发明了 Zero-shot NMT 之后,语言的书面来源问题就不再出现了。 Lingala、Luganda、Bambara、Oromo、Ewe 和 Twi 是非洲和互联网上广泛使用的语言。 但另一方面,Tsonga 和 Krio 的用户数量远远少于 Fula 或 Wolof。
绝对而言,西非本土语言是少数没有自动翻译器的语言之一。 如果 Google 选择语言的客观标准是人口统计和连通性,那么语言学家和开发人员似乎忽略了 Fula 和 Wolof。
除了谷歌翻译添加的非洲语言之外,一些支持的亚洲和拉丁美洲语言只有几千个用户。 例如,在印度的一个地区,只有 20 人使用梵语。 迪维希语是马尔代夫的语言,只有 000 人使用。 谷歌选择的其他语言只有300-000百万的本地用户。 而且大多数不是书面语言,而且缺乏与 Fula 和 Wolof 一样多(可能更多)的资源。 在谷歌翻译添加的 2 种语言中,3 种语言累计代表 24 万从业者,而仅 Fula 就有 15 万。
至于连接性,哈佛大学的数据库显示,62% 的说弗拉语的用户使用互联网。 对于 Wolof 来说,这一比例上升到 80%,代表了 16,5 万人。