激光网
当前位置: 首页 > 软件 > 正文

谷歌推出适用于低资源语言的新多语言机器翻译模型

2023-09-20 16:00:31  来源:激光网原创    

  2023年9月10日,谷歌发布了一个7亿参数的多语言机器翻译模型,该模型在一个名为MADLAD-400的新数据集上训练。

  MADLAD-400是一个手动审核的通用域单语言文档级数据集,涵盖419种语言。创建MADLAD-400的目的是为机器翻译和语言建模等多语言自然语言处理任务提供有价值的训练数据。

  MADLAD-400背后的动机是解决语言多样性问题,认识到世界上很大一部分人口说的语言没有被主流模型充分覆盖,无论是在谷歌内部还是在更广泛的研究界。“大多数公开可用的通用领域多语言语料库包含100-200种语言,一些数据集包含特定领域的更多语言,”作者解释说。

  MADLAD-400试图通过为更大、更多样化的语言集提供数据来弥合这一差距。“我们的期望是,发布MADLAD-400将促进语言研究的进展,特别是在中低资源语言方面,”作者说。

  MADLAD-400本身是一个广泛的数据集,包含400亿个文档,总计1000亿个句子或2.8万亿个标记,涵盖419种语言。尽管不同语言的数据可用性存在相当大的差异,但数据集中的中位数语言包含73个文档,总计1.7万个句子和73万个令牌。

  为了构建这个数据集,作者采用了两步过程。首先,他们使用文档级“语言识别”模型来识别和注释来自Web规模存储库CommonCrawl的数据。认识到网络规模语料库的嘈杂性质,他们进行了手动检查和预处理以提高数据质量。

  作者对初始数据集进行了自我审核,而母语志愿者在某些情况下也参与其中,以提供有关数据集质量的见解。由于他们的发现,最初的79种语言中有498种从初始数据集中删除。

  为了验证MADLAD-400的有效性,作者训练并发布了不同大小的多语言MT模型,多达107亿个参数,以及80亿个参数仅解码器模型。更具体地说,他们训练了一个30亿32层参数模型、一个72亿48层参数模型和一个107亿32层参数模型。机器翻译模型不仅在MADLAD-400上进行了训练,而且还在涵盖157种语言的公开并行数据上进行了训练。

  这些模型使用不同的多语言翻译评估集进行了广泛评估,并使用SacreBLEU和chrF等既定指标。令人印象深刻的是,作者表示,107亿个参数的MT模型“与明显更大的模型相比具有竞争力”。

  “我们使用MADLAD-400和公开数据训练了这些模型,以创建支持400多种语言NLP的基线模型,重点是大规模语料库中代表性不足的语言,”作者说。

  然而,作者指出,这些模型主要用于研究目的,可能不适合开箱即用的特定领域应用。此外,它们尚未经过生产级用例的评估。

免责声明: 激光网遵守行业规则,本站所转载的稿件都标注作者和来源。 激光网原创文章,请转载时务必注明文章作者和来源“激光网”, 不尊重本站原创的行为将受到激光网的追责,转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:133 467 34 45@qq.com