Google开源MT5 这是一种多语言模型经过101种语言的培训

2021-06-02 20:05:56 来源：用户：

不甘示弱通过的Facebook和微软本星期，他们两人在十月下旬详细尖端机器学习语言算法，谷歌开源了一个名为模型MT5，公司宣称实现了国家的先进成果在一系列英语自然处理任务。MT5是Google T5模型的多语言变体，已在涵盖101种语言的数据集上进行了预训练，包含3亿至130亿个参数(模型内部用于进行预测的变量)，表面上具有足够的能力来学习100多种语言而不会产生重大影响“干扰”效应。

多语言AI模型设计的目标是建立一个可以理解世界7,000多种语言的模型。多语言AI模型在相似语言之间共享信息，这有益于资源贫乏的语言，并允许零镜头语言处理或模型未见过的语言处理。随着模型尺寸的增加，它们需要较大的数据集，这些数据集可能很费力且难以创建，这导致研究人员将重点放在网络抓取的内容上。

MT5在MC4(C4的子集)上接受了培训，MC4是从公共Common Crawl存储库中提取的约750GB英语文字的集合。(Common Crawl包含数十亿个从Internet抓取的网页。)虽然C4数据集被明确设计为仅英语，但MC4覆盖了Common Crawl迄今为止发布的71个月度所有月度刮擦中的107种语言，具有10,000个或更多的网页。

有证据表明，语言模型会放大他们所训练的数据集中存在的偏见。尽管一些研究人员声称目前没有任何机器学习技术可以充分防止有害输出，但Google研究人员试图通过对MC4文档中的行进行重复数据删除和过滤包含不良词的页面来减轻MT5中的偏差。他们还使用工具检测了每个页面的主要语言，并删除了置信度低于70%的页面。

谷歌表示，最大的MT5模型(具有130亿个参数)超过了2020年10月所测试的所有基准测试。其中包括Xtreme多语言基准测试的五项任务;XNLI涵盖任务涵盖14种语言;XQuAD，MLQA和TyDi QA阅读理解基准分别使用10、7和11种语言;以及具有7种语言的PAWS-X复述识别数据集。

当然，基准是否充分反映模型的真实性能是一个争论的话题。一些研究表明，开放域问答模型(理论上可以用新颖答案回答新颖问题的模型)通常只是根据数据集简单地记住在训练数据中找到的答案。但是Google研究人员断言MT5是迈向功能强大的模型的一步，这些功能不需要具有挑战性的建模技术。

“总体而言，我们的研究结果突出了模型能力在跨语言表示学习中的重要性，并建议通过(依靠)……过滤，并行数据或中间任务来扩展简单的预训练方法可能是一种可行的选择。”在描述MT5的论文中写道。“我们证明了T5配方可直接适用于多种语言环境，并在各种基准测试中均表现出色。”

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！