谷歌 PaLM 2训练所用文本数据量是初代的近5倍

5月17日消息，谷歌上周在2023年I/O开发者大会上推出最新大型语言模型PaLM 2。公司内部文件显示，自2022年起训练新模型所使用的文本数据量几乎是前一代的5倍。

(相关资料图)

据悉，谷歌最新发布的PaLM 2能够执行更高级的编程、运算和创意写作任务。内部文件透露，用于训练PaLM 2的token数量有3.6万亿个。

所谓的token就是字符串，人们会将训练模型所用文本中的句子、段落进行切分，其中的每个字符串通常被称为token。这是训练大型语言模型的重要组成部分，能教会模型预测序列中接下来会出现哪个单词。

谷歌于2022年发布的上一代大型语言模型PaLM在训练中使用了7800亿个token。

尽管谷歌一直热衷于展示其在人工智能技术领域的实力，说明如何将人工智能嵌入到搜索引擎、电子邮件、文字处理和电子表格中，但一直不愿公布训练数据的规模或其他细节。微软支持的OpenAI也对最新发布的GPT-4大型语言模型细节保密。

两家公司都表示，不披露这些信息的原因是人工智能行业存在激烈竞争。谷歌和OpenAI都想要吸引那些希望使用聊天机器人而不是传统搜索引擎搜索信息的用户。

但随着人工智能领域竞争的白热化，研究界要求提高透明度。

自推出PaLM 2以来，谷歌一直表示，新模型比之前的大型语言模型更小，这意味着该公司技术在完成更复杂任务时能变得更高效。参数（parameters）通常用于说明语言模型的复杂性。根据内部文件，PaLM 2接受了3400亿个参数的训练，初代的PaLM接受了5400亿个参数的训练。

谷歌没有立即发表评论。

谷歌在一篇关于PaLM 2的博客文章中表示，新模型使用了一种名为“计算最优缩放”（compute-optimal scaling）的“新技术”，能使得PaLM 2“更高效，整体性能更好，比如推理更快、服务参数更少，服务成本也更低。”

在发布PaLM 2时，谷歌透露新模型接受了100种语言的训练，并能胜任各种各样的任务。包括谷歌试验性聊天机器人Bard在内的25项功能和产品用的都是PaLM 2。PaLM 2按参数规模有四个不同的版本，从小到大依次是Gecko（壁虎）、Otter（水獭）、Bison（野牛）和Unicorn（独角兽）。

根据谷歌公开披露的信息，PaLM 2比任何现有模型都更强大。Facebook在今年2月份宣布推出名为LLaMA的大型语言模型，其在训练中用了1.4万亿个token。OpenAI发布GPT-3时披露了相关训练规模，当时公司表示，这一模型接受了3000亿个token的训练。今年3月份，OpenAI发布新模型GPT-4，并表示在许多专业测试中表现出“人类水平”。

根据最新文件，谷歌两年前推出的语言模型接受了1.5万亿个token的训练。

随着新的生成式人工智能应用迅速成为科技行业主流，围绕底层技术的争议也越来越激烈。

今年2月份，谷歌研究部门高级科学家埃尔·马赫迪·埃尔·马哈迪(El Mahdi El Mhamdi)因公司缺乏透明度而辞职。周二，OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）在美国参议院司法小组委员会关于隐私和技术的听证会上出庭作证，也同意用新系统来应对人工智能。

“对于一项非常新的技术，我们需要一个新的框架，”奥尔特曼说，“当然，像我们这种公司对自己推出的工具负有很大责任。”（辰辰）