AI机器人需要更多书籍来学习这些图书馆正在开放书库

科技公司正在挖掘一个更古老的知识宝库：图书馆书库。哈佛大学藏书将于周四向人工智能研究人员开放，其中包括近百万本早在15世纪出版的书籍，涵盖254种语言。此外，波士顿公共图书馆收藏的大量旧报纸和政府文件也即将开放。

对于正在应对在世小说家、视觉艺术家和其他人的诉讼的科技公司来说，打开拥有数百年历史的古籍宝库可能会带来巨大的数据财富，这些人的创意作品在未经同意的情况下被盗用，用于训练人工智能聊天机器人。

微软副总法律顾问伯顿戴维斯 (Burton Davis) 表示：“从公共领域数据开始是一个谨慎的决定，因为目前与仍受版权保护的内容相比，公共领域数据引发的争议较少。”

戴维斯表示，图书馆还保存着“大量有趣的文化、历史和语言数据”，而这些数据在过去几十年的在线评论中缺失，而人工智能聊天机器人主要从这些评论中学习。对数据耗尽的担忧也促使人工智能开发者转向使用聊天机器人自己生成的、质量较低的“合成”数据。

在微软和 ChatGPT 制造商 OpenAI 的“无限制捐赠”支持下，总部位于哈佛大学的机构数据计划正在与世界各地的图书馆和博物馆合作，研究如何使其历史藏品能够适应人工智能，同时也使其服务的社区受益。

“我们正试图将当前人工智能时代赋予的部分权力重新赋予这些机构，”哈佛法学院图书馆创新实验室研究主管阿里斯塔纳·斯库尔塔斯（Aristana Scourtas）说道。“图书馆员一直以来都是数据和信息的守护者。”

哈佛大学最新发布的数据库“机构图书1.0”（Institutional Books 1.0）包含超过3.94亿页扫描纸质文献。其中一件较早的作品来自15世纪，是一位韩国画家手写并记录的关于栽培花草树木的感悟。其中最集中的作品来自19世纪，涵盖文学、哲学、法律和农业等主题，所有这些作品都由一代又一代的图书馆员精心保存和整理。

这对于试图提高系统准确性和可靠性的人工智能开发人员来说是一个福音。

“很多用于人工智能训练的数据并非来自原始来源，”该数据计划的执行董事、哈佛大学伯克曼克莱因互联网与社会研究中心首席技术专家格雷格·莱珀特（Greg Leppert）说道。他表示，这套藏书“可以追溯到实际收藏这些书籍的机构扫描的纸质版”。

在 ChatGPT 引发商业 AI 热潮之前，大多数 AI 研究人员并不太在意他们从维基百科、Reddit 等社交媒体论坛，甚至有时从盗版书籍的深层存储库中提取的文本段落的来源。他们只需要大量计算机科学家称之为“token”（标记）的东西——数据单元，每个标记都可以代表一个单词的一部分。

哈佛大学新推出的人工智能训练数据集估计拥有 2420 亿个标记，这个数字人类难以想象，但与输入最先进人工智能系统的数据相比，这仍然只是九牛一毛。例如，Facebook 母公司 Meta 表示，其最新版本的人工智能大型语言模型是基于从文本、图像和视频中提取的超过 30 万亿个标记进行训练的。

Meta 还面临着喜剧演员萨拉·西尔弗曼 (Sarah Silverman) 和其他出版作家的诉讼，他们指控该公司从盗版“影子图书馆”窃取他们的书籍。

如今，尽管存在一些保留意见，但真正的图书馆正在崛起。

OpenAI 也正在应对一系列版权诉讼，今年它向包括牛津大学拥有 400 年历史的博德利图书馆在内的一些研究机构捐赠了 5000 万美元，该图书馆正在将稀有文本数字化，并利用人工智能帮助转录它们。

波士顿公共图书馆是美国最大的图书馆之一，当该公司首次与该图书馆联系时，该图书馆明确表示，其数字化的任何信息都将面向所有人，该图书馆的数字和在线服务主管杰西卡·查佩尔 (Jessica Chapel) 表示。

“OpenAI 对海量训练数据很感兴趣。我们对海量数字对象感兴趣。所以这只是双方正在协调一致的例子，”Chapel 说。

数字化成本高昂。例如，波士顿图书馆扫描并整理数十份新英格兰法语报纸是一项艰巨的工作，这些报纸在19世纪末20世纪初被来自魁北克的加拿大移民群体广泛阅读。如今，这些文本可以用作训练数据，从而为图书馆员想要开展的项目提供资金。

哈佛大学的藏书早在 2006 年就已开始为另一家科技巨头Google进行数字化，这是一个颇具争议的项目，旨在创建一个拥有超过 2000 万本书籍的可搜索在线图书馆。

Google多年来一直在击退作者对其在线图书馆的法律挑战，该图书馆收录了许多较新的受版权保护的作品。最终，在2016年，美国最高法院维持了下级法院驳回版权侵权索赔的裁决，案件得以解决。

现在，Google首次与哈佛大学合作，从Google图书中检索公共领域的书籍，并为向人工智能开发者发布这些书籍铺平道路。美国的版权保护通常为95年，录音的保护期更长。

这一新举措周四受到了同一作家团体的赞扬，该团体曾就Google的图书项目起诉Google，最近还将人工智能公司告上法庭。

美国作家协会首席执行官玛丽·拉森伯格在周四的一份声明中表示：“许多此类书籍仅存在于各大图书馆的书架中，而该数据集的创建和使用将扩大对这些书籍及其内容知识的访问。” “重要的是，创建一个合法的大型训练数据集，将使新型人工智能模型的创建更加民主化。”

这些数据对于下一代人工智能工具有多大用处还有待观察，因为这些数据将于周四在 Hugging Face 平台上共享，该平台托管着任何人都可以下载的数据集和开源人工智能模型。

与典型的人工智能数据源相比，该藏书的语言多样性更高。不到一半的藏书是英文的，但欧洲语言仍然占主导地位，尤其是德语、法语、意大利语、西班牙语和拉丁语。

莱珀特表示，这套蕴含 19 世纪思想的书籍对于科技行业打造能够像人类一样进行规划和推理的人工智能代理也具有“极其重要的意义”。

“在大学里，你会学到很多关于推理的教学方法，”莱珀特说，“你会学到很多关于如何运行流程和如何进行分析的科学信息。”

与此同时，也存在大量过时的数据，从被揭穿的科学和医学理论到种族主义和殖民主义的叙述。

哈佛大学图书馆创新实验室协调员克里斯蒂·穆克 (Kristi Mukk) 表示：“当处理如此庞大的数据集时，有害内容和语言方面会存在一些棘手的问题。”她表示，该计划正试图提供有关如何降低使用数据风险的指导，以“帮助他们做出明智的决定并负责任地使用人工智能”。