AI训练数据获取新探索：Anthropic拆书引热议，法律裁定成焦点

近期，人工智能领域的巨头Anthropic以一种前所未有的方式引发了公众和法律界的广泛关注。据悉，该公司斥资数百万美元，购买了大量图书，但其目的并非收藏或出版，而是为了拆解这些书籍，将其转化为训练AI助手的宝贵数据。

据外媒Ars Technica深入报道，Anthropic在获取训练数据的策略上采取了颇具争议的手段。他们选择将实体书籍进行拆解、扫描，并在扫描完成后立即销毁原件。这一做法的细节在法庭文件中得以曝光，并引发了法律界的广泛讨论。然而，法官William Alsup对此做出了“合理使用”的裁定，理由在于Anthropic所购买的书籍均通过合法渠道获取，且扫描后的数字文件仅供内部使用，并未对外泄露。

Anthropic的这一举措背后，是对谷歌书籍项目成功经验的借鉴。公司CEO阿莫代伊透露，在项目初期，团队曾考虑过使用盗版电子书作为训练数据，但出于法律风险的考量，最终决定通过购买二手书籍的方式来确保数据的质量和合法性。通过“破坏式扫描”，Anthropic得以快速高效地将书籍转化为PDF格式，为AI模型的训练提供了充足的数据资源。

值得注意的是，尽管非破坏性扫描技术已经相当成熟，并被多家机构所采用，如Internet Archive便开发出能够保留原书的数字化方式，OpenAI和微软也与哈佛大学图书馆合作，计划数字化近百万本公版书籍，确保书籍原版得到妥善保存。相比之下，Anthropic的做法显得更为激进，无疑为AI训练领域带来了新的思考角度。

随着人工智能技术的不断发展，如何在尊重知识产权的前提下获取训练数据，成为了业界亟待解决的问题。Anthropic的这一尝试，尽管在公众和法律界引发了广泛争议，但也为未来的AI发展提供了新的方向和可能性，引发了业界对于数据获取方式的深入思考和探讨。

文章采集于互联网

搜索

AI训练数据获取新探索：Anthropic拆书引热议，法律裁定成焦点