AI训练数据获取新探索:Anthropic拆书引热议,法律裁定成焦点

近期,人工智能领域的巨头Anthropic以一种前所未有的方式引发了公众和法律界的广泛关注。据悉,该公司斥资数百万美元,购买了大量图书,但其目的并非收藏或出版,而是为了拆解这些书籍,将其转化为训练AI助手的宝贵数据。

据外媒Ars Technica深入报道,Anthropic在获取训练数据的策略上采取了颇具争议的手段。他们选择将实体书籍进行拆解、扫描,并在扫描完成后立即销毁原件。这一做法的细节在法庭文件中得以曝光,并引发了法律界的广泛讨论。然而,法官William Alsup对此做出了“合理使用”的裁定,理由在于Anthropic所购买的书籍均通过合法渠道获取,且扫描后的数字文件仅供内部使用,并未对外泄露。

Anthropic的这一举措背后,是对谷歌书籍项目成功经验的借鉴。公司CEO阿莫代伊透露,在项目初期,团队曾考虑过使用盗版电子书作为训练数据,但出于法律风险的考量,最终决定通过购买二手书籍的方式来确保数据的质量和合法性。通过“破坏式扫描”,Anthropic得以快速高效地将书籍转化为PDF格式,为AI模型的训练提供了充足的数据资源。

值得注意的是,尽管非破坏性扫描技术已经相当成熟,并被多家机构所采用,如Internet Archive便开发出能够保留原书的数字化方式,OpenAI和微软也与哈佛大学图书馆合作,计划数字化近百万本公版书籍,确保书籍原版得到妥善保存。相比之下,Anthropic的做法显得更为激进,无疑为AI训练领域带来了新的思考角度。

随着人工智能技术的不断发展,如何在尊重知识产权的前提下获取训练数据,成为了业界亟待解决的问题。Anthropic的这一尝试,尽管在公众和法律界引发了广泛争议,但也为未来的AI发展提供了新的方向和可能性,引发了业界对于数据获取方式的深入思考和探讨。

文章采集于互联网