AIBetas消息,2023年8月8日,OpenAI宣布了其新的网络爬虫GPTBot。该机器人将收集公开可用的数据,用于训练AI模型,有市场消息称,OpenAI将利用这些数据升级GPT-4和其他大语言模型(如可能即将推出的GPT-5和开源的G3PO),业务声称将以透明和负责任的方式完成。
根据OpenAI的发布文档,网络爬虫将进行过滤,以消除需要付费墙访问的来源以及个人身份信息(PII)或违反公司法规的材料。根据GPT的发明者的说法,让机器人将有助于提高未来AI系统的准确性和能力。
这一革命性的举措不仅有望提高人工智能模型的精度、能力和安全性,而且还引发了关于数字时代数据伦理、所有权和使用方面的深入辩论。尽管OpenAI承认它利用互联网来训练像GPT-4这样的大型语言模型,但这似乎是解决从其他人网站获取数据的道德问题的半生不熟的解决方案。
GPTBot识别
GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串进行识别。
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
使用 GPTBot 用户代理抓取的网页可能会用于改进未来的模型,并经过过滤以移除需要付费专区访问权限、已知会收集个人身份信息 (PII) 或包含违反我们政策的文本的来源。允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高其一般功能和安全性。下面,我们还分享了如何禁止 GPTBot 访问您的网站。
要禁止 GPTBot 访问网站,可以将 GPTBot 添加到网站的robots.txt:
User-agent: GPTBot
Disallow: /
自定义 GPTBot 访问权限
要允许 GPTBot 访问网站的唯一部分,可以将 GPTBot 令牌添加到网站的robots.txt如下所示:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
对于OpenAI的爬虫,对网站的调用将从OpenAI网站上记录的IP地址块进行。
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
AI模型的训练离不开数据的支持,数据问题及版权问题一直受到大家的普遍关注,少国家和地区出台了相应法案,Reddit和X(前Twitter)等网站也采取了相应措施打击AI公司爬取用户数据的行为。
据《洛杉矶时报》7月1日报道,作家阿瓦德(Mona Awad)与特兰布拉(Paul Trembla)称ChatGPT未经他们同意“摄取”他们的小说来进行训练。由于ChatGPT可以完整地提供两位作者作品的概括,两位作家都声称这是他们的小说被用来训练聊天机器人的证据。
还有关于 GPTBot 如何处理网站上发现的许可图像、视频、音乐和其他媒体的问题。如果该媒体以模型训练结束,则可能构成侵犯版权。一些专家认为,如果人工智能编写的内容被反馈到训练中,爬虫生成的数据可能会降低模型的性能。
相反,一些人认为OpenAI有权自由使用公共网络数据,将其比作从在线内容中学习的人。然而,其他人认为,如果OpenAI将网络数据货币化以获得商业利益,它应该分享利润。
总体而言,GPTBot 围绕所有权、合理使用和网络内容创建者的激励措施展开了复杂的辩论。虽然跟随Robots.txt是一个很好的步骤,但透明度仍然缺乏。科技界想知道随着人工智能产品的快速发展,他们的数据将如何使用。
暂无评论内容