🤖 Reddit 更新协议，试图阻止 AI 公司抓取数据为了阻止机器人和网络爬虫窃取其网站的数据和内容，Reddit 正在更新其 Robots Exclusion Protocol（robots.txt 文件）

🤖 Reddit 更新协议，试图阻止 AI 公司抓取数据

为了阻止机器人和网络爬虫窃取其网站的数据和内容，Reddit 正在更新其 Robots Exclusion Protocol（robots.txt 文件）。

Reddit 表示，像互联网档案馆这样的“善意行为者”将继续能够访问其平台，并补充说，大多数 Reddit 用户不会受到此变化的影响，也不会注意到此变化。Reddit 还将继续其限速做法，这可能有助于防止第三方抓取。

然而，正如谷歌指出的那样，绕过 robots.txt 规则存在漏洞。这意味着 AI 初创公司仍然可以窃取 Reddit 数据，并偷偷地用这些数据训练他们的模型——尽管 Reddit 的政策明确禁止这样做。本月，据 Business Insider 报道，OpenAI 和 Anthropic 都一直在绕过 robots.txt 文件来抓取网站内容。目前尚不清楚 Reddit 周二的更新是否直接针对这些公司的做法。

Reddit 此举也是在继去年限制对其 API 的访问之后做出的，此举的部分原因是为了防止 AI 公司免费抓取其数据。

(PCMag.com)

via 老裕泰 - Telegram Channel