🤖 Reddit 更新协议,试图阻止 AI 公司抓取数据

为了阻止机器人和网络爬虫窃取其网站的数据和内容,Reddit 正在更新其 Robots Exclusion Protocol(robots.txt 文件)。

Reddit 表示,像互联网档案馆这样的“善意行为者”将继续能够访问其平台,并补充说,大多数 Reddit 用户不会受到此变化的影响,也不会注意到此变化。Reddit 还将继续其限速做法,这可能有助于防止第三方抓取。

然而,正如谷歌指出的那样,绕过 robots.txt 规则存在漏洞。这意味着 AI 初创公司仍然可以窃取 Reddit 数据,并偷偷地用这些数据训练他们的模型——尽管 Reddit 的政策明确禁止这样做。本月,据 Business Insider 报道,OpenAI 和 Anthropic 都一直在绕过 robots.txt 文件来抓取网站内容。目前尚不清楚 Reddit 周二的更新是否直接针对这些公司的做法。

Reddit 此举也是在继去年限制对其 API 的访问之后做出的,此举的部分原因是为了防止 AI 公司免费抓取其数据。

(PCMag.com)

via 老裕泰 - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney 2.8折起
[email protected]