https://api.oaibest.com - API中转2.8折起
Common Crawl 被批为 AI 公司提供高质量付费墙文章

2025-11-09 20:16 by 开普勒62号3:旅行

成立于 2007 年的非盈利组织 Common Crawl 致力于存档互联网,它至今抓取了数以十亿计的网页。但最近几年它引发了争议,其巨大的存档库被 AI 公司如 OpenAI、Google、Anthropic、Nvidia、Meta 和 Amazon 用于训练大模型。Common Crawl 为 AI 公司打开了一扇后门,允许它们使用高质量付费墙文章训练模型,并在抓取付费墙文章上撒谎。Common Crawl 声称它不会绕过付费墙,会应新闻出版商要求删除其内容,但实际上并非如此。Common Crawl 执行董事 Rich Skrenta 对此回应称,新闻出版商如果不想它们的内容被抓取,就不应该将内容发布到网上。他说,Common Crawl 的爬虫不会登陆其抓取的网站,但一部分付费墙机制不会影响它的爬虫。比如很多网站在执行付费墙代码前会短暂允许浏览器访问全文,然后代码检查访客是不是付费用户,如果不是就隐藏内容。Common Crawl 的爬虫不会执行付费墙代码,因此能直接阅读全文。过去一年 Common Crawl 的 CCBot 如今已成为流行网站屏蔽最广泛的抓取程序。

https://tech.slashdot.org/story/25/11/08/1930213/common-crawl-criticized-for-quietly-funneling-paywalled-articles-to-ai-developers

#人工智能

via Solidot - Telegram Channel
 
 
Back to Top
Copyright © 2025 BESTAI. All rights reserved.
BEST AI API中转 - OpenAI DeepSeek Claude Gemini Grok MidJourney API 2.8折起
[email protected]