Cloudflare近日发布报告称,AI驱动的问答引擎Perplexity被发现使用隐秘、未声明的爬虫来规避网站的抓取限制,包括robots.txt文件和网络应用防火墙(WAF)规则。当其声明的爬虫(PerplexityBot和Perplexity-User,每日请求量达2000万至2500万次)被阻止时,Perplexity会修改用户代理(伪装成macOS上的Google Chrome,每日请求量为300万至600万次),更改源ASN,并使用未声明的IP地址进行轮换,以隐藏其抓取活动。
Cloudflare通过在新建的、受限域名上进行测试,证实了Perplexity即使在明确禁止抓取的情况下,仍能获取并提供这些域名的详细内容。这种隐秘行为违反了网络抓取规范(RFC 9309)。Cloudflare已将Perplexity从其“已验证机器人”列表中移除,并更新了管理规则,通过机器学习和网络信号指纹识别技术来阻止此类隐秘抓取活动,确保其现有客户受到保护。
文章强调了互联网建立在信任基础之上,并以OpenAI的ChatGPT为例,说明了良好机器人应遵守透明、有明确目的、不规避规则等原则。Cloudflare表示,自推出“内容独立日”以来,已有超过250万网站通过其服务选择完全禁止AI训练。Cloudflare将继续与全球技术和政策专家合作,推动建立明确的机器人行为标准。
(HackerNews)
via 茶馆 - Telegram Channel