🕵️‍♀️ Perplexity被指控使用隐秘爬虫规避网站抓取指令Cloudflare近日发布报告称，AI驱动的问答引擎Perplexity被发现使用隐秘、未声明的爬虫来规避网站的抓取限制，包括robots.txt文件和网络应用防火墙（WAF）规则

🕵️‍♀️ Perplexity被指控使用隐秘爬虫规避网站抓取指令

Cloudflare近日发布报告称，AI驱动的问答引擎Perplexity被发现使用隐秘、未声明的爬虫来规避网站的抓取限制，包括robots.txt文件和网络应用防火墙（WAF）规则。当其声明的爬虫（PerplexityBot和Perplexity-User，每日请求量达2000万至2500万次）被阻止时，Perplexity会修改用户代理（伪装成macOS上的Google Chrome，每日请求量为300万至600万次），更改源ASN，并使用未声明的IP地址进行轮换，以隐藏其抓取活动。

Cloudflare通过在新建的、受限域名上进行测试，证实了Perplexity即使在明确禁止抓取的情况下，仍能获取并提供这些域名的详细内容。这种隐秘行为违反了网络抓取规范（RFC 9309）。Cloudflare已将Perplexity从其“已验证机器人”列表中移除，并更新了管理规则，通过机器学习和网络信号指纹识别技术来阻止此类隐秘抓取活动，确保其现有客户受到保护。

文章强调了互联网建立在信任基础之上，并以OpenAI的ChatGPT为例，说明了良好机器人应遵守透明、有明确目的、不规避规则等原则。Cloudflare表示，自推出“内容独立日”以来，已有超过250万网站通过其服务选择完全禁止AI训练。Cloudflare将继续与全球技术和政策专家合作，推动建立明确的机器人行为标准。

(HackerNews)

via 茶馆 - Telegram Channel