2023 年 8 月,OpenAI 推出了其网络爬虫 GPTBot,并允许网站所有者阻止对 robots.txt 的访问,就像阻止 Googlebot 访问网站的某些敏感或无用部分一样。
根据 Originality.ai 和牛津大学路透社研究所的研究,大量网站(在某些行业高达 48%)迅速转向 AI 爬虫拦截。
不久后,谷歌宣布了一个单独的“谷歌扩展”机器人,允许网站在部分或所有页面上专门阻止谷歌的人工智能工具。
从那时起,一场重要的辩论开始了。
整个 SEO 行业一直在争论如何最好地利用这种新 99 英亩数据库 功能来拒绝访问(某些)人工智能工具,以及这种行为是否具有任何实际影响。
由于目前可用的信息有限,特别是有关这些数据和这些工具的未来管理的信息,我们假设有一个适合每个人的确定答案。
在这篇文章中,我们将讨论可能迫使您阻止人工智能爬虫的论点、信念或业务背景。
不过,在我们去那里之前——你想做的事情真的有意义吗?
“无论如何,他们拥有我所有的内容”
也许。 OpenAI 过去使用过各种数 最适合博客的 10 篇文章?这是我们的前十名 据源,最近刚刚发布(透露?)自己的网络爬虫。
例如,Common Crawl是 GPT-3 的大量训练 EW 线索 数据,这与 GPTBot 不同。很少有网站会阻止 Common Crawl CCbot,就服务器需求而言,它被认为相当“轻”,具有潜在的广泛好处,远远超出了训练 AI 模型的范围。
此外,如果您现在阻止较新的人工智能机器人,您不会删除过去已从您的网站收集的任何内容。
因此,最坏的情况是,您会减慢他们对您发布的新内容的访问速度。但是,您可能认为这些新内容具有某种独特的价值,尤其是当它是“新鲜”的时候。 (新闻网站目前倾向于屏蔽并非巧合。)