SEO：何时阻止人工智能机器人，何时不阻止

2023 年 8 月，OpenAI 推出了其网络爬虫 GPTBot，并允许网站所有者阻止对 robots.txt 的访问，就像阻止 Googlebot 访问网站的某些敏感或无用部分一样。

根据 Originality.ai 和牛津大学路透社研究所的研究，大量网站（在某些行业高达 48%）迅速转向 AI 爬虫拦截。

不久后，谷歌宣布了一个单独的“谷歌扩展”机器人，允许网站在部分或所有页面上专门阻止谷歌的人工智能工具。

从那时起，一场重要的辩论开始了。

整个 SEO 行业一直在争论如何最好地利用这种新 99 英亩数据库功能来拒绝访问（某些）人工智能工具，以及这种行为是否具有任何实际影响。

由于目前可用的信息有限，特别是有关这些数据和这些工具的未来管理的信息，我们假设有一个适合每个人的确定答案。

在这篇文章中，我们将讨论可能迫使您阻止人工智能爬虫的论点、信念或业务背景。

不过，在我们去那里之前——你想做的事情真的有意义吗？

也许。 OpenAI 过去使用过各种数最适合博客的 10 篇文章？这是我们的前十名据源，最近刚刚发布（透露？）自己的网络爬虫。

例如，Common Crawl是 GPT-3 的大量训练 EW 线索数据，这与 GPTBot 不同。很少有网站会阻止 Common Crawl CCbot，就服务器需求而言，它被认为相当“轻”，具有潜在的广泛好处，远远超出了训练 AI 模型的范围。

此外，如果您现在阻止较新的人工智能机器人，您不会删除过去已从您的网站收集的任何内容。

因此，最坏的情况是，您会减慢他们对您发布的新内容的访问速度。但是，您可能认为这些新内容具有某种独特的价值，尤其是当它是“新鲜”的时候。（新闻网站目前倾向于屏蔽并非巧合。）