Google 向 AI 内容演进的战略:综合分析

AI 生成内容的大量出现对 Google 识别垃圾邮件带来了挑战。

AI 生成的内容的存在也使 Google 对内容质量的评估变得复杂。

然而,有迹象表明,Google 正在增强其自动检测 AI 生成的低质量内容的能力。

互联网上广泛存在垃圾 AI 内容

人们不需要具备 SEO 方面的专业知识就能认识到,生成性 AI 内容在过去一年中已经渗透到 Google 的搜索结果中。

在此期间,Google 对 AI 创作内容的态度也发生了变化。官方立场从将其视为违反准则的垃圾内容转变为优先考虑内容质量而不是内容创作方法。

我相信 Google 对质量的重视已被融入众多内部 SEO 演示中,这些演示提倡 AI 生成的内容策略。毫无疑问,Google 的这种方法提供了足够的回旋余地,以确保获得各个组织管理层的批准。

结果是:大量由 AI 生成的、低于标准的内容充斥网络,其中一些最初出现在该公司的搜索结果中。

隐藏的低质量内容

“可见网络”仅代表搜索引擎选择索引和显示在搜索结果中的一小部分互联网。

Google 的 Pandu Nayak 在 Google 反垄断审判中的证词中表示,尽管 Google 在抓取过程中遇到了数万亿份文档,但它仍维护着大约 4000 亿份文档的索引。

这意味着 Google 仅索引了它在网络爬取过程中遇到的 4% 个文档(10 万亿个中的 4000 亿个)。

Google 声称它在 99% 次查询点击中过滤掉了垃圾邮件,这表明它已经消除了大多数不值得的内容。 

内容的统治和算法的权威

Google 在评估内容质量方面保持了其专业水平,尽管许多 SEO 和经验丰富的网站管理员持有相反的观点。许多例子都展示了劣质内容胜过优质内容的情况。

一家在内容方面投入资金的知名公司很可能跻身网络上优质内容的顶级行列。竞争对手可能会占据类似的位置。Google 已经排除了许多劣势候选人进入索引。

Google 对其成就感到自豪。由于有 96% 份文件未收录到索引中,因此有些问题对人类来说很明显,但对机器来说却很难识别。

我观察过一些案例,得出的结论是,Google 擅长识别哪些 页面 从技术角度来看,它们是“好”还是“坏”,但很难区分 好内容很棒的内容.

Google 甚至在司法部反垄断展品中提交的文件中承认了这一点。在 2016 年的一次演示中,它表示:“我们不理解文件。我们只是模拟它。”

Eric Lehman 整理的搜索全体员工演示文稿中的一张幻灯片

Google 依靠 SERP 用户互动来评估内容质量

Google 传统上依靠用户与搜索引擎结果页面 (SERP) 的互动来衡量文档内容的质量。正如 Google 后续演示文稿中所解释的那样:“每个搜索者都会从过去用户的回复中受益……并贡献出有益于未来用户的回复。”

雷曼编写的 Search All Hands 演示文稿中的一张幻灯片

关于 Google 使用互动数据来确定内容质量的争论一直存在。我认为 Google 主要使用来自 SERP 而非网站的互动来决定内容质量,从而消除了跳出率等基于网站的指标。

如果仔细关注知识来源,就会发现 Google 对于在内容排名中使用点击数据非常透明。

2016 年,Google 工程师 Paul Haahr 在 SMX West 上发表了题为“Google 的工作原理:Google 排名工程师的故事”的演讲。Haahr 讨论了 Google 的 SERP 以及搜索引擎如何仔细检查点击模式的变化。他承认,这些用户数据“比预期的更难理解”。

Haahr 的声明被整合在司法部展品中的“研究排名”演示幻灯片中:

司法部展览“研究排名”中的一张幻灯片

Google 解释用户数据并将其转化为可操作的见解的能力取决于辨别改变变量与其相应结果之间的因果关系。

SERP 是 Google 理解主要变量的主要领域。网站上的互动引入了大量超出 Google 视野的变量。

即使 Google 可以识别和量化网站上的交互(可以说比评估内容质量更具挑战性),它也会导致大量不同的变量集,每个变量集都需要最低流量阈值才能进行有意义的扣除。

Google 在其文档中指出,“日益增长的用户体验复杂性使得将反馈转化为有关 SERP 的准确价值判断变得越来越具有挑战性”。

品牌与虚拟泥潭

Google 声称 SERP 与用户之间的交互构成了其“模拟”文档理解能力背后的“核心奥秘”。


司法部展览“记录与排名”中的一张幻灯片

除了司法部展品提供的见解之外,还可以在其专利中找到有关 Google 如何在排名中使用用户交互的线索。

一个特别有趣的方面是“网站质量得分”,它检查以下关系:

  • 搜索者在查询或网站中包含品牌/导航术语的情况是,它们会包含在锚点中。例如,搜索查询或链接锚点为“seo news searchengineland”,而不是“seo news”。
  • 当用户似乎倾向于从 SERP 中选择特定结果时。

这些指标可能表明某个网站与查询的响应高度相关。这种评估质量的方法与 Eric Schmidt 的断言“品牌提供解决方案”相符。

这一原理与表明用户对品牌有强烈偏见的研究相符。

例如,根据 Red C 的一项调查,在购买派对礼服或计划邮轮假期等任务中,82% 的参与者会选择熟悉的品牌,而不管其 SERP 排名如何。

品牌及其产生的相关回忆的建立成本很高。因此,Google 依靠它们来对搜索结果进行排名是合乎逻辑的。

根据Google识别AI垃圾邮件

Google 在今年发布了关于人工智能创建内容的建议。其垃圾邮件法规明确将“垃圾自动生成内容”描述为主要为操纵搜索排名而生成的内容。

Google 垃圾邮件规定

Google 将垃圾邮件定义为“通过自动化流程创建的文本,不考虑质量或用户体验。” 在我看来,这指的是任何使用 AI 系统生成内容而没有经过人工质量保证流程的人。

在某些情况下,AI 系统会使用机密或私人数据进行训练。它可能被编程为产生更可预测的结果,以减少错误和不准确性。有人可能会说这是事先的质量保证。这可能是一种很少使用的策略。

我将把所有其他情况称为“垃圾邮件”。

以前,只有具备提取数据、为 madLibbing 构建数据库或使用 PHP 利用马尔可夫链生成文本的技术专长的个人才能制作此类垃圾邮件。

ChatGPT 通过一些提示和一个简单的 API 实现了垃圾邮件的民主化,同时还采用了 OpenAI 宽松的发布政策,该政策规定:

“AI 在内容塑造中的参与程度被明显地披露出来,任何读者都无法轻易忽视,而且普通读者也能充分理解。”

OpenAI 的出版政策

互联网上流传的 AI 生成内容数量巨大。使用 Google 搜索“regenerate response -chatgpt -results”会发现数以万计的页面包含 AI“手动”制作的内容(即未使用 API)。

在许多情况下,质量保证非常不达标,以至于“作者”在复制和粘贴操作过程中留下了来自旧版本 ChatGPT 的“再生响应”。

AI 内容中观察到的被视为垃圾邮件的模式

当 GPT-3 出现时,我对 Google 将如何响应未经编辑的 AI 生成的内容感到好奇,因此我建立了我最初的测试网站。

事情是这样的:

  • 获取了一个新域名并配置了一个基本的 WordPress 安装。
  • 抓取有关 Steam 上最畅销的 10,000 款游戏的信息。
  • 将这些游戏输入到 AlsoAsked API 中以提取有关它们的查询。
  • 利用 GPT-3 来构建这些问题的答案。
  • 为每个问题和答案制定 FAQPage 架构。
  • 检索有关该游戏的 YouTube 视频的 URL,以嵌入到页面中。
  • 利用 WordPress API 为每个游戏生成一个页面。

该网站上没有广告或其他创收功能。

整个过程只花了几个小时,我便创建了一个全新的 10,000 页网站,其中包含一些与流行视频游戏相关的问答内容。

Lily Ray 在 PubCon 上展示了该网站的 Google Search Console 效果数据

实验结果:

  • 约 4 个月后,Google 选择不显示某些内容,导致 25% 的流量下降。
  • 一个月后,Google 停止为该网站引导流量。
  • 在整个期间内,Bing 持续引荐流量。

最让我好奇的是什么?Google 似乎没有采取手动操作。Google Search Console 中没有通知,两步流量损失让我怀疑是否有任何手动干预。

我经常在纯 AI 生成的内容中观察到这种趋势:

  • Google 列出了该站点。
  • 流量得到快速引导并且每周持续增长。
  • 随后流量达到峰值,然后迅速下降。

另一个例子是 Causal.app 的情况。在这次“SEO 抢劫”中,竞争对手的站点地图被盗,超过 1,800 篇文章是使用 AI 撰写的。流量也遵循了同样的轨迹,在几个月内不断上升,然后趋于平稳,然后下降了约 25%,随后崩溃,几乎所有流量都消失了。

来自 SISTRIX 的 Causal.app 可见性数据

SEO 社区正在考虑,由于媒体对此的大量报道,此次下降是否是人为干预的结果。我推测,这是算法在作怪。

另一项引人入胜且可能更有趣的研究涉及 LinkedIn 的“协作” AI 文章。这些由 LinkedIn 精心制作的 AI 生成文章鼓励用户以事实核查、更正和补充的形式进行“协作”。最活跃的贡献者因其贡献而获得 LinkedIn 徽章奖励。

与之前的情况一样,流量激增然后下降。不过,LinkedIn 的流量仍保持了一定水平。

来自 SISTRIX 的 LinkedIn /advice/ 页面的可见性数据

这些数据表明,流量波动是算法的产物,而不是人工干预。

经过人工修改后,许多 LinkedIn 协作文章似乎符合 Google 对有价值内容的定义。然而,其他文章则被认为不符合。

也许在这种情况下 Google 的判断是正确的。

如果它被视为垃圾邮件,为什么它会获得排名?

据我观察,Google 的排名是一个多阶段的过程。时间、成本和数据可访问性等限制阻碍了更复杂的系统的实施。

尽管对文件进行了持续评估,但我怀疑 Google 的系统在识别低质量内容之前会存在延迟。这解释了反复出现的模式:内容通过了初步评估,但后来被认定为不合格。

让我们来看看支持这一论断的一些证据。在本文前面,我们简要提到了 Google 的“网站质量”专利,以及他们如何利用用户交互数据来制定排名分数。

对于新推出的网站,用户尚未与 SERP 上的内容互动。因此,Google 无法评估内容的质量。

另一项与预测站点质量有关的专利解决了这种情况。

再次,用非常简单的术语来说,通过最初获得在新网站上识别的各种短语的相对频率测量来预测新网站的质量得分。

然后,使用根据先前评级的网站建立的质量分数得出的先前建立的短语模型来关联这些测量值。

预测场地质量专利

如果 Google 仍在采用这种方法(我相信至少在一定程度上是这样),则意味着许多新网站最初是根据算法中包含的质量评估进行排名的。随后,排名将根据用户交互数据进行细化。

我和几个同伴注意到,Google 有时会在初步评估阶段提升网站的排名。

我们当时的假设是,进行了一次评估以确定用户互动是否符合 Google 的预测。如果不符合,流量会像激增一样迅速减少。但是,如果表现良好,该网站在 SERP 中会保持不错的排名。

Google 的几项专利都提到了“隐性用户反馈”,其中包括以下直率的声明:

“排名子系统可以包含一个排名修改引擎,该引擎利用隐式用户反馈来触发搜索结果的重新排序,以增强向用户呈现的最终排名。”

早在 2015 年,AJ Kohn 就详细阐述了此类数据。

值得注意的是,这是众多专利中的一项老专利。自该专利公布以来,Google 已经设计出许多新解决方案,例如:

  • RankBrain 因处理 Google 的“新”查询而出名。
  • SpamBrain,Google 用于打击网络垃圾的主要工具。

Google:小心差距

除了那些在 Google 拥有直接工程知识的人之外,外部人士还不清楚 Google 会在整体 SERP 之外利用多少个人网站上的用户/SERP 交互数据。 

然而,众所周知,像 RankBrain 这样的现代系统部分是基于用户点击数据进行训练的。 

在 AJ Kohn 对司法部关于这些新系统的证词的分析中,一个特定的观点引起了我的注意。他提到: 

“参考文献表明将一组文档从‘绿色环’移至‘蓝色环’。这些参考文献涉及一份我尚未找到的文档。然而,根据证词,它似乎说明了 Google 如何将结果从大集合过滤到较小的集合,从而可以应用进一步的排名因素。”

这符合我的理论。如果一个网站通过了测试,它就会转移到另一个“环”,进行更高级的处理,以提高准确性。

目前的情况是:  

  • Google 现有的排名系统难以跟上 AI 生成的内容制作和发布的步伐。
  • Gen-AI 系统生成语法正确且大多连贯的内容,通过 Google 的初步测试和排名,直至进行进一步评估。 

问题就在这里:使用生成式 AI 持续生成内容意味着有无数个网站在等待 Google 的初步评估。

HCU 是通过 UGC 解决 GPT 问题的解决方案吗?

我怀疑 Google 承认这是他们必须克服的重大挑战。据推测,最近实施的诸如“有用内容更新 (HCU)”之类的更新可能是为了解决此漏洞。

据了解,HCU 和“隐藏的宝石”系统已经使 Reddit 等用户生成内容 (UGC) 平台受益。 

Reddit 是一个访问量本来就很大的网站,由于最近的 Google 修改,其搜索可见度增加了一倍多,而其他网站的访问量却减少了。 

我的理论是,由于内容审核的原因,UGC 平台(除了一些例外)不太可能成为大量生产的 AI 内容的来源。 

虽然搜索结果并不完美,但浏览原始 UGC 的总体满足感可能会超过 Google,无论 ChatGPT 在线生成什么内容,其排名始终如一。

在 Google 努力迅速打击 AI 垃圾邮件时,强调 UGC 可能只是一种提高质量的临时补救措施。

从长远来看,Google 将如何应对 AI 垃圾邮件?

在司法部的审判中,有关 Google 的大部分证词来自埃里克·莱曼 (Eric Lehman),他曾在 Google 工作 17 年,担任软件工程师,专注于搜索质量和排名。

雷曼在声明中反复提到,Google 的机器学习系统 BERT 和 MUM 的重要性日益超过用户数据。这些系统功能强大,未来 Google 可能更依赖它们,而不是用户数据。

有了用户交互数据片段,搜索引擎就拥有了可靠的决策代理。挑战在于快速收集足够的数据以跟上变化,这就是为什么有些系统采用替代方法的原因。

如果 Google 能够利用 BERT 等突破性技术增强其模型,从而显著提高其初始内容分析的准确性,那么他们可能会弥补差距,并显著减少检测和降低垃圾邮件排名所需的时间。

这个问题仍然存在,而且很容易被利用。随着越来越多的人寻求轻松、高收益的机会,Google 纠正其弱点的压力也越来越大。  

具有讽刺意味的是,随着系统能够大规模地熟练打击某一特定类型的垃圾邮件,它可能会通过减少参与此类活动的机会和动机而使自己变得几乎多余。

点击