当前位置:首页 > 文章列表 > 科技周边 > 人工智能 > 谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

来源:51CTO.COM 2024-05-29 17:12:44 0浏览 收藏

在科技周边实战开发的过程中,我们经常会遇到一些这样那样的问题,然后要卡好半天,等问题解决了才发现原来一些细节知识点还是没有掌握好。今天golang学习网就整理分享《谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿》,聊聊,希望可以帮助到正在努力赚钱的你。

日前,谷歌2500页的内部文档被泄露,揭示了搜索——「互联网最强大的仲裁者」的运作方式。

SparkToro的联合创始人兼CEO是一位匿名人士,他在个人网站上发表博客文章,宣称“一位匿名人士与我分享了数千页泄露的谷歌搜索API文档,SEO中的每个人都应该看到它们!”

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

多年来,Rand Fishkin一直是SEO领域(Search Engine Optimization,搜索引擎优化)的顶级代言人,「网站权威性」(Domain Rating)这个概念就是他提出的。

既然在这个领域德高望重,Rand Fishkin爆料之前自然要对这位不明身份的匿名人士小心查验。

上周五,在发送了几封电子邮件之后,Rand Fishkin与这位神秘人进行了视频通话,当然,对方并没有露脸。

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

这次通话让Rand了解了这份泄密文件的更多信息:这是一份超过2500页的API文档,其中包含14014条属性。这些属性类似于Google的内部部分“Content API Warehouse”。

根据文档的提交历史记录,该代码于2024年3月27日上传到GitHub,直到2024年5月7日才被删除。

在通话结束后,Rand确认了匿名人的工作经历和他们在营销界共同认识的人。他决定满足匿名人的期望——发表一篇文章来分享这次泄露,并驳斥了谷歌员工「多年来一直传播的一些谎言」。

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

Matt Cutts、Gary Ilyes和John Mueller否认谷歌在多年来将基于点击的用户数据用于排名

Rand的文章谈到了沙箱、点击率、停留时间等影响SEO的因素,而这正是谷歌之前极力否认的。

文章一经发布,果然立刻引发了舆论哗然,尤其受到了SEO圈的特别关注。

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

另一位SEO专家Mike King也发表文章,揭示谷歌「算法的秘密」。

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

Mike King表示,「泄露的文件涉及谷歌收集和使用哪些数据、谷歌将哪些网站提升为选举等敏感话题、谷歌如何处理小型网站等主题。」

诸多信息表明,谷歌多年来并未完全如实报道,「文件中的一些信息似乎与谷歌代表的公开声明相冲突。」

面对大家的质疑,谷歌选择沉默,拒绝对此次爆炸性泄漏事件发表评论。

正主没有发声,反倒是此前匿名提供消息的神秘人士露面了。5月28日,神秘人终于决定挺身而出,发布了一段视频,在视频中公布了他的身份。

他叫Erfan Azimi,也是一名SEO从业者,EA Eagle Digital的创始人。

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

那么,既然Erfan Azimi提供的文档来自Google的内部「Content API Warehouse」,我们有必要了解一下什么是谷歌API Content Warehouse,以及这份文档究竟泄露了哪些内容?

谷歌搜索「黑箱」

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

这次泄密事件似乎来自GitHub,最可信的解释与Erfan Azimi在通话中告诉Rand的一致:

这些文档可能是无意中被短暂公开了,因为文档中的许多链接指向私人GitHub仓库,以及谷歌公司网站上需要特定认证登录的内部页面。

在2024年3月至5月这段可能是偶然的公开时间里,API文档被传播到Hexdocs(索引公开的GitHub仓库),并被其他人发现并传播。

让Rand疑惑的是,他确信其他人也有一份副本,但直到此次爆料发生以前,这份文件并没有被公开讨论。

据前谷歌开发人员透露,几乎每个谷歌团队都有这样的文档,用于解释各种API属性和模块,帮助项目人员熟悉可用的数据元素。

该泄漏信息与GitHub公共仓库和谷歌云API文档中的其他信息相吻合,使用了相同的符号风格、格式,甚至流程/模块/功能名称和引用。

「API Content Warehouse」听起来像个技术术语,但我们可以把它看作是给谷歌搜索引擎团队成员的一份指南。

它就像图书馆里的图书目录,谷歌用它来告诉员工有哪些书以及如何获取。

但不同的是,图书馆是公开的,而谷歌搜索却是世界上最神秘、防守森严的黑匣子之一。在过去的二十多年中,谷歌搜索部门从未发生过如此大规模或如此详细的泄密事件。

「泄露」了什么?

1. 对用户点击数据的使用

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

文档中的一些模块提到了「goodClicks」、「badClicks」、「lastLongestClicks」、印象、压扁、未压扁和独角兽点击等功能。这些都与Navboost和Glue有关,看过谷歌司法部证词的人可能对这两个词并不陌生。

以下是司法部律师Kenneth Dintzer对搜索质量团队搜索副总裁Pandu Nayak的交叉询问的相关摘录:

Q. 那么请提醒我一下,Navboost是否可以追溯到 2005 年?

A. 在这个范围内,甚至可能更早。

Q. 它已经更新过了,它已经不是当年的那个Navboost了?

A. 不是了

Q. 还有一个是glue,对吗?

A. glue只是Navboost的另一个名称,包括页面上的所有其他功能。

Q. 好的。我本来打算稍后再谈,但我们现在就可以谈。就像我们讨论过的那样,Navboost可以生成网页结果,对吗?

A. 是的。

Q. glue还可以处理页面上所有不是网页结果的内容,对吗?

A. 没错。

Q. 它们共同帮助找到最终显示在我们搜索结果页上的内容并对其进行排名?

A. 没错。它们都是这方面的信号,是的。

这份泄露的API文档支持Nayak先生的证词,并与Google的网站质量专利保持一致。

谷歌似乎有办法过滤掉他们不想计入排名系统的点击量,并将他们希望计入排名系统的点击量纳入其中。

他们似乎还能衡量点击时长(pogo-sticking,指搜索者点击结果后,因对找到的答案不满意而迅速点击返回按钮)和印象。

2. 征用Chrome的点击流

谷歌代表多次表示,它不会使用Chrome数据对页面进行排名,但泄密文档在有关网站如何在搜索中显示的部分中,特别提到了Chrome。

泄露文件的匿名消息源称,早在2005年,谷歌就希望获得数十亿互联网用户的完整点击流,而通过Chrome浏览器,他们已经得偿所愿。

API文档显示,谷歌可以使用Chrome浏览器计算与单个页面和整个域相关的几类指标。

这份文档介绍了谷歌如何创建Sitelinks的相关功能,特别有趣。

它展示了一个名为topUrl的调用,即 「A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.」

据此可以推测出,谷歌很可能使用了 Chrome 浏览器中网页的点击次数,并以此来确定网站上最受欢迎或是最重要的 URL,进而计算出哪些URL应包含在Sitelinks功能中。

在谷歌搜索结果中,它总能显示用户访问量最大的页面,这是它通过跟踪数十亿Chrome用户的点击流得来的。

对于谷歌的这一行为,网友当然表示不满。

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

3. 为严肃话题创建白名单

我们不难通过「优质旅游网站」 模块得出这样一个推论——谷歌在旅游领域存在一个白名单,尽管尚不清楚这是否专门用于谷歌的「旅游」搜索选项,还是更广泛的网络搜索。

此外,文档中多处提到的 「isCovidLocalAuthority」(新冠本地权威)和 「isElectionAuthority」(选举权威)进一步表明,谷歌正在对特定域名进行白名单管理,这些域名可能会在用户搜索极具争议的问题时被优先显示。

例如,在2020年美国总统大选之后,某位候选人在没有证据的情况下声称选票被偷,并鼓励其追随者冲击国会山。

谷歌几乎肯定会成为人们最先搜索这一事件相关信息的地方之一,如果他们的搜索引擎返回的是不准确描述选举证据的宣传网站,这可能会直接导致更多的争论、暴力,甚至是美国民主的终结。

从这个角度上来说,白名单有其现实意义。Rand Fishkin表示「我们这些希望自由公正的选举继续下去的人应该非常感谢谷歌的工程师们在这种情况下使用了白名单。」

4. 采用人工评估网站质量

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

长期以来,谷歌一直有一个名为EWOK的质量评级平台,我们现在有证据表明,搜索系统中使用了质量评估者中的某些元素。

Rand Fishkin觉得有趣的是,EWOK质量评估者生成的分数和数据可能会直接参与谷歌的搜索系统,而不仅仅是实验的训练集。

当然,这些可能「只是用于测试」,但是当浏览泄露的文档时,你就会发现当这是真的,它会在注释和模块详细信息中明确指出。

其中提到的「每份文档相关性评级」即来自 EWOK 的评估,虽然没有详细的说明,但我们不难想象,人类对网站的评估到底有多重要。

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

文档还提到了「人工评级」(例如来自 EWOK 的评级),并指出它们「通常只填充在评估管道中」,这表明它们可能主要是该模块中的训练数据。

但Rand Fishkin认为这仍然是一个非常重要的角色,营销人员不应忽视质量评级者对其网站的良好感知和评级有多么重要。

5. 利用点击数据确定权重

谷歌将链接索引分为三个等级(低、中、高质量),点击数据用于确定网站属于哪个等级。

- 如果网站没有被点击,就会进入低质量索引,链接也会被忽略

- 如果网站来自可验证设备的点击量很高,它就会进入高质量索引,并且链接会传递排名信号

一旦链接因为属于更高层次的索引而成为 “可信 ”链接,它就可以流动PageRank和锚点,或者被垃圾链接系统过滤/删除。

来自低质量链接索引的链接不会损害网站的排名,它们只会被忽略。

谷歌的搜索算法可能是互联网上最重要的系统,它决定了不同网站的生死存亡以及我们在网上所能看到的内容。

可它到底是如何对网站进行排名的,长期以来一直是个谜,记者、研究人员和从事SEO工作的人们都在不断拼凑这个谜题的答案。

在这次泄漏事件中,谷歌依旧保持沉默,似乎会让这个谜题长久存在下去。

但这次谷歌有史以来最严重的泄密,还是撕开了一个裂缝,让人们对搜索的工作原理有了前所未有的了解。

今天关于《谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿》的内容介绍就到此结束,如果有什么疑问或者建议,可以在golang学习网公众号下多多回复交流;文中若有不正之处,也希望回复留言以告知!

版本声明
本文转载于:51CTO.COM 如有侵犯,请联系study_golang@163.com删除
Go 框架在人工智能和机器学习领域的发展趋势?Go 框架在人工智能和机器学习领域的发展趋势?
上一篇
Go 框架在人工智能和机器学习领域的发展趋势?
PHP 框架如何支持代码扩展和维护?
下一篇
PHP 框架如何支持代码扩展和维护?
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    508次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    497次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 毕业宝AIGC检测:AI生成内容检测工具,助力学术诚信
    毕业宝AIGC检测
    毕业宝AIGC检测是“毕业宝”平台的AI生成内容检测工具,专为学术场景设计,帮助用户初步判断文本的原创性和AI参与度。通过与知网、维普数据库联动,提供全面检测结果,适用于学生、研究者、教育工作者及内容创作者。
    23次使用
  • AI Make Song:零门槛AI音乐创作平台,助你轻松制作个性化音乐
    AI Make Song
    AI Make Song是一款革命性的AI音乐生成平台,提供文本和歌词转音乐的双模式输入,支持多语言及商业友好版权体系。无论你是音乐爱好者、内容创作者还是广告从业者,都能在这里实现“用文字创造音乐”的梦想。平台已生成超百万首原创音乐,覆盖全球20个国家,用户满意度高达95%。
    33次使用
  • SongGenerator.io:零门槛AI音乐生成器,快速创作高质量音乐
    SongGenerator
    探索SongGenerator.io,零门槛、全免费的AI音乐生成器。无需注册,通过简单文本输入即可生成多风格音乐,适用于内容创作者、音乐爱好者和教育工作者。日均生成量超10万次,全球50国家用户信赖。
    30次使用
  •  BeArt AI换脸:免费在线工具,轻松实现照片、视频、GIF换脸
    BeArt AI换脸
    探索BeArt AI换脸工具,免费在线使用,无需下载软件,即可对照片、视频和GIF进行高质量换脸。体验快速、流畅、无水印的换脸效果,适用于娱乐创作、影视制作、广告营销等多种场景。
    34次使用
  • SEO标题协启动:AI驱动的智能对话与内容生成平台 - 提升创作效率
    协启动
    SEO摘要协启动(XieQiDong Chatbot)是由深圳协启动传媒有限公司运营的AI智能服务平台,提供多模型支持的对话服务、文档处理和图像生成工具,旨在提升用户内容创作与信息处理效率。平台支持订阅制付费,适合个人及企业用户,满足日常聊天、文案生成、学习辅助等需求。
    36次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码