网络安全 频道

2500页内部文档泄露,曝光谷歌搜索引擎的内幕

在科技界,信息泄露事件屡见不鲜,但某些时候,规模和影响范围难以估量的泄露事件会发生,足以改变整个行业的格局。当这样的事件涉及到谷歌这样的行业巨头,并揭露全世界最大互联网搜索引擎运作的秘密时,自然吸引了所有人的目光。谷歌常常徘徊在重大决策与危机管理之间,在超过2500页的SEO文档泄露后,谷歌被迫采取紧急应对措施。

今年五月初,市场研究网站SparkToro的联合创始人兰德·费什金(Rand Fishkin)收到了匿名寄送的数千份谷歌搜索API文档泄露资料,其中揭露了该公司搜索业务的敏感信息。尽管泄露数据中包含大量技术细节,但Rand Fishkin和iPullRank的创始人迈克·金(Mike King)审查后发现,这些文件不仅包含了以前不为人知的信息,而且最关键的是,它们都是真实可信的。

泄露的文件不包含代码等内容,而是描述了如何使用谷歌搜索内部API;泄露的文档中多次提及内部系统和项目。尽管有一个名称相似的谷歌云API已经公开,但GitHub上泄露的内容似乎远不止于此。

超过2500页的文档中,有超过14000个与API相关或可访问的属性的详细信息,但关于是否使用了所有这些信号以及它们的重要性,信息很少。因此,很难确定谷歌在其搜索结果排名算法中对这些属性的重视程度。

Fishkin解释道:“Azimi邮件中提到的许多说法直接与谷歌多年来发表的公开声明相矛盾,特别是谷歌一再否认使用点击为中心的用户信号、否认在排名中单独考虑子域名、否认对新网站有沙盒效应、否认收集或考虑域名年龄等。”

King引用了谷歌搜索倡导者约翰·穆勒 (John Mueller)的声明,Mueller在一个视频中表示“我们没有像网站权威分数这样的东西”。但King指出,文档显示作为压缩质量信号的一部分,谷歌确实会计算“网站权威”分数。

此外,文档还揭示了点击量的重要性,不同类型点击(好的、坏的、长时间的)在网页排名中的决定作用。谷歌曾承认,它将点击量指标作为网络搜索的排名因素。另一个发现是,谷歌将通过Chrome浏览器查看的网站作为质量信号,以及考虑内容新鲜度、作者身份、页面与网站中心主题的相关性、标题与内容的一致性,甚至是文档主体中术语平均加权字体大小等因素。

在帖子发布后,谷歌向The Register回应称,公众应保持冷静,并意识到意外泄露的文件可能缺乏关键的上下文。一位谷歌发言人表示:“我们提醒大家不要根据脱离上下文、过时或不完整的信息对搜索做出不准确的假设,”一位发言人表示。“我们已经分享了关于搜索工作原理以及我们系统权衡的因素类型的广泛信息,同时也在努力保护我们结果的完整性免受操纵。”

近年来,AT&T与T-Mobile先后遭遇大规模用户数据被盗事件。在T-Mobile的案例中,甚至惊动了当地政府的介入。社交媒体平台X(原Twitter)也在2022年遭遇了零日漏洞攻击,导致540万个账户受到影响。有时,泄露事件对涉事公司未必全是负面影响;比如最近的谷歌Pixel 9系列泄露,或许还能为产品预热,至少能让公司借此机会测试公众对其决策的反应。

尽管与其他搜索引擎相比,谷歌搜索的用户数量惊人,但未来可能会迎来OpenAI这个强劲对手的竞争。谷歌仍在向搜索结果中添加AI元素,这是其全面整合Gemini系统计划的一部分。竞争总是有益的,尤其在谷歌关闭搜索中的缓存链接功能后,对于一些用户来说,新的竞争者出现正是时候。

0
相关文章