谷歌文档泄露:seo规则被颠覆
谷歌API内容库文件被泄露,其中包含指向私有存储库和谷歌公司内部页面的链接。这份长达2500页的文件详细描述了谷歌搜索引擎的工作机制。
https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html#attributes
SEO专家们正积极分析这些泄露的数据。根据文档中的信息,谷歌在对网站进行排名时会考虑多达14000多个因素。在这些因素中,用户点击和点击后的行为(即行为因素)起着至关重要的作用。研究这些新数据的SEO专家指出,点击和网站导航的重要性已经上升,而内容和链接的优先级则有所降低。
谷歌排名算法
最近的泄露信息,加上美国司法部反垄断案的披露,揭示了谷歌排名算法的多个方面,这些方面与该公司的一些公开声明相矛盾。
以下是与谷歌关于其排名方法的声明不符的几个关键点,对SEO专家来说尤为重要:
- 关键词密度不再是排名因素:谷歌的前员工透露,该公司已经不再将关键词密度作为排名因素。这意味着,即使网页上包含大量关键词,但如果这些关键词与页面内容不相关,也不会影响排名。
- 外部链接的重要性降低:据前员工称,外部链接的重要性已经降低,尤其是低质量的外部链接。这表示,即使网站有大量外部链接,但若这些链接来自低质量网站,也不会显著影响排名。
- 社交媒体参与度不再是排名因素:前员工透露,谷歌不再将社交媒体参与度作为排名因素。因此,即使网站在社交媒体上有高参与度,也不会直接影响排名。
- 移动友好性不再是排名因素:前员工称,谷歌不再将移动友好性作为排名因素。这意味着,即使网站在移动设备上的用户体验不佳,也不会对排名产生太大影响。
- 人工干预:尽管谷歌多次否认人工干预排名,但据前员工透露,该公司确实会对某些网站进行人工干预以提升其排名。这意味着,即使网站在算法上表现良好,但若不符合谷歌的某些标准,也可能会被降级
网站用户行为
一个重要的排名组件“NavBoost”通过分析点击数据来提升或降低网站的排名。NavBoost分析用户在搜索结果页面上的点击行为,考虑的因素包括“好点击”(goodClicks)、“坏点击”(badClicks)和“最长点击时间”(lastLongestClicks)。这使得谷歌能够了解哪些搜索结果最能满足用户需求,并相应地提升这些页面的排名位置。NavBoost还会考虑用户的“弹跳行为”(pogo-sticking),即用户在点击了一个未满足需求的结果后迅速返回搜索结果页面。通过分析点击持续时间(用户在页面上停留的时间),NavBoost可以确定页面的有用性和相关性。
Chrome数据的使用
泄露的信息表明,谷歌通过收集大量用户行为数据来评估页面和域名。例如,谷歌可以使用Chrome浏览器中的页面点击次数来确定网站中最受欢迎的URL,从而影响Sitelinks的创建。
网站白名单
谷歌为与旅行、COVID-19和选举相关的网站建立了白名单。这使得谷歌能够控制有争议或可能存在问题的搜索结果,确保只显示经过验证和可靠的来源。
域的权威
尽管谷歌一再声称其算法中不使用Domain Authority指标,但泄露的数据显示,Q*系统中存在一个名为siteAuthority的指标,用于评估网站权重。这表明谷歌内部确实存在与Domain Authority相对应的评估标准。
沙盒机制
谷歌声称没有“沙盒”机制,新网站不受特殊限制。然而,泄露的信息提到一个名为“hostAge”的属性,用于“新鲜垃圾邮件沙盒”,这证实了谷歌确实对新网站或可疑网站实施某种形式的“沙盒”机制。
数据来自EWOK
EWOK是谷歌内部的一个平台,用于搜索质量评估。在这个平台上,真人评审员会查看搜索结果页面,并根据相关性、有用性和对来源的信任度等标准对其进行评分。来自这些质量评审员的数据可以直接影响页面排名。
品牌规模的考虑
知名品牌在排名中会受到优先考虑。谷歌使用多种方法来识别和排名品牌,这不仅取决于网站本身,还取决于互联网上对该网站的提及(即使没有链接)。这意味着品牌规模在谷歌的排名算法中占有重要地位。
Additional Important Points其他重要事项:
Date Significance: 日期的意义:
Google会通过多种方法将日期与内容进行关联:bylineDate(页面上指定的日期)、syntacticDate(从URL或标题中提取的日期)和semanticDate(从页面内容中推断出的日期)。
Original Content and Keywords:原创内容和关键词:
简要内容的原创性也会影响其排名。页面标题应与用户查询相匹配,这是至关重要的因素。
Font Size: 字体大小:
Google会追踪文档和链接中术语的平均加权字体大小,这也会影响排名。
Home Page PageRank: 首页PageRank:
在新页面的PageRank值计算出来之前,很可能会用PageRank和Site Authority作为其代理值。
Small Sites Demotion: 小型站点降级:
Google有一个特定的标志,表明某个网站是“小型个人网站”。虽然没有对这类网站给出明确的定义,但谷歌很容易提升或降低它们的排名。
Indexing Level Influences Link Value:索引级别影响链接价值:
一个名为“sourceType”的指标显示了页面的索引位置与其价值之间的联系。谷歌索引被分为多个级别:最重要的、定期更新且易于访问的内容存储在闪存中;不太重要的内容存储在固态硬盘上,而更新频率较低的内容则存储在普通硬盘上。级别越高,链接的价值就越大。被认为“新鲜”的页面也被视为质量更高,这在一定程度上解释了为什么高排名和新闻页面的排名效果更好。
Demotion in Google’s Ranking Algorithms谷歌排名算法中的降级
指的是由于某些负面因素影响了网页的质量或相关性而导致的搜索结果排名下降。数据泄露显示,谷歌采用了多种算法机制来进行降级处理。以下是其中一些: “关键词堆砌”指的是在网页上重复使用与主题无关的关键词,以试图提高搜索排名。这种做法可能会导致网页被降级。 “隐藏文本”指的是在网页上使用与网页背景颜色相同的文本,以试图提高搜索排名。这种做法可能会导致网页被降级。 “隐藏链接”指的是在网页上使用与网页背景颜色相同的链接,以试图提高搜索排名。这种做法可能会导致网页被降级。 “链接农场”指的是由大量相互链接的网页组成的网络,这些网页的目的是为了提高特定网页的搜索排名。这种做法可能会导致整个网络中的网页被降级。 “垃圾内容”指的是低质量、重复或与网页主题无关的内容。这种做法可能会导致网页被降级。
锚文本不匹配:当链接指向的目标网站与链接本身不匹配时,该网站在排名中会被降级。
搜索结果降级:一个信号,表明用户可能对某个页面不满意,可能是通过点击次数来衡量的。
导航降级:适用于那些展示糟糕导航或用户体验不佳的页面。
精确匹配域名降级:如果网站提供的内容质量不高,则会将精确匹配域名(例如,buy-cheap-shoes.com)降级。–
产品评价降级:虽然具体情况尚不明确,但很可能与2023年最近的产品评价更新有关。
位置降级:表示“全球”页面可能会在排名中被降级,这意味着谷歌希望将页面与地理位置相关联并根据此进行排名。–
色情降级:因展示色情内容而进行的降级。其他链接降级:由于各种与链接相关的问题导致的降级。
排名系统架构
Google的内部系统架构,根据其内部名称,展示了各种系统的功能和相互连接关系。
Crawling– Trawler/爬虫: 该网页爬取系统具有扫描队列,可以反映爬取速度,并了解页面被访问的频率。
Indexing/索引:
– Alexandria: ——亚历山大: 要的索引系统。
– SegIndexer: 一种在索引中分层放置文档的系统。
– TeraGoogle: 用于长期文档存储的辅助索引系统。
Rendering/呈现:
– HtmlrenderWebkitHeadless:– HtmlrenderWebkitHeadless:用于JavaScript页面的渲染系统。
Processing: 处理:
– LinkExtractor: – 链接提取器:从网页中提取链接。
– WebMirror: 负责规范化和复制处理。
Ranking: 排名:
– Mustang: 评估、排名和服务网站的主要系统。
– Ascorer:核心排名算法。
– NavBoost:一个基于点击日志和用户行为的重新排名系统。
– FreshnessTwiddler:根据文档的新鲜度对其进行排名。
– WebChooserScorer: 确定代码段评分中使用的对象标题。
Serving: 服务:
– Google Web Server (GWS): 谷歌前端交互的服务器,负责从数据库中获取数据并展示给用户。
– SuperRoot: 谷歌搜索的大脑,向谷歌服务器发送信息并管理重排序和呈现结果的后处理系统。
– SnippetBrain: 为搜索结果生成摘要。
– Glue: 综合考虑用户行为的通用结果。
– Cookbook: 为系统生成信号。
Twiddlers”指的是什么?
Twiddlers Twiddlers(捣蛋鬼) 这是在主排序算法(Ascorer)执行之后激活的重排序函数。Twiddlers可以调整文档的信息检索得分或改变其排名,还可以施加特定类别的限制。
人们普遍认为带有“Boost”后缀的任何功能都是在使用“Twiddler”框架进行操作。
– NavBoost: 根据用户的导航和行为数据调整排名。
– QualityBoost:提升高质量内容的排名。
– RealTimeBoost:根据实时数据和事件调整排名。
– WebImageBoost:通过考虑网页上的图像相关性和质量来改变排名。