SEO优化排名教学

Google Search Console使用Apriori算法和BERT,来检查网站SEO排名的变化

Written by seo-expert
[ad_1]

SEO面临的最大挑战之一就是重点。我们生活在一个数据世界中,这些数据具有各种工具,可以很好地完成各种工作,而其他工具则做得不好。我们的数据来自我们的眼球,但是如何将大数据提炼成有意义的东西。在这篇文章中,我将新旧结合在一起,以创建一种有价值的工具,我们作为SEO一直都在做。关键字分组和变更审核。我们将利用一个鲜为人知的算法(称为Apriori算法)以及BERT,来生成有用的工作流程,以了解您在三万英尺处的有机可见性。

什么是Apriori算法

Apriori算法由RakeshAgrawal和RamakrishnanSrikant于2004年提出。它实质上是一种用于大型数据库的快速算法,用于查找数据行的组成部分之间的关联/共性,即事务。例如,一家大型的电子商务商店可以使用此算法查找经常一起购买的产品,以便当购买该套装中的另一种产品时它们可以显示关联的产品。

几年前,我从 本文,并立即发现了一种联系,可以帮助您在大型关键字组中找到独特的模式集。从那以后,我们开始转向语义驱动的匹配技术,而不是术语驱动的匹配技术,但这仍然是我第一次遍历大量查询数据时经常使用的算法。

交易次数
1个技术eo
2技术eo机构
3eo机构
4技术机构
5机车eo机构
6机车机构

下面,我以Annalyn Ng的文章为灵感来重写Apriori算法支持的参数的定义,因为我认为它最初是通过直观的方式完成的。我将定义与查询相关,而不是与超市交易相关。

支持

支持度是对术语或术语集受欢迎程度的衡量。在上表中,我们有六个单独的标记化查询。 6个查询中有3个支持“技术”,即50%。同样,“技术,搜索引擎优化”的支持率为33%,在6个查询中占2个。

置信度

置信度显示术语在查询中一起出现的可能性。它写为{X-> Y}。只需将除以 支持 对于{条款1和条款2}, 支持 {term 1}。在上面的示例中,{technical-> seo}的置信度为33%/ 50%或66%。

电梯

提升与置信度相似,但是解决了一个问题,当根据仅基于使用频率与其他术语一起出现的可能性进行计算时,真正的通用术语可能会人为地增加置信度得分。例如,升程是通过除以 支持 对于{term 1 and term 2},由( 支持 {term 1}倍 支持 对于{term 2})。值为1表示没有关联。大于1的值表示术语可能会一起出现,而小于1的值表示它们不太可能一起出现。

使用Apriori进行分类

对于本文的其余部分,我们将跟随Colab笔记本和随附的Github回购,其中包含支持笔记本的其他代码。找到了Colab笔记本 这里。 Github仓库被称为 查询猫

我们从Google Search Console(GSC)的标准CSV开始,该CSV可以比较,为期28天,每个周期都有查询。在笔记本中,我们加载Github存储库,并安装一些依赖项。然后,我们导入querycat并加载包含GSC输出数据的CSV文件。

点击放大

现在我们有了数据,我们可以在querycat中使用Categorize类,以传递一些参数并轻松找到相关的类别。要查看的最有意义的参数是“ alg”参数,该参数指定要使用的算法。我们包括了Apriori和FP-growth,它们都具有相同的输入且具有相似的输出。 FP-Growth算法被认为是一种更有效的算法。在我们的用法中,我们首选Apriori算法。

要考虑的另一个参数是“最小支持”。这实质上是要考虑术语在数据集中出现的频率。该值越低,您将拥有更多的类别。数量更多,类别更少,通常没有类别的查询更多。在我们的代码中,我们指定没有计算类别的查询,类别为“ ## other ##”

其余参数“ min_lift”和“ min_probability”处理查询分组的质量,并赋予这些词一起出现的概率。它们已经设置为我们找到的最佳常规设置,但是可以根据个人喜好在较大的数据集上进行调整。

点击放大

您可以看到,在我们总共1,364个查询的数据集中,该算法能够将查询分为101个类别。还要注意,该算法能够选择多词短语作为类别,这是我们想要的输出。

运行此命令后,您可以运行下一个单元格,它将输出原始数据,并将其类别附加到每行。值得注意的是,这足以将数据保存到CSV,能够按Excel中的类别进行透视并按类别汇总列数据。我们在笔记本中提供了一条注释,描述了如何执行此操作。在我们的示例中,我们仅在几秒钟的处理中就提取了有意义的匹配类别。另外,我们只有63个不匹配的查询。

点击放大

现在有了新的(BERT)

客户和其他利益相关者经常问的一个问题是“最后发生了什么 到此为止,我们已经有了一些熊猫魔术和我们已经处理过的数据,可以轻松按类别比较数据集中两个时段的点击次数,并提供一列显示差异的列(或者您可以如果您愿意,可以在两个期间之间进行%的更改。

点击放大

由于我们刚刚在2022年底推出了新域名locomotive.agency,因此毫无疑问,大多数类别在这两个时期内均显示了点击增长。我们也很高兴看到我们的新品牌“机车”取得了最大的增长。我们还看到,我们在Google Analytics(分析)导出上撰写的一篇文章有​​42个查询,并且每月增加36次点击。

这很有帮助,但是看看我们做得更好或更糟的查询类别之间是否存在语义关系会很酷。我们是否需要围绕某些类别的主题建立更多的主题相关性?

在共享代码中,我们通过出色的功能使访问BERT变得容易 Huggingface变形金刚库,只需在代码中包含querycat.BERTSim类即可。我们不会详细介绍BERT,因为 黎明安德森,做得很好 这里

点击放大

此类允许您输入带有“条件(查询)”列的任何Pandas DataFrame,它将加载DistilBERT,并将这些条件处理为相应的汇总嵌入。嵌入本质上是数字的向量,其保持模型关于各种术语的“学习”含义。在运行querycat.BERTSim的read_df方法之后,术语和嵌入分别存储在术语(bsim.terms)和embeddings(bsim.embeddings)属性中。

相似

由于我们在带有嵌入的向量空间中进行操作,因此这意味着我们可以使用余弦相似度来计算向量之间角度的余弦值,以测量相似度。我们在此处提供了一个简单的功能,这对于可能具有数百到数千个类别的网站很有用。 “ get_similar_df”将字符串作为唯一参数,并返回与该术语最相似的类别,相似度得分为0到1。您可以在下面看到,对于给定的术语“ train”,机车,我们的品牌,是最接近的类别,相似度为85%。

点击放大

绘制变化

回到我们的原始数据集,至此,我们现在有了一个包含查询和PoP更改的数据集。我们已经通过BERTSim类运行了查询,因此该类从我们的数据集中了解术语和嵌入。现在,我们可以使用精彩的matplotlib,以一种有趣的方式将数据栩栩如生。

调用一个名为diff_plot的类方法,我们可以在二维语义空间中绘制类别视图,并在气泡的颜色(绿色是增长)和大小(变化的幅度)中包含点击变化信息。

点击放大

我们包括了三种单独的降维策略(算法),这些策略将BERT嵌入的768维降低为二维。这些算法是“ tsne”,“ pca”和“ umap”。我们将留给读者研究这些算法,但是“ umap”具有质量和效率的良好结合。

除了有机会更深入地介绍Google Analytics(分析)API之外,很难看到(因为我们是一个相对较新的网站)来自该地块的大量信息。同样,如果我们删除了零变化,这将是一个更具信息性的情节,但我们想展示该情节如何以有意义的方式在语义上对主题类别进行聚类。

包起来

在本文中,我们:

  • 引入了Apriori算法。
  • 展示了如何使用Apriori对来自GSC的一千个查询进行快速分类。
  • 显示了如何使用类别按类别汇总PoP点击数据。
  • 提供了一种使用BERT嵌入查找语义相关类别的方法。
  • 最后,显示了最终数据的图,该图显示了按语义类别定位的增长和下降。

我们已将所有代码作为开源提供,希望其他人可以发挥和扩展功能,并撰写更多文章,以展示其他各种算法(新旧算法)可以帮助理解我们周围的数据!


关于作者

JR Oakes是的技术SEO研究高级总监 机车。他曾是Adapt Partners机构的技术SEO主管。他与客户广泛合作,包括技术问题,性能,点击率,抓取能力,内容和数据分析。 JR喜欢针对棘手的搜索营销问题的测试,编码和原型解决方案。当他不工作时,他喜欢阅读有关新兴技术的知识,弹低音吉他,看大学篮球,做饭以及与朋友和家人共度时光。他还是Raleigh SEO Meetup,Raleigh SEO Conference和RTP SEO Meetup的联合组织者之一。[ad_2]

 注意事项:
1. Wphubs只是将wordpress主题分享给需要的人,所以无法保证此处的免费下载是否正确。我们不承担任何技术和版权问题,没有义务提供任何技术支持。
2.此项目仅用于测试和研究目的,不支持商业用途。让你在购买wordpress模板之前,至少能知道这个主题的优缺点,我们不对上述行为承担任何责任,并保留对法律免责的权利。
3. 我们强烈建议喜欢wordpress主题的人,从官方网站购买。除了全方位的服务外,您还可以避免任何安全问题。

About the author

seo-expert