猿对象
技术博客

百度TF-IDF算法对于运营的影响

天天领购物红包,每天10点和15点更新购物红包!公众号搜索:小猿优品 查看二维码

TF-IDF算法属于搜索引擎中的核心部分。TF-IDF算法是增加相关词的覆盖率,以及高优布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取超高分值。

最近在有几篇TF-IDF算法原理及公式本文将深入为大家解析,有兴趣请往下深度阅读。

一,什么是TF-IDF

TF-IDF是一种统计方法,用以评估一个词对于一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

二、TF-IDF的使用场景


TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

三、 TF-IDF算法的计算步骤

温馨提示: 此处内容需要评论本文后才能查看.

我们先统计各个词语被包含的文章数。比如“水果”被4篇文章(内容1、2、4、5)引用,4就是“水果”的逆文档频率。

分词后,各个单词的逆文档频率如下:

水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1

PS: IDF= log(语料库中的文件总数 / 包含词语 t 的文件数目),为了便于理解,这里做了精简。

按照我们的直觉,如果一篇文章把逆文档频率最高的前面的词都包含了,说明这篇文章内容更贴合用户意图,更受到搜索引擎喜欢。回到例子,”水果、苹果”是本例中重要性最高的2个词,如果内容中包含“水果、苹果”,那么这篇内容质量就越好。

所以把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:

  • 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
  • 内容4: 苹果,梨子都是很好吃的水果
  • 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

第2步:计算词频(TF)

我们把内容1、内容3砍掉了,剩下的内容2、内容4、内容5怎么排序。我们想一下,一个词语在内容中出现的次数越高,也说明这个词语对这篇文章更重要。回到本例,“水果”是我们的核心词,那么因为内容5中出现“水果”两次,内容2、内容4次数是1,那么内容5胜出。最后的排序结果如下

  • 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)
  • 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)
  • 内容4: 苹果,梨子都是很好吃的水果(第三名)
  • 内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)
  • 内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )

以上是砍了又砍的TF-IDF算法简化解读版,真实的TFIDF算法比这个要正规复杂很多,这里只是让大家get到重点,码迷的目的就达到了。

TF-IDF对SEO是及其重要的

TF-IDF对SEO非常重要,基本上是衡量网站内容最重要的算法,现在是用户体验和内容为王的时代。基本上这个算法占了大部分的搜索分值甚至再6成以上,当然这个是猿对象认为的,但是很多人不信这个,认为百度或许都没有这种算法。这一点不可能的,百度和谷歌还有其他搜索引擎必须有这种算法的。下图就是证据:

我们可以看到,TFIDF算法,不仅可以衡量关键词对页面的重要性,更能衡量文章的广度相关性。对于百度、360、google来说,TFIDF算法的出现增加百度对于关键词的判定准确度,增加了搜索算法的核心和稳定性。对于文章的内容处理有及其重要的关键词判定作用。

百度百科里面也说了:“除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,还有其他三种方法以确定文件在搜寻结果中出现的顺序。”。意思是什么?你排名可以由下面的公式决定。文章得分=TFIDF得分+链接得分,百度搜索引擎在用TFIDF!!

网站运营 搜索引擎三大SEO算法和如何参与排名-猿对象_网站运营SEO个人技术博客 搜索引擎三大SEO算法和如何参与排名 一、: 实际上就是 TF*IDF,TF表示词条在文章中出现的频率;IDF,其主要思想就是,如果包含某个词 Word的文档越少,则这个词的区分度就越大,也就是 IDF 越大。对于如何获取... 时间:2020-03-23 评论:0 阅读全文

其次,GOOGLE也用TFIDF算法

google承认在搜索中使用的TFIDF算法:原文链接:https://www.searchenginejournal.com/google-tf-idf/304361/

最后,TFIDF得分占极高比重

如果搜索引擎确定使用TF-IDF对网页内容作为评判质量的因子,那么这个比重有多大?码迷知道,现在的搜索引擎一般用如下的算法计算网站页面得分:score(页面得分) = TFIDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);

大约在2G左右的谷歌搜索资料中,做了人工智能训练,预测TFIDF分值大约占百度40%左右的权重,谷歌更是达到了50%。

链接分,通过快排朋友透露,权重大约占百度20%左右,谷歌尚不清楚。

用户体验得分(可以通过刷快排提高)的比率,百度在40%左右,Google则没有找到相关快排技术文档。

所以说,在中国做SEO:

排名得分=40%的内容质量(TFIDF)+40%的用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度不言而喻。

文章类别:网站运营

如有转载,请注明本文链接: https://www.apedear.com/4976.html

赞(3) 打赏
推荐转载但是加个友情链接噢o(* ̄︶ ̄*)o:猿对象_网站运营SEO个人技术博客 » 百度TF-IDF算法对于运营的影响
分享到: 更多 (0)
标签:
点击领取👉淘宝拼多多京东优惠卷
点击领取👉淘宝拼多多京东优惠卷

评论 1

  1. #1

    suansuan1年前 (2020-05-03)回复

智奇网络个人工作室,放心,省心!

淘宝店铺智奇网络

觉得文章有用就打赏一下小编O(∩_∩)O~

支付宝扫一扫打赏

微信扫一扫打赏