seo算法:浅析词频位置加权排序算法

黑帽SEO培训 2023-10-22 未知 黑帽SEO
seo算法:浅析词频位置加权排序算法

词频位置加权排序算法:是一种通过关键词出现的位置和频率进行排序的方法,它是搜索引擎最基础的排序算法之一。当用户通过关键词进行搜索时,当某一个网页中该关键词出现的次数越多,位置越重要,则认为该网页更加符合用户的需求。早期大量的搜索引擎(如:Infoseek,Nutch,Excite,Lycos等)都基于该算法进行网页检索排序,当然在不同的搜索引擎中具体的排序方法有所不同。

词频位置排序原理

该算法以一个搜索词与网页的相关度大小当作排序标准,而搜索词在网页中的相关度则由它在网页中出现的次数和位置两方面加权计算得到。在这种算法当中,词对网页的关联性与词在该网页中的权值成正比。

通过词频和位置加权,可以得出关键词对网页的权值。当用户搜索该关键词,搜索引擎按照检索词在不同网页的相关度排序,这就是词频位置加权排序算法。

词频加权的方法

词频加权的方法有绝对词频加权、相对词频加权、反词频加权、基于词分辨值加权等等。

对于单一词搜索引擎、简单检索需求,只用单纯地计算一个词在网页中的出现频率就可给定权值;而对于具有进行多重逻辑功能的搜索引擎,则必须综合其它的加权排序方法。因为用多重逻辑检索式检索时,检索结果跟检索式中的每个搜索词相关,而每个搜索词在所有的网页中出现的总频率是不一样的,如果按照总的权值来排序,就会导致结果的不相关。这时候就可以利用相对词频加权原理来解决:通过对大量网页的统计,把越是在所有网页中出现频率高的词给予一个较低的初始值;相对地,在所有网页中出现频率低的词,给一个较高的权值。

位置加权方法

位置加权主要是通过对词在网页中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索的结果和搜索词的相关程度。

词的位置包括:网页标题、网页描述,关键字、正文标题、正文内容、文本链接、alt标识等。

版式包括:字体、字号、有无加粗强调等。和传统文献一样,一般在较重要的位置如标题、正文的结尾句等出现的词给较大的权值。在理想状态下,这些不同的标签对应的内容在表达网页主题的能力上有所差异。通常字符较大、加粗强调的地方,一般也会给予更大的权值。

实现步骤

该排序算法的实现基本步骤是:采集网页,解析网页,过滤停用词,获取关键词(中文自动切词),根据关键词的位置和频次加权得出词对网页的相关度,用户检索时按照关键词在网页中的权值大小对该网页进行排序。

词频位置算法评价

优点

利用词频和位置加权算法是在传统的文档检索理论和技术基础上发展而来的,具有简单、易实现的优点,是搜索引擎早期排序的主要思想,技术发展最成熟。

缺点

词频统计比较适用于结构化文档数据,然而网络时代的主要文献是以网页的形式存在的。算法仅仅根据词频和位置信息排序,根本没有利用网络中超文本的新特性,可以说是前网络时代的技术。

现在几乎每个人都可以随心所欲地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,很难保证文档的结构和文档的质量。

许多SEO网页内容的制作者绞尽脑汁,在其页面上堆砌关键词,特别是在重要的位置(特别是<meta>)中放置主题无关的关键字。当用户在浏览网页时完全看不到,而在搜索引擎抓取时,却能发现。对此搜索引擎也研究出各种方法来,发现和惩罚(黑帽SEO)这种作弊行为。

总结:现在的搜索引擎开发了更加合理的链接分析算法,但是如果单纯依靠链接分析,可能会发生主题漂移的问题。导致即使网页的质量再高,再权威,如果搜索词和网页的相关度不高,对于用户来说也是没有用的。所以需要将链接分析与词频信息相结合,进行综合的分析获得更好地排序效果。目前词频位置加权排序算法仍是许多搜索引擎的核心排序技术。

责任编辑:seo算法:浅析词频位置加权排序算法

乐天SEO培训中心