核心SEO原理(7) 从百度专利看百度对网页质量的评估方法(中)

对不起各位老师,最近一直忙于摩天楼内容助手的功能升级,没有时间写文章了。

上上一节码迷在《从收录现象看百度对网页质量的判定级别(上)》中提到,百度索引库分为低级索引、普通索引、重要索引三种类型,今天我从百度相关专利上一块探讨百度对网页质量的判定方法。

先说问题,最近群里有些老师开始反馈,自从2019年8月底后,之前的流量站套路有点不稳定。有同学说,一天几万个内容就收录50个,收录量越来越少了。

这里面很大一部分网站是采集的问题,这一部分在后续的章节中再说,因为本节只探讨采集之外的问题。

问题是:如何增加收录率?

今天的思路是这样,我们先分析百度专利,下一节搜集流量站的数据,再做一下结论。

百度网页质量判定

码迷大约找到了5个百度网页质量相关的专利,我们一个一个来看。

《CN104615705B-网页质量检测方法及装置-授权》

这个是2015年左右的专利,比较早,百度说了对网页质量的判定主要是2个方面,看下图

而在另外一个专利《CN104462284B-判定网页质量的方法及系统-授权》提及到的网页质量判定主要是对恶意广告的识别。

可以看到,百度对网页质量的初步判定的方法主要有5个维度

维度1:域名

根据网页的入链数量以及入链质量来确定网页的质量,入链数量越多,入链质量越好,一般其网页质量也就越高,即跟其他网页关联度越大,其重要度也越大。

SEO对策:老域名

维度2:内容稀缺性

用于对当前网页所包含的长文本中的分句进行语法语义分析,得到所述分句的句法结构;据所构成的当前网页的知识网络,以及当前网页的标题和/或子标题,生成当前网页的摘要。根据摘要上与所述目标网页的摘要之间的相似度,达到设定阈值的其他网页的数量和/或对应的相似度;根据统计结果,确定所述目标网页的质量。

SEO对策:保证网页中长文本原创性,尽量在最长文本中加入核心词

维度3:体验维度

网页上面不要有影响用户正常阅读的广告。这里不再多说。

SEO对策:无论是移动端还是PC端,杜绝漂浮类、固定浮动类的菜单、客服框。

维度4:图文丰富度

而在另外一篇百度专利《CN110162797A-文章质量检测方法和装置-公开》中,百度提及影响网页质量的因子有:

文章的字数,图片数量,中英文字数占比,文章的话题分布,段落数

而且,不同类型网页的质量判定方式不一样。

比如图片类的网页当然以判定图片丰富度为主。

SEO对策:一定要关注自己网站行业的优质网站图文比例,该加图加图,该加文字加文字。

维度5:相关性

在2018年11月的百度专利《CN109271580A-搜索方法、装置、客户端和搜索引擎-公开》中,百度提到码迷常常举的例子:

当搜索信息为“刘德华老婆”时,对搜索信息进行语义特征提取后,可以确定搜索信息的语义特征可以为“刘德华老婆”、“朱丽倩”等等,若内容页中无“刘德华老婆”、“朱丽倩”时,则该内容页与搜索信息的相关程度较低,页面质量较差。

当搜索信息为“拔丝地瓜”时,若内容页中无“拔丝地瓜”、“地瓜”等关键字,则该内容页与搜索信息的相关程度较低,页面质量较差。

你内容好,不是因为你核心词密度屌,而是你相关性牛逼,这也是摩天楼内容助手在处理的问题。

SEO对策:做网页不仅要做核心词布局,相关词也要有所涉及,有能力的可以布局更多的相关词。

至于其他的维度码迷没有统计太多,因为百度的专利太多太多了!

其实上面的维度大家多多少少都知道,做流量站无非是选好的域名,做好的内容。

说起来简单,但是执行起来很难的。

毕竟任何网站都做不到网页100%被百度收录、100%被百度判定为优质网页。

码迷在《码迷SEO内参(四) 从附子SEO流量站套路到百度资源分配策略解析》中反复强调了百度资源分配策略,你可以给百度好的一面,也可以给百度坏的一面,但是一定要保证好坏平衡。

一看字数已经奔2000了,今天先到这里,搜索专利有点费劲~下节拿案例开讲。

文末福利

推荐白帽SEO最极致的工具:https://www.mamioo.com/?u=28263,百度快速秒排利器。

本站内容均为「码迷SEO」原创整理,未经授权严禁采集转载,违者必究。


为您推荐

发表评论

电子邮件地址不会被公开。