知识屋:更实用的电脑技术知识网站
所在位置:首页 > 站长园地 > SEO相关

什么是搜索引擎的预处理及方法

发布时间:2012-08-16 18:46:53作者:知识屋

1)关键词的提取与切词,(方法:站长工具中的机器人模拟得到所有文字,在网上找一个模拟切词工具)
切词:用空格,逗号,_将网站的正文切词,并过滤掉字符,然后记录关键词的个数,关键词/总共切出来的词=网站关键词密度。
2)去除噪音:和网页主题没有任何关联或者意义,都是当做噪音板块去除掉,利于搜索引擎提取网站主题内容。
3)去除停止词:例如,是,的,呢等语气词,不能表达网站的意义叫做停止词,SEO会把它给过滤掉。
4)镜像网页的消除:完全一样的网页,通常是“采集”,百度不会收录,不会建立快照。
5)转载:导致网站降权最主要原因,转载(伪原创)被SEO认为是近似镜像网页。伪原创方式:用打乱段落,更改为近义词等方式来改变原创文章。SEO经过多次计算会将伪原创过滤出来,SEO开始检查的时候用很简单算法过滤掉采集等,再利用比较高层次的算法过滤掉伪原创,一次一次过滤掉之后剩下原创文章。
6)链接分析:记录链接位置,相关性,锚文本。此链接和本网页主题是否相关,如果不相关,SEO认为这个链接是无效的,或者将这个链接的权重降低,不过数量可以达到质量。用于计算你网页的权重。
7)网页重要度计算:网站被引用的多就是重要的,SEO会给相关引用页进行加分,通过反复计算得出此网页的总分,供网页排名用。
8)建立索引
正派索引:建立页面到关键词,就是页面中有多少关键词。
互联网中网页量很多,关键词是有限的,高效的查询方式是查询一个关键词包含的网页。
倒排索引:建立关键词到页面的关系,有多少个网页包含这个关键词。
总结:尽量自己思考,自己总结技巧,任何网站优化技巧在互联网上泛滥起来,SEO就会认为是对自己的威胁,那样它就会改变算法,从而导致此网站优化的技巧的实效。搜索引擎会加入好多的算法,用于过滤网页。
(免责声明:文章内容如涉及作品内容、版权和其它问题,请及时与我们联系,我们将在第一时间删除内容,文章内容仅供参考)
收藏
  • 人气文章
  • 最新文章
  • 下载排行榜
  • 热门排行榜