同一段文字经常会多次重复出现在不一样网址及同样网址的不一样网址上,搜索引擎并不太喜欢这类反复的具体内容。用户检索时,如果在前两页看到的全部都是来自不一样网址的同一段文字,用户体验度就很差了,尽管全部都是具体内容有关的。搜索引擎希望只返回同样文章中的一篇文章,所以在开展索引前还需要鉴别和移除多次重复具体内容,这个环节就称为“去重复”。
“去重复”的主要方式是对网站页面特征网站页面测算指纹,换句话说从网站页面主体具体内容中选用最有代表性的一部分网站页面(经常是出现频率最高的网站页面),然后测算这些网站页面的数字指纹。这里的网站页面选用是在分词、去停止词、消噪之后。实验操作说明,一般 选用10个特征网站页面就可以达到比较高的测算精确性,再选用更多词对去重复精确性提高的贡献也就不大了。
典型的指纹计算方法如MD5算法(信息摘要算法第五版)。这类指纹算法的特点是,输入(特征网站页面及其顺序)有任何微小的变化,都会导致测算出的指纹有很大差距。
了解了搜索引擎的去重复算法,
宣城网站优化人员就应当了解简单地增加“的”、“地”、“得”、调换段落顺序这类所谓伪原创,并不能逃过搜索引擎的去重复算法,因为这样的操作无法改变文章的特征网站页面,也就无法改变指纹。并且搜索引擎的去重复算法很可能不止于网站页面级别,而是开展到段落级别,混合不一样文章、交叉调换段落顺序也不能使转载和抄袭变为原创文章。