301SEO专业英文网站优化团队
为您提供专业的搜索引擎优化服务
联系我们 

解析google是如何识别文章是原创还是伪原创的?

2013-06-20 15:26:11[英文外链]

在寻找文章的时候,一般都避免不了文章的重复,一般都是靠采集+伪原创,google针对文章伪原创的鉴别力度越来越强,301seo专业英文网站优化团队看下Google是如何判断原创与伪原创的。
  1.文章的相似度
  TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。
  IDF反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
  了解了以上两个名词的汉以后,我们再来说怎应用
  文章相似度是搜索引擎用得最多的算法也是重要的算法之一,TF/IDF算法是用的比较多的一种,这个也是计算相关性的算法,TF-IDF的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  当一篇文章根据TF/IDF进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。
  关于TF/IDF与向量算法的详细请参看 Google黑板报的数学之美12-余弦定理与新闻分类
  2.数据指纹
  当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。
  这时候你可以想象出,现在很多伪原创工具,只是把关键词进行了替换,你想关键词替换后,标点符号指纹是不变的,甚至连TF词频都不变。还有对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。那么这样的伪原创工具有没有价值你就可想而知了。(可能对于百度还是有作用的)
  3.代码噪音
  前面说的这些,都是基于一个条件的,就是搜索引擎要知道文章是什么,因为每个网站的模板都不同,代码也不同,各种信息混合在一起,如果能找到正文就是搜索引擎第一要处理的。
  一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意了。这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。这个在具体使用的过程中,就会渐渐明白的。文章是我们做seo重要的一环,随着google不断的更新,对文章的审核力度就会越来越严格,要求的质量就越高,只使用伪原创根本达不到google的要求,适当的人工修改,维持原文的意思,提升整体文章的质量才是明智之举。
相关文章:
什么是反向链接,如何给英文网站发外链?
每个SEO专家应该具备的10种技能,网站优化方法
2017最新网站优化方法
外贸行业如何正确理解和分配VPS建站
Facebook:创建比Google更靠谱的社交化搜索模式
内容营销与SEO操作谁更难?
搜索引擎优化是什么?如何推广效果更好?
2016Google搜索引擎引入AI算法 要真正攻克人工智能技术
谷歌将网站信息的真实性作为排名的一项重要依据
facebook营销策略技巧及与seo的关系
搜索引擎是如何给大家呈现查询结果的?
如何让策略性的选择网站关键词