百度怎么识别一篇文章是否原创的

    很久没有写关于搜索引擎方面的文章了,2015年是一个不太平的一年,很多网站都经历了排名清零,收录骤降的过程,因为我们帮站本身服务着1000多名站长,通过客户的反馈了解到了很多,本身我们也做搜索引擎研发的,所以想说一下关于我们对百度识别原创的看法,当然排名浮动不单单是网站内容的问题,影响排名的因素是很多的,但是影响最大的还是内容本身。

    关于百度怎么识别一篇文章是否原创的,我只写自己的见解,不喜勿喷。

    蜘蛛抓取一篇页面回去之后第一步要做的就是降噪处理!去掉那些网页上面没用的包括图片 CSS JS 导航栏 扩展阅读等等一些代码,这些做编程的都懂的!剩下文章内容跟标题。程序经过优化一般要标注标题!一般程序都是直接抓取文章标题当</title> 描述

    在这里说一下站长总是疑惑的问题就是发的内容不收录问题(如果说你写了一篇文章,文章内容只用了100个字符,蜘蛛抓取获取经过降噪处理的没有识别出这100个字符就是文章内容一起降噪,那百度会认为这是一个没有价值的页面,是不会收录这个页面的。)                  

    降噪筛选出内容一般都是符合收录标注,收录的页面是不会展示的,搜索引擎会提交给下一级,下一级会给这篇内容通过自己特有的算法加上序号(猜测是-MD5值),然后直接对比数值,一般这个用不了1秒就能对比出来,(猜测是一秒以内 可能是几毫秒)对比就是为了看内容是否原创,如果不原创就直接删除。百度通过自己特有的算法去生产MD5的值,然后匹配这些最新的MD5,如果是接近或者是相同,就说明说的是差不多的事情或者是相同的文章!

百度也会通过别的算法来参考这个是需要还是直接删除,需要之后 再通过匹配权重来给这一篇文章给予一个排名(比如说10篇相同的内容也有前后的!)这个就是排名的问题 不在这篇日志的研究之中。

我说的这些可能只是百度识别伪原创文章技术的沧海一粟。百度可能还会靠语义分析,自然科学等等的技术。有兴趣的可以了解一下       

也欢迎大家转载这篇文章,让更多的人了解网站优化应该怎么做 PS:转载帮站 www.seoyanfa.com

其他常见问题

更多
array(38) {
  ["USER"] => string(3) "www"
  ["HOME"] => string(9) "/home/www"
  ["PHP_APP_DEBUG"] => string(0) ""
  ["HTTP_CF_CONNECTING_IP"] => string(13) "54.158.25.146"
  ["HTTP_ACCEPT"] => string(63) "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
  ["HTTP_USER_AGENT"] => string(39) "CCBot/2.0 (http://commoncrawl.org/faq/)"
  ["HTTP_CF_VISITOR"] => string(17) "{"scheme":"http"}"
  ["HTTP_X_FORWARDED_PROTO"] => string(4) "http"
  ["HTTP_CF_RAY"] => string(20) "384144ca537c5765-IAD"
  ["HTTP_X_FORWARDED_FOR"] => string(13) "54.158.25.146"
  ["HTTP_CF_IPCOUNTRY"] => string(2) "US"
  ["HTTP_ACCEPT_ENCODING"] => string(4) "gzip"
  ["HTTP_CONNECTION"] => string(10) "Keep-Alive"
  ["HTTP_HOST"] => string(12) "seoyanfa.com"
  ["PATH_INFO"] => string(9) "wenti/14/"
  ["REDIRECT_STATUS"] => string(3) "200"
  ["SERVER_NAME"] => string(9) "127.0.0.1"
  ["SERVER_PORT"] => string(2) "80"
  ["SERVER_ADDR"] => string(14) "172.17.152.114"
  ["REMOTE_PORT"] => string(5) "27049"
  ["REMOTE_ADDR"] => string(14) "162.158.79.240"
  ["SERVER_SOFTWARE"] => string(12) "nginx/1.13.0"
  ["GATEWAY_INTERFACE"] => string(7) "CGI/1.1"
  ["REQUEST_SCHEME"] => string(4) "http"
  ["SERVER_PROTOCOL"] => string(8) "HTTP/1.1"
  ["DOCUMENT_ROOT"] => string(15) "/www/web/public"
  ["DOCUMENT_URI"] => string(10) "/index.php"
  ["REQUEST_URI"] => string(10) "/wenti/14/"
  ["SCRIPT_NAME"] => string(10) "/index.php"
  ["CONTENT_LENGTH"] => string(0) ""
  ["CONTENT_TYPE"] => string(0) ""
  ["REQUEST_METHOD"] => string(3) "GET"
  ["QUERY_STRING"] => string(0) ""
  ["SCRIPT_FILENAME"] => string(25) "/www/web/public/index.php"
  ["FCGI_ROLE"] => string(9) "RESPONDER"
  ["PHP_SELF"] => string(19) "/index.phpwenti/14/"
  ["REQUEST_TIME_FLOAT"] => float(1501008247.8804)
  ["REQUEST_TIME"] => int(1501008247)
}
}