站长对于原创保护的错误认知
浏览:/ 2014-06-06
1、原创内容不等于高质量内容
网页主体内容是网页的价值所在,
百度主要从以下角度评价网页内容质量:内容制作成本高低;内容是否有效、完整丰富;是否原创;信息是否真实有效;是否权威或投入较多专业的知识和经验;是否存在作弊行为。对于页面的主体内容价值,原创二字并没有怎么突出。
什么内容算质量高?内容质量高:内容质量好的网页,花费了较多时间和精力编辑,倾注了大量经验和专业知识,内容清晰、有效、完整且丰富。例如:专业医疗
网站发布的内容丰富的医疗专题页面、资深工程师发布的完整解决某个技术问题的专业文章、专业B2C网站上,完整有效的商品购买页、权威新闻站原创或经过编辑整理的热点新闻报道、经过网友认真编辑,内容丰富的百科词条。
而对内容质量高的定义压根都没有原创这个标准。原创只是一个高质量内容的简单说法,或者说是高质量内容的更好一个层次。你的内容质量高又是原创那当然最好,但反过来就比较尴尬了,是原创但质量低,这是百度保护原创以来很多站长出现的一个问题,整天捣鼓原创,认为原创内容等于高质量内容,殊不知站点原创度在提升,但站点价值却在下降。
前面也说了2014无价值站点越来越多,这其中不乏站长对于原创内容的错误认识,因为不是每一个人都能原创出高质量的内容。原创二字只是高质量网页内容的一个非必须特征,能在一定程度上反应网页内容的稀缺度,但原创并非一定稀缺,原创更不能代表高质量的内容的所有特性,这些一定要理解。
2、原创内容不等于收录
网站更新的内容是原创的就一定收录,这种认识其实是错误的,而且非常错误。总有很多人抱怨我的原创文章怎么不收录?也有的抱怨为什么别人复制我的就收录了?第一个问题其实很简单,为什么要收录你的?你自己写的这个老掉牙的东西,排版混乱、还要加载半天,读完都知道说的什么,这样的原创对搜索引擎对用户有什么价值?没有解决认为问题,只是在那自我陶醉,感觉自己文采多好。而且这跟你整体网站的权值,结构,历史表现,内外链等都有关。
第二个问题为什么别人复制我的就收录了?就是别人把你的内容放到自己网页后,这个网页比你那个网页多了一些你没有的,也就是增加了附加价值,可能他的网站信誉度比你高,可能结构比较好,可能没那么多弹窗,可能用户可读性更强等等。内容质量高不高不由原创决定,搜索引擎收不收录那就更不是原创决定,至于百度为什么不收录你的网站,需要从多方面去思考,而不仅仅看是否原创。要真要说原创二字与收录的关系,那我只能说原创的可能重复度低,仅此而已,但这不是百度收录你的理由。
不管是百度搜索质量白皮书对网页的内容质量、网页浏览体验、可访问性进行衡量,然后排序;还是百度搜索研发部在谈互联网页面价值时指出的受众群大小、页面稀缺程度、页面质量高低、页面时效性四个排序标准;或者是站长圈里谈到的页面基础得分、站内得分、站外得分、用户得分这四个网页的综合排名得分因素。我们可以发现页面内容质量一直只是众多百度网页排名因素中的一个,而原创又只是页面内容质量构成的一小部分。
经常会听到有人说,“我的原创文章怎么没有排名?”、“为什么我坚持原创,排名却不好”。事实上很多人都有这个问题,有时候我也有。做好优质原创内容确实是一个提高网站排名持续有效的方法,但这只是一个方法,哪怕是你一直持续更新优质原创,也只是说理论上排名会好起来,没有哪一个搜索引擎曾公告:只要你有优质原创内容,我就给你好排名。影响排名的因素非常多,尽管内容是做网站的重中之重,但你不能保证你的网站不会有其他因素影响你的排名,比如结构,比如加载速度,甚至被黑。
网站原创这一个价值大放异彩不一定就能在页面排序大战中脱颖而出,需要综合各方面因素,我想这一点大家都明白。况且我刚刚一直假设的是优质原创,持续的高质量内容,如果仅仅只是你认为的原创,按照上面说的原创内容不等于高质量内容,是不是更加悲剧了呢?
、百度直接识别发布时间确定原创不就行了吗?
很多人可能说:识别原创还不容易,看谁先发布的,识别发布时间不就行了吗?百度就是照顾大网站,识别原创都是假的。我只能说,你把原创识别判断想得太容易了。百度Lee也说过,发布时间实际上早就已经识别,单纯靠发布时间是无法判断原创性的。
前面说了百度原创识别系统在百度大数据的云计算平台上开展,首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页。发布时间时间仅仅是这上百种因素中的一个,想直接通过识别发布时间确定原创,你想得太容易了。
互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,而且识别原创过程非常复杂,更是难上加难。百度确实一直致力于原创建设,不是为你,而是为了百度自己。但解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题都会影响原创算法识别,甚至导致判断出错。所以才会出现很多原创假象,这也是没办法的,对原创的保护确实是一个非常艰巨的问题,谷歌研究原创这么多年,依旧是勉勉强强,原创保护仍是个长久问题。
说完站长对于原创的认识,再说说用户的态度,都是我们在争论原创,有没有想过是创给谁看的呢?还不是给我们的用户看,那他们是怎么想的呢?
阅读"站长对于原创保护的错误认知"的人还阅读
上一篇:百度谈原创项目那点事
下一篇:保护原创更名副其实