2015年,Raven曾估算互联网上29%的内容都是重复的。
那可是数十亿个页面啊 ![[惊恐]](https://www.myppc.net/wp-content/themes/dragon/assets/images/smilies/qq/jingkong.gif)
怎么会这么多?
因为重复内容其实很正常,你的网站内部或跨域名存在重复内容,完全可能有正当理由。
然而SEO行业却把重复内容妖魔化,用危言耸听吓唬站长们,让他们以为只要出现重复内容就会被谷歌惩罚。
其实不会!
但重复内容确实会影响SEO,比如导致外链权重分散、收录页面减少、排名下滑等问题。
所以本节内容我们将介绍重复内容的成因、保留重复内容的正当理由,以及如何通过规范化避免重复内容对搜索引擎优化造成负面影响。
什么是重复内容?
重复内容指的是你网站上与其他页面(无论是你自己网站还是他人网站)存在高度相似的内容也被归类为重复内容。
站内重复内容是指同一域名下的内容重复,而站外重复内容则指内容在多个域名之间重复(其中一个域名是你的)。
用谷歌的话来说,重复内容通常指同一语言中完全匹配或明显相似的实质性内容块,可能出现在同一域名内或跨域名之间。大多数情况下,其来源并非恶意。非恶意的重复内容可能包括:
- 讨论论坛同时生成标准版和针对移动设备的简化版页面
- 电商商品通过多个不同URL展示或链接
- 网页的纯打印版本
无论内容是意外重复、故意复制、恶意搬运还是无心之举,只要重复出现,就会被视为重复内容。
而互联网上这种现象比比皆是,大多数重复内容并非恶意或故意侵犯版权,通常是网站自身内容因URL参数、服务器配置等技术问题意外产生的重复。
但违反版权法的重复内容也屡见不鲜。
例如未经许可或授权就抓取他人内容(或你的内容被他人抓取),显然构成版权侵权。
多少重复内容是可以接受的?
页脚内容、侧边栏或页眉是否算重复内容?毕竟它们会出现在网站的每个页面上。
不算。
谷歌明确指出,重复内容指的是"实质性内容块"的完全重复,而非有助于网站导航或用户体验的常规公司信息。
为什么重复内容对SEO有害?
除了前面提到的少数惩罚情况外,重复内容还会给你的SEO带来以下问题:
- 自然流量减少
- 被收录的页面变少
- 外链权重被稀释
- 搜索结果展示不友好
- 品牌内耗
被索引的页面减少
尽管谷歌在检测重复页面的原始版本(有时也叫“规范版本”)方面做得非常出色,但仍存在极小的可能性导致它们完全不索引重复页面,从而使得可被索引和参与排名的页面数量减少。
另外,对于拥有数百个页面的大型网站来说,如果让谷歌爬虫过度抓取重复内容,可能会耗尽你的“抓取预算”(网络爬虫分配给特定网站的时间),延迟对非重复页面的抓取和索引。
举个例子,你不应该让谷歌爬虫浪费时间同时抓取同一页面的移动版、AMP版和桌面版。最好释放宝贵的抓取预算,让谷歌能索引更多页面。

重复内容会浪费宝贵的抓取预算在非必要页面上 —— 图片来源
品牌内耗
你听说过关键词内耗吗?
当网站上两个不同页面(内容相似但不重复)争夺相同关键词时,就会出现这种情况。谷歌无法判断哪个页面更适合哪个搜索查询,最终导致两个页面的排名都受影响。
品牌内耗也是类似的概念。在内容重复的情况下,如果你把同一篇文章发布到Medium或领英等第三方平台,或者有人抓取你的文章发布到他们的博客,第三方平台就有可能在你自己的网页之前出现在搜索结果中。
本该属于你的流量就这样被截胡了。
举个例子,FastCompany经常转载其他出版商的文章。这对他们来说是好事,毕竟他们拥有庞大的读者群。但被转载的原始出版商却无法在相关关键词上获得任何排名,甚至连文章标题都搜不到!
反向链接稀释
反向链接是指其他网站指向你网站的链接,谷歌算法将其视为信任投票。来自高权威域名的链接越多,你的排名就越高。
很简单。
当同一个页面有多个不同URL的版本时,每个版本都可能吸引自己的反向链接。结果呢?
链接权重会被分散到三个页面版本上,而不是集中到同一个页面。排名自然就下降了。

重复内容会导致多个版本都吸引链接,从而稀释排名权重
自然流量减少
如果其他网站的内容排名比你高,你显然会失去那部分流量。
但重复内容还可能导致哪些自然搜索流量损失呢?
排名问题。
当你迫使谷歌决定将哪个版本视为原创页面,并将所有链接权重集中导向哪个页面时,它可能每次都无法确定选择哪个页面,从而导致所有版本页面的排名都受到压制。

当你让谷歌机器人做选择时,所有版本可能都难以获得好排名
不友好的URL
如果谷歌检测到同一个页面的多个版本但URL参数不同,可能会在搜索结果中显示冗长、不友好的版本。
什么是URL参数?参数是附加在URL末尾的查询字符串,用于帮助跟踪和筛选信息。以电商为例,许多电商网站会在访客根据颜色、尺寸或价格筛选结果时使用URL参数。

筛选产品选项时的URL参数示例
你更希望谷歌在搜索结果中显示哪个?
这个?
https://www.etsy.com/listing/695792680/resin-cow-skull-skull-animal-skull-cow?ga_order=most_relevant&ga_search_type=all&ga_view_type=gallery&ga_search_query=faux+cow+skull&ref=sr_gallery-1-3&col=1
还是这个?
https://www.etsy.com/listing/695792680/resin-cow-skull-skull-animal-skull-cow
数据问题
如果同一个页面的多个版本都能获得排名并吸引自然流量,就会加大在谷歌分析中分析流量数据的难度。

同一页面的两个版本(一个有尾部斜杠,一个没有)会使流量指标变得复杂
谷歌会惩罚重复内容吗?
如果谷歌的网络爬虫在你的网站内或跨域名发现重复内容,它们不会自动在搜索结果页中对你的网站进行惩罚。
我再说一遍,谷歌或其他搜索引擎并不存在所谓的"重复内容惩罚"(比如企鹅算法惩罚或熊猫算法惩罚)。
用谷歌的话来说,网站上的重复内容通常不会导致处罚,除非这些重复内容意图欺骗和操纵搜索引擎结果。如果你的网站存在重复内容问题,且未遵循谷歌帮助文档中的建议,通常会自行选择展示某个版本的内容。
相反,谷歌会尝试识别哪部分内容是原始版本,然后决定对哪个版本进行排名。
不过,如果谷歌判定你恶意复制内容以欺骗搜索引擎(例如试图让更多页面因相同内容获得排名,从而损害谷歌用户的搜索体验),他们保留调整你的排名或将你的网站完全移出索引的权利。
谷歌对此的官方说明是:谷歌会尽力收录并展示包含独特信息的网页。这种筛选机制意味着!举例来说,如果你的网站每篇文章都有"常规版"和"打印版",且都未使用noindex标签屏蔽,我们将选择其中一个版本展示。在极少数情况下,如果谷歌认为重复内容存在操纵排名、欺骗用户的意图,我们将对相关网站的收录和排名进行相应调整。这可能导致网站排名下降,或整个网站被移出谷歌索引,届时该网站将不再出现在搜索结果中。
查找重复内容的工具
说来奇怪,目前并没有特别出色的重复内容检测工具(如果你知道的话欢迎告诉我们)。
我们工作中目前一直依赖两款工具:Siteliner和Copyscape。
- Siteliner用于检测网站内部的内容重复
- Copyscape用于检测跨域名的内容重复

Siteliner检查semrush下的重复内容示例
它并不完美:Siteliner会抓取所有内容,包括页眉、页脚和非关键内容,所以检测到一些重复内容是正常的。不过,你仍然可以自行检查它标记为重复的页面。

Copyscape检查跨域名的重复内容
和Siteliner类似,Copyscape允许你输入一个URL,然后检测其他域名是否存在重复内容。
它曾经是免费的,但现在如果你想进行完整分析,需要购买点数(最低10美元起)。
同时使用这两款工具可以帮助你更快的发现和分析重复内容(这应该是每次SEO审查的一部分)。另外,如果你雇佣自由撰稿人为你的网站创作内容,使用抄袭检测工具也没什么帮助。
重复内容的常见成因
事实是你的网站或跨域名存在重复内容,可能有几十种完全合理的理由。
重复内容问题很少源于恶意攻击。
以下是一些最常见(且正常)的重复内容成因:
- 多设备类型(移动端 vs 桌面端 vs AMP页 vs 打印版)
- 动态URL(会话ID、追踪ID、产品筛选参数)
- 服务器配置(https与http;带www与不带www;末尾斜杠与无斜杠)
- 内容联合发布
- 地区或语言版本差异
- 测试环境网站
- 分类或标签页
- 分页功能
多种设备类型
如果你的网站有桌面版、移动版、AMP版和打印友好版,且这些版本分别使用不同的URL,就会产生重复内容。
例如:
- m.example.com/page
- example.com/page
- example.com/amp/page
- example.com/print/page
动态URL
如果URL中使用了会话ID、追踪ID或筛选参数等,这些都可能在不同URL上生成重复内容。
例如:
- 筛选参数:example.com/paper?max_price=27&color=red
- 会话ID:example.com/index.php?sid=123454321abcde-54321dcba
- 追踪ID:example.com/?utm_source=newsletter&utm_medium=email
服务器配置
在谷歌看来,带“www”的网站版本和不带“www”的版本是不同的,就像“https”和“http”版本不同一样,尾部带斜杠(.com/example/)和不带斜杠(.com/example)的URL也被视为不同。
例如,以下URL在技术上都是不同的:
- www.example.com
- example.com
- https://example.com
- http://example.com
- example.com/
- example.com
内容联合发布
内容联合发布是指一个网站或出版商获得另一出版商的授权后,将其内容重新发布到自己的网站上,或者你将原创内容(或客座文章)重新发布到Medium.com或领英等第三方平台。
还记得FastCompany的例子吗?那就是内容联合发布。
FastCompany付费获得小出版商的文章授权,然后将其发布到自己的网站上。文章内容完全相同(通常只修改标题)。
区域或语言变体
如果你的网站有英文、西班牙语和葡萄牙语版本,且分别使用不同的URL,并且所有版本都完全翻译,这不被视为重复内容。但如果你只翻译了页眉、页脚和非关键文本,而主要内容未翻译,则会被视为重复内容。
根据谷歌的说法:只有当单页面的不同语言版本的主要内容语言相同时(即仅翻译页眉、页脚和其他非关键文本,而正文保持不变),这些页面才会被视为重复内容。
测试站点
测试站点是网站的一个克隆版本,位于不同的URL上,用于在正式发布前进行开发修改。
问题在于,尽管你应该始终禁止搜索引擎索引测试站点(或在robots.txt中使用noindex/nofollow),但测试站点经常被意外收录。
分类和标签页
这种情况较少见,但也确实存在。
大多数情况下,即使像WordPress这样的内容管理系统自动生成分类页和标签页也不会影响博客文章的排名。
但如果某个标签页或分类页下只有一篇博客文章,并且访问该页面时会完全打开这篇文章,那么它本质上就是原文的完全重复,只是URL不同。
模板化内容
模板化内容是指非关键的、重复使用的固定内容,文字不会变化。
比如网站导航、博客列表、侧边栏和页脚都可以视为模板化内容。
但这里我们主要讨论的是产品描述。
对于代发货商、产品经销商、联盟营销商和商家来说,直接使用制造商提供的产品描述很常见。
这样做可以快速生成简单的产品描述或落地页。
但如果你想在搜索中提升产品页面的排名,这种做法就不太理想。
例如,如果一位整形外科医生希望通过本地搜索吸引冷冻溶脂患者,他们需要原创、独特的内容,而不是冷冻溶脂的标准描述。
使用模板化文本唯一能排名的关键词,就是模板文本本身。
如何避免内容重复问题
如果我告诉你,只需简单一两步就能彻底避免内容重复问题?
这个方法叫做“规范化”(Canonicalization)。规范化会告诉搜索引擎哪个版本的页面是原始来源。
很简单吧?
根据具体情况,你可以通过三种主要方法来实现页面规范化:
- Rel=canonical标签
- 301重定向
- 网站地图
rel=canonical链接
目前最常见的规范化网页方式就是在页面头部放置rel=canonical链接标签。
之所以称它为"链接",是因为它使用了href元素(即超链接所用的HTML元素),但这个标签不会显示在网页内容中,只存在于HTML代码里。
标准链接的写法如下:
<link rel="canonical" href="https://example.com/page/" />
何时何地需要使用标准链接?
在网站每个页面以及被第三方转载的文章中都需要:
- 重复版本:使用rel=canonical指向原始页面
- 原始版本:使用rel=canonical指向自身。这样当内容被网络爬虫抓取时,标准标签仍会保留在HTML中
- 联合发布版本:使用rel=canonical指回您网站上的原始URL(注意:这并不能一直防止高权重网站排名超过您)
- URL参数:使用标准链接避免URL参数导致的重复内容。不过您也可以直接让谷歌忽略URL参数(不建议新手操作)
如何实现rel=canonical标签?所有主流内容管理系统都支持标准URL功能或变通方案,以下是几个热门平台的设置指南:
与rel=canonical链接类似,rel=canonical头部标签也可用于指定PDF等非HTML文件的原始版本。具体操作可参考Google官方指南。
301永久重定向
301重定向是一种状态码,用于告知搜索引擎某个页面已永久迁移至新网址。
例如,如果你有三个不同网址的相同页面,可以对其中两个页面设置301重定向,将其指向原始版本。
但需注意:与rel=canonical链接不同,301重定向会直接淘汰其他重复页面。虽然这些页面仍存在,但当用户输入原网址(或搜索引擎抓取时),访问请求会自动跳转到重定向后的页面。
什么时候该用301重定向?
针对前文提到的所有因服务器配置导致的重复内容问题:
- HTTP与HTTPS:HTTPS仅表示网站安装了SSL证书(更安全)。建议务必启用,因为谷歌会优先展示HTTPS网站。
- WWW与非WWW:选哪个版本不重要(我们推荐非WWW),只需确保另一个版本做了301跳转。
- 末尾斜杠与无斜杠:同样选择任意版本均可,但需设置另一个版本的301跳转。
注意!还应通过谷歌搜索控制台和Bing站长工具指定你偏好的服务器配置版本。
站点地图
站点地图是一份列出你希望被搜索引擎收录的所有网站URL的文件。
它长这样:

XML站点地图示例
可以把站点地图看作谷歌的辅助发现手段,万一他们通过导航或内链漏掉了某个网页,你的站点地图会明确指出来。
至于规范化,你也可以通过站点地图来标注rel=canonical规范链接。
规则相同,在站点地图的每个URL提交项下,用rel=canonical标签注明页面的原始版本。
为什么这么做?这样能更轻松的规范化大型网站。仅此而已。
要在站点地图中标注语言变体,可以使用rel=hreflang属性,用法和规范链接相同。谷歌操作指南在此。
总结
不必害怕重复内容。
这种情况很常见,无法避免,也完全正常。
但重复内容带来的问题比如页面索引减少、搜索流量下降、排名下滑、品牌内耗和外链稀释其实都可以避免。
只要你正确设置规范链接!
只要你坚持原创内容!
如果有人抄袭你的网站或侵犯版权,直接起诉他们(找我们,我们给你推荐靠谱的律师)。