Trùng lặp nội dung - Duplicate Content

Trùng lặp nội dung, 10+ nguyên nhân và cách kiểm tra

Trùng lặp nội dung trên trang ( duplicate content ) là một trong những lỗi cơ bản trong SEO. Làm thế nào để tránh trùng lặp nội dung ?

Trùng lặp nội dung là một trong những lỗi cơ bản nhất và phổ biến nhất trong SEO. Trong mọi bài viết liên quan tới thủ thuật SEO chắc hẳn bạn đều thấy mục tránh trùng lặp nội dung trên website. Làm thế nào để tránh lỗi này ? Kiểm tra chúng như thế nào ?

Trùng lặp nội dung ( duplicate content ) là gì ?

Trùng lặp nội dung là hiện tượng có cùng nội dung trên 2 đường dẫn URL khác nhau. Cho dù nó trên một website hay trên các website khác nhau, thì đều bị coi là trùng lặp nội dung.

Tác hại của trùng lặp nội dung thì rất kinh khủng. Mình có thể liệt kê ra đây 2 vấn đề cơ bản nhất:

Với máy tìm kiếm

Như Google chẳng hạn, việc trùng lặp nội dung với một website khác nhau hay với chính website của bạn làm cho nội dung bị đánh dấu tệ. Từ khóa trong bài viết trùng lặp không thể lên top hoặc có lên thì cũng có nguy cơ xuống trong nay mai.

Duplicate content ( trùng lặp nội dung ) làm thứ hạng từ khóa bị tụt

Google đánh dấu các nội dung trùng lặp là nội dung tệ, copy, nghèo nàn… Và xu hướng SEO 2019 tới đây sẽ không có trùng lặp nội dung kể cả chúng là từ đồng nghĩa.

Và lý do cô đọng lại là:

  1. Nó không biết trang nào nên bỏ qua
  2. Nó không biết nên cho bài viết nào lên
  3. Nó không thích nội dung y hệt trên top 10 đắt giá của mình. Điều đó làm người dùng tức giận

Với trải nghiệm người dùng

Chẳng ai thích thú gì việc đọc một nội dung giống y hệt nhau từ trang này qua trang khác, hay từ tên miền này qua tên miền khác. Họ mong chờ ở bạn những kiến thức, thông tin khác cơ. Càng đa dạng càng tốt.

Lý do khiến website của bạn bị trùng lặp nội dung

Với mỗi một đường dẫn URL khác nhau phải có nội dung khác nhau. ĐIều đó mới đem lại giá trị trong mắt cỗ máy tìm kiếm. Các lý do sau đây sẽ dẫn tới website của bạn bị trùng lặp nội dung:

WWW và không-www trên tên miền

Như bạn biết đó, nhiều trang mặc định khi bạn truy cập sẽ chuyển hướng về www.domain.com ! Nhưng một số trang lại có thể truy cập cả domain.com và www.domain.com ! Google coi đó là trùng lặp nội dung. Rõ ràng www chỉ là subdomain cho domain.com mà thôi !

Để tránh điều này, bạn nên chuyển hướng www sang không-www hoặc ngược lại bằng lệnh trong htaccess:

RewriteEngine On
RewriteCond %{HTTP_HOST} !^www\. [NC]
RewriteRule ^(.*)$ http://www.%{HTTP_HOST}/$1 [R=301,L]

Biến thể URL khác nhau

Nhiều khi copy đường dẫn, họ quên một dấu chấm hỏi gì đó trên đó thôi là có thể gặp vấn đề với trùng lặp nội dung. Ví dụ như:

domain.com/category.php?id=1&s=n
domain.com/category.php?id=1&s=n&u

Nếu cả hai đường dẫn trên đều trỏ về một nội dung duy nhất thì bạn đã bị trùng lặp nội dung. Các máy tìm kiếm thường đi theo mọi liên kết để lập chỉ mục. Nó sẽ đi theo đường dẫn lỗi đó và cho rằng bạn bị trùng lặp nội dung.

Cách sửa: Sử dụng thẻ Rel Canonical để luôn khai báo nội dung gốc của một URL gốc. Từ đó nếu các đường dẫn vô tình bị phái sinh thì chúng không bị trùng lặp !

Ví dụ:

<link href="domain.com/category.php?id=1" rel="canonical">

Nếu bạn dùng WordPress thì Yoast SEO sẽ giúp bạn làm việc đó một cách tự động !

Vô tình viết bài trùng lặp chủ đề và nội dung

Nhiều trường hợp không xác định/nhớ được mình đã viết hay chưa. Thay vì kiểm tra, các bạn viết bài đó luôn. Và bài viết đó tới bài viết cũ sẽ bị trùng lặp nội dung.

Nếu trong trường hợp 2 bài viết có nhiều backlink hoặc nhận được nhiều lượng truy cập từ đâu đó. Bạn có thể dùng cách chuyển hướng 301 là ngon nhất. Vừa bảo vệ được backlink vừa vẫn giữ được truy cập vào !

Ngoài ra bạn cũng có thể sử dụng rel canonical để khai báo nội dung gốc !

Còn, nếu bạn muốn giữ lượng truy cập nhưng không muốn máy tìm kiếm lập chỉ mục. Bạn có thể noindex bài viết kém chất lượng hơn, ít backlink hơn để không bị trùng lặp nội dung.

Các công cụ giúp kiểm tra phát hiện trùng lặp nội dung

Trong một vài trường hợp bạn cần kiểm tra xem một đoạn nào đó trong bài viết của bạn có bị trùng lặp với các bài viết khác trên các trang khác hay không. Hoặc bạn muốn xem ai đã copy đoạn trong bài viết của bạn, cũng cần phải sử dụng các công cụ kiểm tra cho nó nhanh gọn. Bài viết này tôi xin chia sẻ hai tool mà tôi hay dùng để kiểm tra trùng lặp nội dung website để SEO tốt hơn nhé !

Trước hết, các bạn cần hiểu về vai trò của nó. Các tool này sẽ giúp các bạn kiểm tra các đoạn văn bạn đang muốn đăng có trùng lặp hay không để có hướng xử lý để tránh bị kiện. Trường hợp trùng lặp 100% sẽ bị Google cho vào Sanbox hoặc dính các thuật toán. Trường hợp khác là bạn cần né bản quyền, ai đó thấy đoạn văn của bạn giống họ, họ có thể kiện bạn theo luật DMCA và bạn viết bài đó dù hay tới mấy thì cũng mắc công không !

Google Search Console

Các bạn có thể sử dụng Google Search Console để phát hiện chúng. Thường thì Google tốt bụng sẽ phát hiện tự động và báo cho chúng ta biết.