Duplicate Content Là Gì: Những Lý Do Dẫn Đến Nội Dung Trùng Lặp Mà Bạn Sẽ Bất Ngờ Khi Nhận Ra

LƯỢT XEM: 3191
duplicate content là gì

Không ai làm SEO mà không biết nội dung trùng lặp là virus cần tránh xa khi làm SEO. Nhưng có thật sự chỉ viết mới dẫn đến trùng lặp nội dung?

Bài viết này sẽ giải đáp cặn kẽ thực chất Duplicate Content là gì, tạo sao không nên sử dụng và mức độ ưu tiên của yếu tố này trong SEO như thế nào.

Bắt đầu nào!

1 Duplicate Content là gì?

Duplicate Content là Nội dung trùng lặp – nội dung xuất hiện ở nhiều nơi trên Internet. Nếu bạn có cùng một nội dung xuất hiện tại nhiều địa chỉ website khác nhau, xin chia buồn bạn đã có nội dung bị trùng lặp.

Mặc dù về mặt kỹ thuật, đây không phải là một hình phạt nhưng nội dung trùng sẽ ảnh hưởng đến thứ hạng của công cụ tìm kiếm. 

Google gọi nó là nội dung “tương tự đáng chú ý” ở nhiều hơn một địa điểm trên Internet. Và nếu nhiều nội dung cùng xuất hiện thì công cụ tìm kiếm có thể khó quyết định phiên bản nào phù hợp hơn với truy vấn tìm kiếm của người dùng.

2 Tại sao Duplicate Content lại là vấn đề quan trọng?

Đây mới là vấn đề chính của bài viết này. Duplicate Content thì ảnh hưởng đến SEO như thế nào?

Vấn đề với các công cụ tìm kiếm

Nội dung trùng lặp có thể trình bày ba vấn đề chính cho các công cụ tìm kiếm mà điển hình là Google:

  • Google không biết (các) phiên bản nào nên bao gồm hoặc nên loại trừ khỏi các chỉ số của Google.
  • Google không biết có nên dẫn các số liệu liên kết (tin cậy, thẩm quyền, văn bản neo, liên kết…) đến một trang hoặc giữ nó tách biệt giữa nhiều phiên bản.
  • Google không biết nên xếp hạng phiên bản nào cho kết quả truy vấn.

Vấn đề với chủ sở hữu trang web

Khi có nội dung trùng lặp, chủ sở hữu trang web có thể bị xếp hạng và mất lưu lượng truy cập. Những mất mát này thường xuất phát từ hai vấn đề chính:

  • Để cung cấp trải nghiệm tìm kiếm tốt nhất, các công cụ tìm kiếm sẽ hiếm khi hiển thị nhiều phiên bản của cùng một nội dung. Do đó buộc phải chọn phiên bản nào có khả năng là kết quả tốt nhất. Điều này làm loãng khả năng hiển thị của từng bản sao.
  • Rất khó để quyết định nên chọn liên kết của nội dung nào để đưa vào các bài viết có nội dung liên quan. Nếu trỏ về nhiều nguồn có nội dung tương tư nhau gây ra sự mất liên kết và không đồng nhất trên cùng một website.

Kết quả cuối cùng? Một phần nội dung không đạt được khả năng hiển thị tìm kiếm đáng ra nó phải có!

3 Tại sao vấn đề về Duplicate Content xảy ra?

<b>Tại sao vấn đề về Duplicate Content xảy ra?</b>

Trong phần lớn các trường hợp, chủ sở hữu trang web không cố ý tạo nội dung trùng lặp.

Nếu bạn là SEOer có tâm chắc chắn bạn phải biết Google đã update thuật toán không chấp nhận Duplicate Content từ lâu rồi.

Nhưng, điều đó không có nghĩa là nó không xuất hiện. Trong thực tế theo một số ước tính, có tới 29% web thực sự là nội dung trùng lặp!

Chúng ta hãy xem một số lý do phổ biến nhất mà nội dung trùng lặp được tạo ra một cách vô tình:

Các biến thể URL

Các tham số URL, chẳng hạn như theo dõi nhấp chuột và một số mã phân tích, có thể gây ra sự cố trùng lặp nội dung.

Đây có thể là một vấn đề gây ra không chỉ bởi chính các tham số mà còn cả thứ tự xuất hiện các tham số đó trong chính URL.

Ví dụ:

www.widgets.com/blue-widgets?c… là một bản sao của www.widgets.com/blue-widgets?c…&cat=3″class =”redactor-autoparser-object”>

www.widgets.com/blue-widget là một bản sao của www.widgets.com/blue-widgets?cat=3&color=blue

trùng lặp nội dung trong URL

Tương tự, ID phiên là một trình tạo nội dung trùng lặp phổ biến.

Điều này xảy ra khi mỗi người dùng truy cập một trang web được gán một ID phiên khác nhau được lưu trữ trong URL.

Các phiên bản nội dung thân thiện với máy in cũng có thể gây ra sự cố trùng lặp nội dung khi nhiều phiên bản của trang được lập chỉ mục.

nguyên nhân trùng lặp nội dung

Một bài học ở đây là khi có thể, hãy tránh thêm các tham số URL hoặc các phiên bản thay thế của URL (thông tin có chứa thường có thể được chuyển qua tập lệnh).

HTTP so với HTTPS hoặc WWW so với các trang không WWW

Nếu trang web của bạn có các phiên bản riêng biệt tại “www.site.com” và “site.com” (có và không có tiền tố “www”) và cùng một nội dung tồn tại ở cả hai phiên bản, bạn đã tạo các bản sao của từng phiên bản.

Điều tương tự cũng áp dụng cho các trang web duy trì các phiên bản ở cả http:// và https://.

Nếu cả hai phiên bản của một trang đều trực tiếp và hiển thị cho các công cụ tìm kiếm, bạn có thể gặp phải sự cố trùng lặp nội dung.

Nội dung bị loại bỏ hoặc sao chép

Nội dung không chỉ bao gồm các bài đăng trên blog hoặc nội dung biên tập mà còn bao gồm các trang thông tin sản phẩm.

Tái xuất bản nội dung blog của bạn trên các trang web của bạn có thể là một nguồn nội dung trùng lặp quen thuộc.

Nhưng cũng có một vấn đề chung cho các trang web thương mại điện tử: thông tin sản phẩm.

Nếu nhiều trang web khác nhau bán cùng một mặt hàng và tất cả chúng đều sử dụng mô tả của nhà sản xuất về các mặt hàng đó, nội dung giống hệt nhau sẽ xuất hiện ở nhiều địa điểm trên web.

4 Cách khắc phục sự cố trùng lặp nội dung

<b>Cách khắc phục sự cố trùng lặp nội dung</b>

Việc khắc phục các vấn đề về nội dung trùng lặp đều xuất phát từ cùng một ý tưởng trung tâm: chỉ định mục trùng lặp nào là “chính xác”.

Bất cứ khi nào nội dung trên một trang web có thể được tìm thấy tại nhiều URL, nó sẽ được hợp quy hóa cho các công cụ tìm kiếm.

Chúng ta hãy đi qua ba cách chính để làm điều này: 

Chuyển hướng 301

chuyển hướng nội dung trungg lặp

Trong nhiều trường hợp, cách tốt nhất để chống lại nội dung trùng lặp là thiết lập chuyển hướng 301 từ trang “trùng lặp” sang trang nội dung gốc.

Khi nhiều trang có khả năng xếp hạng tốt được kết hợp thành một trang duy nhất, chúng không chỉ dừng cạnh tranh với nhau mà còn tạo ra một sự liên quan mạnh mẽ hơn và tín hiệu phổ biến nói chung. Điều này sẽ tác động tích cực đến khả năng xếp hạng tốt của trang “chính xác”.

Rel=”canonical”

Một tùy chọn khác để xử lý nội dung trùng lặp là sử dụng thuộc tính rel = canonical.

Điều này cho các công cụ tìm kiếm biết rằng một trang nhất định phải được xử lý như thể đó là bản sao của một URL được chỉ định và tất cả các liên kết, số liệu nội dung và “sức mạnh xếp hạng” mà các công cụ tìm kiếm áp dụng cho trang này thực sự phải được ghi có vào chỉ định URL.

Thuộc tính “rel = “canonical” là một phần của phần đầu HTML của trang web và trông như thế này:

Định dạng chung:

<đầu>

… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …

<link href = “URL CỦA TRANG ORIGINAL” rel = “canonical” />

… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …

</ đầu>

Thuộc tính rel = canonical nên được thêm vào phần đầu HTML của mỗi phiên bản trùng lặp của trang, với phần “URL CỦA TRANG GỐC” ở trên được thay thế bằng liên kết đến trang gốc (chính tắc). . triển khai thực hiện.

Dưới đây là một ví dụ:

thẻ canonical

Tại đây, chúng ta có thể thấy BuzzFeed đang sử dụng các thuộc tính rel = canonical để phù hợp với việc sử dụng các tham số URL của họ (trong trường hợp này là nhấp theo dõi).

Mặc dù trang này có thể truy cập được bằng hai URL, nhưng thuộc tính rel = canonical đảm bảo rằng tất cả các số liệu về nội dung và vốn chủ sở hữu liên kết được trao cho trang gốc (/no-one-does-this-anymore).

Thẻ Robots Noindex

Một thẻ meta có thể đặc biệt hữu ích trong việc xử lý nội dung trùng lặp là các robot meta, khi được sử dụng với các giá trị “noindex, follow”. 

Thường được gọi là Meta Noindex, Theo dõi và được biết đến về mặt kỹ thuật là content=”noindex,follow”.

Thẻ meta robot này có thể được thêm vào phần đầu HTML của mỗi trang riêng lẻ cần được loại trừ khỏi chỉ mục của công cụ tìm kiếm.

Định dạng chung:

<đầu>

… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …

<meta name = “robot” content = “noindex, theo dõi”>

… [mã khác có thể có trong đầu HTML của tài liệu của bạn] …

</ đầu>

Thẻ meta robot cho phép các công cụ tìm kiếm thu thập dữ liệu các liên kết trên một trang nhưng giữ cho chúng không bao gồm các liên kết đó trong chỉ mục của chúng.

Điều quan trọng là trang trùng lặp vẫn có thể được thu thập thông tin, mặc dù bạn đang bảo Google không lập chỉ mục cho nó, bởi vì Google cảnh báo rõ ràng về việc hạn chế quyền truy cập thu thập dữ liệu vào nội dung trùng lặp trên trang web của bạn. (Các công cụ tìm kiếm muốn có thể thấy mọi thứ trong trường hợp bạn đã mắc lỗi trong mã của mình.)

Sử dụng meta robot là một giải pháp đặc biệt tốt cho các vấn đề trùng lặp nội dung liên quan đến phân trang.

Xử lý tham số và tên miền ưa thích trong Google Search Console

Google Search Console cho phép bạn đặt tên miền ưa thích trên trang web của mình (ví dụ: http://yoursite.com thay vì http://www.yoursite.com) và chỉ định liệu Googlebot có nên thu thập thông số URL khác nhau hay không (xử lý tham số).

Tùy thuộc vào cấu trúc URL của bạn và nguyên nhân của các vấn đề nội dung trùng lặp của bạn, nó sẽ thiết lập xử lý tham số hoặc tên miền ưa thích của bạn (hoặc cả hai!).

Hạn chế chính của Google Search Console khi xử lý nội dung trùng lặp là những thay đổi bạn thực hiện chỉ hoạt động cho Google mà thôi.

Bất kỳ quy tắc nào được áp dụng bằng Google Search Console sẽ không ảnh hưởng đến Bing hoặc bất kỳ trình thu thập thông tin nào của công cụ tìm kiếm khác. Bạn sẽ cần sử dụng các công cụ quản trị trang web cho các công cụ tìm kiếm khác ngoài việc điều chỉnh cài đặt trong Search Console.

5 Phương pháp bổ sung để xử lý nội dung trùng lặp

Duy trì tính nhất quán khi liên kết nội bộ trên toàn bộ trang web. 

Ví dụ: nếu quản trị viên web xác định rằng phiên bản chính của tên miền là www.example.com/, thì tất cả các liên kết nội bộ sẽ truy cập http://www.example.com … thay vì http://example.com/pa … (chú ý sự vắng mặt của www).

Khi cung cấp nội dung, hãy đảm bảo trang web cung cấp thêm một liên kết trở lại nội dung ban đầu và không phải là một biến thể trên URL.

Để thêm một biện pháp bảo vệ bổ sung chống lại những kẻ phá hoại nội dung SEO của bạn, bạn nên thêm một liên kết rel = canonical tự giới thiệu vào các trang hiện có của mình. Đây là một thuộc tính kinh điển trỏ đến URL mà nó đã có, điểm quan trọng là cản trở nỗ lực của một số người dọn dẹp.

Hi vọng bài viết này đã cung cấp cho bạn cái nhìn sâu hơn về Duplicate Content là gì và các cách để xử lý hiệu quả nhất. Nếu có gì thắc mắc thì để lại câu hỏi ở dưới đây nhé, chúng tôi sẽ nhanh chóng giải đáp cho bạn!

Video tóm tắt để bạn dễ hiểu hơn:

10 Phản hồi

Bình Luận

R - SEO ToolsSEO & Marketing ToolThemes WordPressPlugins WordPress