Sự nguy hiểm của trùng lặp nội dung và cách tránh nó

Ngay cả khi nó không được thực hiện có chủ đích, nội dung trùng lặp có thể ảnh hưởng đến nỗ lực tối ưu hóa của bạn và làm ảnh hưởng đến trải nghiệm tìm kiếm cho khách hàng của bạn.

Tại Zendir, chúng tôi khuyên bạn nên đề phòng nội dung trùng lặp như một cách để tạo trải nghiệm người dùng tốt hơn cho người dùng của bạn và giúp bạn hiển thị trong tìm kiếm.

Vì ngày nay Google thông minh hơn bao giờ hết, nó biết cách phát hiện các hành vi lừa đảo so với việc thiếu kỹ năng SEO.

Với ý nghĩ này, hiểu biết vững chắc về vấn đề này là điều cần thiết đối với SEO. Khi bạn tránh hoặc sửa chữa các trang trùng lặp, khách hàng của bạn có thể xem nội dung bạn muốn họ xem. Ngoài ra, bạn phải thông báo với Google rằng bạn không lừa đảo.

Để giúp bạn bắt đầu, chúng tôi xác định nội dung trùng lặp, làm rõ hai loại theo Google và chia sẻ hậu quả của mỗi loại. Sau đó, chúng tôi sẽ chỉ cho bạn cách phát hiện 10 nguyên nhân cụ thể và giải quyết chúng.

nhân bản chim.

Nội dung trùng lặp là gì?

Nội dung trùng lặp là một thuật ngữ được sử dụng bởi các công cụ tìm kiếm như Google để mô tả hai loại vấn đề nội dung chính với các trang web:

  1. Các trang web có nhiều trang có nội dung giống nhau hoặc tương tự.
  2. Các trang web có nội dung đạo văn hoặc cóp nhặt từ các trang web khác.

Google xác định nội dung trùng lặp theo cách này:

Nội dung trùng lặp thường đề cập đến các khối nội dung thực sự trong hoặc trên các miền hoàn toàn khớp với nội dung khác hoặc tương tự đáng kể.

Nội dung trùng lặp có xấu không?

Nội dung trùng lặp không còn là vấn đề lớn như trước đây. Tuy nhiên, nó có thể ảnh hưởng đến cả trải nghiệm tìm kiếm và SEO của bạn. Bị bỏ lại một mình mà không có sự biện minh thích hợp, vâng, nội dung trùng lặp có thể gây hại. Hậu quả tồi tệ như thế nào tùy thuộc vào loại vấn đề bạn đang giải quyết.

Có Hình phạt Nội dung Trùng lặp không?

Không, Google không có hình phạt nội dung trùng lặp. Công cụ tìm kiếm cho biết :

Nội dung trùng lặp trên một trang web không phải là cơ sở để hành động trên trang web đó trừ khi có vẻ như mục đích của nội dung trùng lặp là để lừa đảo và thao túng kết quả của công cụ tìm kiếm.

Hơn nữa, Google nhận ra rằng nội dung trùng lặp xuất hiện trong một trang web “hầu hết không phải là nội dung lừa đảo về nguồn gốc.”

Tuy nhiên, vẫn có những hậu quả.

Hậu quả của Nội dung trùng lặp

Vì có hai loại nội dung trùng lặp chính, chúng ta sẽ thảo luận về cả hai và cách chúng có thể ảnh hưởng đến SEO và trải nghiệm tìm kiếm cho khách hàng của bạn.

Loại 1: Các trang có nội dung tương tự hoặc giống hệt nhau trong một trang web

Nếu trang web của bạn có các trang có nội dung giống hệt nhau, Google sẽ chọn trang tốt nhất cho kết quả tìm kiếm. Khi điều này xảy ra, các trang web bị coi là trùng lặp sẽ được lọc khỏi SERPs.

Mặc dù Google thấy điều này hữu ích cho người tìm kiếm – vì nó muốn hiển thị các trang có thông tin độc đáo – điều ngược lại có thể đúng với doanh nghiệp của bạn. Bạn có thể không đồng ý rằng trang mà Google chọn để hiển thị cho một truy vấn là trang tốt nhất. Và khách hàng của bạn có thể đang bỏ lỡ một trang mà họ đang tìm kiếm.

Ví dụ: một trang web thương mại điện tử có thể có một số URL cho “áo khoác trượt tuyết cho bé trai” – có thể là một trang danh mục cho áo khoác ngoài dành cho bé trai như “áo khoác – đồ trượt tuyết”, một trang khác cho “quần áo trượt tuyết – áo khoác – bé trai”, v.v. Nếu một trang web có các tùy chọn tìm kiếm theo từng khía cạnh (chẳng hạn như menu bộ lọc ở cột bên trái cho Thương hiệu, Kiểu, Màu sắc, v.v.), các trang khác nhau có thể dẫn đến thực sự có cùng nội dung.

Khi tất cả các trang này trông giống nhau, Google cho rằng điều đó là tốt. Tuy nhiên, sẽ chỉ có một người thực hiện việc cắt giảm. Các biến thể khác sẽ được lọc khỏi kết quả tìm kiếm.

Nếu trang web của bạn gặp vấn đề về nội dung trùng lặp,… chúng tôi thực hiện rất tốt việc chọn phiên bản nội dung để hiển thị trong kết quả tìm kiếm của chúng tôi.

–Trợ giúp của Google

Loại 2: Nội dung cóp nhặt hoặc spam trên các trang web khác nhau

Mặt khác, nội dung cóp nhặt được coi là thư rác và thuộc loại nội dung trùng lặp thứ hai. Các trang web có nội dung cóp nhặt có thể bị ảnh hưởng bởi hình phạt thủ công từ công cụ tìm kiếm.

Hoặc nó có thể bị tác động bởi các thuật toán của công cụ tìm kiếm nhắm mục tiêu vào nội dung chất lượng thấp và hạ cấp hoặc điều chỉnh thứ hạng xuống .

Bây giờ chúng ta đã có một cái nhìn tổng quan cơ bản, hãy xem xét nguyên nhân gây ra nội dung trùng lặp trên trang web của bạn và phải làm gì với nó.

Các vấn đề về nội dung trùng lặp phổ biến và cách khắc phục chúng

Trước khi chúng tôi đi sâu vào chi tiết cụ thể, video này tổng quan về cách giải quyết các vấn đề về nội dung dupe trên trang web của bạn.

Hãy xem xét một số tình huống có thể gây ra sự cố trên trang web của riêng bạn. Xin lưu ý rằng đây không phải là danh sách đầy đủ nhưng giải quyết các vấn đề phổ biến nhất hiện nay dẫn đến nội dung trùng lặp trên trang web của bạn.

Vấn đề 1: Phiên bản Dueling của Trang web của bạn

Bạn có thể tạo hai bản sao của trang web của mình trong chỉ mục tìm kiếm nếu bạn chưa cho các công cụ tìm kiếm như Google biết phiên bản trang web bạn muốn lập chỉ mục – phiên bản www (ví dụ: www.zendir.net) hoặc phiên bản không phải www (zendir.net).

Điều tương tự cũng có thể xảy ra nếu bạn có hai bản sao trang web của mình qua http: // và https: //.

Đây là cách xử lý: Bạn có thể mở Google Search Console và thực hiện việc này trong phần cài đặt. Tùy chọn phổ biến hơn thường là chuyển hướng phiên bản không có www sang phiên bản có www. Bạn cũng sẽ muốn thêm chuyển hướng 301 cấp miền từ phiên bản này sang phiên bản khác.

Vấn đề 2: Trang web dành cho thiết bị di động và Nội dung trùng lặp

Một số trang web có một trang web di động riêng biệt (so với một trang web đáp ứng, được khuyến nghị và tránh trùng lặp nội dung) và điều này yêu cầu duy trì hai trang web riêng biệt với các URL khác nhau. Nếu bạn đang ở trong trường hợp này, bạn có thể có các bản sao tương tự hoặc giống hệt các trang của mình.

Đây là cách xử lý: Tốt nhất, một trang web m-dot riêng biệt nên được chuyển đổi thành một thiết kế đáp ứng. Nếu không thể, hãy thiết lập thẻ <link> với các phần tử rel = ”canonical” và rel = ”alternate” để cho Google biết mối quan hệ giữa hai phiên bản trang của bạn. Đảm bảo bạn chuyển hướng chính xác bằng cách sử dụng hướng dẫn của Google tại đây .

Vấn đề 3: Dấu gạch chéo trên URL

Khi bạn có dấu gạch chéo ở cuối URL và cùng một trang tồn tại dưới URL không có dấu gạch chéo thì về cơ bản bạn đang tạo hai trang.

Ví dụ: www.zendir.net/blog/duplicate-content/ so với  www.zendir.net/blog/duplicate-content

Đây là cách xử lý: Giống như vấn đề có www và không phải www, bạn sẽ muốn chọn định dạng URL ưa thích và gắn bó với nó. Sau đó, 301 chuyển hướng các URL trùng lặp tồn tại đến URL ưa thích. Nhất quán là chìa khóa, vì vậy hãy đảm bảo rằng các liên kết điều hướng nội bộ của bạn trỏ đến các phiên bản URL chính xác.

John Mueller của Google đã gửi một tweet với một biểu đồ tiện dụng để tóm tắt khi các dấu gạch chéo theo sau là vấn đề:

Tôi nhận thấy có một số nhầm lẫn xung quanh dấu gạch chéo trên URL, vì vậy tôi hy vọng điều này sẽ hữu ích. tl; dr: gạch chéo trên root / hostname = không thành vấn đề; chém ở nơi khác = không quan trọng (chúng là các URL khác nhau) pic.twitter.com/qjKebMa8V8

– 🍌 John 🍌 (@JohnMu) ngày 19 tháng 12 năm 2017

Vấn đề 4: Nội dung trùng lặp từ CMS của bạn

Hệ thống quản lý nội dung (CMS) của bạn có thể đang tạo ra nội dung trùng lặp. Ví dụ: một số nền tảng thương mại điện tử tạo URL với danh mục sản phẩm có thể gây ra vấn đề nội dung trùng lặp.

Đây là cách xử lý: Một số CMS vốn đã tạo ra các vấn đề về nội dung mà không thể khắc phục được. Trong các trường hợp khác, tùy thuộc vào cách nội dung bị trùng lặp, bạn có thể thực hiện các bước để cải thiện tình hình. Ví dụ: bài báo Search Engine Land này đưa ra lời khuyên về cách xử lý nội dung trùng lặp trong Magento.

Vấn đề 5: Sao chép thông tin meta

Thông tin meta trên một trang (tiêu đề, mô tả) là một trong những khối nội dung văn bản đầu tiên mà công cụ tìm kiếm gặp phải. Khi bạn có nhiều trang có thông tin meta giống nhau hoặc tương tự, chúng có thể trông giống như nội dung trùng lặp.

Dưới đây là cách xử lý: Đảm bảo mỗi trang của bạn có một tiêu đề hoặc mô tả meta duy nhất nếu có thể. siteliner có trình kiểm tra nội dung trùng lặp có thể cảnh báo bạn khi các trang có thông tin meta giống hệt nhau. Bạn chỉ cần dán url webstie của mình vào và check như hình:

siteliner

Sau đó check ở phần như hình dưới:

Duplicate Content

Vấn đề 6: Nội dung tương tự

Nội dung tương tự đề cập đến các trang trên trang web của bạn có cùng chủ đề theo những cách khác nhau. Các công cụ tìm kiếm như Google có thể không xem xét nội dung trùng lặp này. Nhưng nó sẽ chọn trang nào sẽ được hiển thị trong kết quả tìm kiếm (mỗi truy vấn) và lọc ra những trang khác. Bạn sẽ không thấy tất cả chúng cạnh tranh.

Dưới đây là cách xử lý: Thực hiện kiểm tra các trang trên trang web của bạn có giống nhau về chủ đề hay không. Tìm hiểu những gì đã được xếp hạng và nhận được lưu lượng truy cập. Sau đó, hãy xem xét việc kết hợp nội dung (và thực hiện chỉnh sửa chất lượng). Gấp một số trang không hoạt động đó vào các trang đã hoạt động (với chuyển hướng 301 ).

Vấn đề 7: Nội dung văn bản gốc

Nội dung bản soạn sẵn có thể bao gồm văn bản giống nhau trên mọi trang. Ví dụ: một số ngành nhất định có tuyên bố từ chối trách nhiệm bắt buộc về mặt pháp lý phải được hiển thị trên mọi trang. Hoặc bạn có thể có văn bản điều khoản và điều kiện.

Google hiểu rằng loại văn bản soạn sẵn này có thể được yêu cầu và không tính nó vào một trang web. Điều này đặc biệt có thể xảy ra đối với các loại trang YMYL (Tiền của bạn hoặc Cuộc sống của bạn). Tuy nhiên, bạn vẫn cần nội dung độc đáo để cung cấp giá trị cho người dùng và làm cho trang của bạn nổi bật trong tìm kiếm.

Dưới đây là cách xử lý: Nếu có thể, hãy tạo các trang web riêng lẻ cho tất cả nội dung bản soạn sẵn của bạn. Sau đó, tạo một baclink đến các trang đó trên trang web, chẳng hạn như ở chân trang.

Trường hợp bạn phải bao gồm một đoạn văn bản tuyên bố từ chối trách nhiệm trong phần nội dung do các yêu cầu pháp lý, hãy đảm bảo có nội dung độc đáo hơn tương ứng phía trên nội dung đó trên trang.

Vấn đề 8: Các trang trùng lặp với các thông số

Một số trang web có nhiều phiên bản trang do các tham số, là các mã được nối vào cuối URL. Ví dụ: các màu sắc hoặc kích thước sản phẩm khác nhau có thể phân phối cùng một trang chỉ với những thay đổi nhỏ. Hoặc ID phiên của người dùng có thể được thêm vào URL dưới dạng tham số. Khi chúng được sử dụng trong các liên kết đến trang web, các công cụ tìm kiếm có thể tìm và lập chỉ mục các phiên bản trùng lặp.

Đây là cách xử lý: Google khuyên bạn nên chặn thu thập thông tin nội dung được tham số hóa bằng công cụ Xử lý tham số . Điều này cho phép bạn chỉ định cách bạn muốn Google xử lý các tham số URL trên trang web của bạn.

Vấn đề 9: Mô tả sản phẩm

Sử dụng mô tả nhà sản xuất cho nội dung sản phẩm có thể tạo ra các vấn đề sao chép giống hệt nhau. Những đoạn văn tương tự có thể được sử dụng trên các trang bán hàng trên hàng trăm trang web.

Các công cụ tìm kiếm như Google có thể mong đợi rằng các mô tả sản phẩm sẽ giống nhau hoặc tương tự. Nhưng nếu các trang của bạn không mang lại bất kỳ giá trị duy nhất nào cho người tìm kiếm, chúng sẽ bị lọc ra khỏi kết quả tìm kiếm.

Đây là cách xử lý: Nếu Google mong đợi điều này, bạn nghĩ sẽ không có vấn đề gì. Nhưng tốt nhất là viết lại mô tả sản phẩm để làm cho chúng độc đáo hơn hoặc thêm ít nhất 200 từ độc đáo hơn trên trang để thể hiện kiến ​​thức chuyên môn và cung cấp thêm chi tiết về sản phẩm.

Đây có thể là công việc tẻ nhạt, vì vậy hãy ưu tiên các trang sản phẩm có lợi nhất của bạn và làm theo cách của bạn qua danh sách. Chúng tôi đã thấy loại hình đầu tư nội dung này mang lại lợi nhuận SEO rất lớn. Để biết thêm chi tiết, hãy xem bài viết của chúng tôi về thin content.

Vấn đề 10: Cung cấp nội dung

Khi bạn cung cấp nội dung của mình trên các trang web có thẩm quyền khác, trang web xếp hạng cho nội dung của bạn có thể không phải của riêng bạn.

Phiên bản mới nhất của Nguyên tắc đánh giá chất lượng tìm kiếm của Google (tháng 12 năm 2019) có nội dung này trên Trang 40:

Chúng tôi không coi nội dung được cấp phép hợp pháp hoặc cung cấp là “sao chép” (xem tại đây để biết thêm về cung cấp web). Ví dụ về nội dung được cung cấp ở Hoa Kỳ bao gồm các bài báo của AP hoặc Reuters.

Nói cách khác: cung cấp nội dung có vị trí của nó. Bài báo này có rất nhiều thông tin tốt về việc hiểu hợp đồng.

Đây là cách xử lý: Cách dễ nhất để nội dung của bạn vẫn được hưởng lợi từ SEO khi được cung cấp trên các trang khác là triển khai rel = ”canonical” . Điều này có thể chuyển PageRank từ nguồn cung cấp sang nguồn ban đầu: nội dung của bạn.

Khi điều đó không được phép, Google đề xuất các biện pháp sau:

  • Chặn một trang được lập chỉ mục bằng cách bao gồm thẻ meta ngăn lập chỉ mục .
  • Thêm một liên kết trở lại bài viết gốc trong phần nội dung của bài báo được cung cấp thông tin.

Các vấn đề về nội dung trùng lặp có bổ sung và cách giải quyết chúng

Khi các trang web sao chép nội dung của một trang khác, điều này thường được gọi là cóp nhặt. Nhiều người cho rằng đây là một dạng nội dung trùng lặp nhưng trên thực tế, đó là thư rác và một số đạo văn kiểu cũ.

Trong video này, đại diện của Google giải quyết nội dung trùng lặp là spam.

Bạn có thể tìm hiểu xem nội dung trang web của mình có tồn tại ở những nơi khác trên web hay không bằng cách sử dụng công cụ kiểm tra đạo văn như CopyScape .

Ví dụ: bạn cũng có thể thực hiện tìm kiếm các phần của nội dung có và không có dấu ngoặc kép trong Google để phát hiện nội dung trùng lặp.

Lưu ý rằng Mueller của Google nói rằng nội dung cóp nhặt sẽ không thành vấn đề trừ khi trang của trang khác được xếp hạng cho các truy vấn bạn quan tâm.

Dưới đây là cách xử lý: Nếu nội dung của bạn đã bị cắt, hãy làm theo các bước sau:

  1. Kiểm tra xem trang có tín dụng cho trang của bạn không. Nó có thể có lệnh noindex trên trang; một thuộc tính chuẩn trỏ đến nội dung gốc của bạn; văn bản nói rằng nó đã được xuất bản trên trang web của bạn; hoặc một liên kết. Nếu vậy, bạn có thể không phải làm gì cả.
  2. Nếu trang không cấp cho bạn, hãy liên hệ với quản trị viên web để yêu cầu họ gỡ trang xuống. Ở Hoa Kỳ, có một luật mà bạn có thể tham khảo được gọi là Đạo luật Bản quyền Thiên niên kỷ Kỹ thuật số . Đôi khi cần một chút kiên trì.
  3. Gửi yêu cầu gỡ xuống với Google (thêm chi tiết tại đây ).
  4. Nếu vấn đề đang lan tràn (nói cách khác, rất nhiều trang web đã lập chỉ mục nội dung của bạn vào thời điểm này), thì hãy viết lại nội dung của riêng bạn để làm cho nó trở nên độc đáo và thậm chí còn tốt hơn trước đây.
  5. Bạn cũng có thể xem xét các plugin WordPress có thể giúp chống lại những kẻ phá hoại liên tục.

Nếu trang web của bạntrang có vẻ như đã sao chép nội dung từ một trang web khác, bạn có thể gặp sự cố xếp hạng.

Như đã đề cập trước đó, trang của bạn có thể sẽ bị lọc ra khỏi kết quả tìm kiếm. Bạn có thể nhận được hình phạt thủ công từ Google (đặc biệt nếu vấn đề phổ biến trên trang web của bạn) hoặc thậm chí bị loại khỏi chỉ mục (trường hợp nghiêm trọng). Bất kể điều gì, nó sẽ không phản ánh tốt về chuyên môn, tính có thẩm quyền và độ tin cậy của trang web của bạn ( các chỉ số EAT của Google về một trang web chất lượng).

Trong trường hợp này, tốt nhất là xóa nội dung spam và sau đó tạo nội dung độc đáo, nguyên bản. Với hình phạt thủ công, bạn cần phải gửi trang web của mình để được xem xét lại sau khi bạn đã thực hiện những cải tiến đó.

Hiểu rõ về nội dung trùng lặp là cách duy nhất để ngăn chặn và sửa chữa mọi vấn đề hiện có trên trang web của bạn.

Leave a Reply

Your email address will not be published. Required fields are marked *