Thuật toán nội dung và hiệu ứng xếp hạng của Google

Bill Slawski và tôi đã có một cuộc thảo luận qua email về một thuật toán gần đây. Bill đề xuất một bài nghiên cứu cụ thể và bằng sáng chế có thể được quan tâm để xem xét. Những gì Bill đề nghị đã thách thức tôi nghĩ vượt ra ngoài Kết hợp thần kinh và RankBrain.

Nghiên cứu thuật toán gần đây tập trung vào việc hiểu nội dung và truy vấn tìm kiếm. Có thể hữu ích để xem xét làm thế nào họ có thể giúp giải thích những thay đổi nhất định.

Sự khác biệt giữa RankBrain và Kết hợp thần kinh

Đây là những tuyên bố chính thức từ Google về những gì RankBrain và Neural Match thông qua các tweet của Daniel Sullivan (còn gọi là SearchLiaison).
- RankBrain giúp Google liên kết tốt hơn các trang với các khái niệm
chủ yếu hoạt động (loại) để giúp chúng tôi tìm các từ đồng nghĩa cho các từ được viết trên một trang.
- Kết hợp thần kinh giúp Google liên kết tốt hơn các từ với tìm kiếm.
Tập chủ yếu hoạt động để (loại) để giúp chúng tôi tìm từ đồng nghĩa của những thứ bạn đã nhập vào hộp tìm kiếm.
Tập hợp các loại khác vì chúng tôi đã có (và đã có từ lâu) các hệ thống đồng nghĩa. Chúng vượt xa những điều đó và làm mọi thứ theo những cách khác nhau, quá. Nhưng đó là một cách dễ dàng (hy vọng) để hiểu chúng.
Ví dụ, kết hợp thần kinh giúp chúng ta hiểu rằng việc tìm kiếm trên mạng tại sao TV của tôi trông lạ lùng có liên quan đến khái niệm về hiệu ứng opera xà phòng.
Sau đó, chúng tôi có thể trả lại các trang về hiệu ứng opera xà phòng, ngay cả khi các từ chính xác không được sử dụng
Dưới đây là các URL cho các tweet mô tả Kết hợp thần kinh là gì:

  • https://twitter.com/searchliaison/status/1108776359508099072
  • https://twitter.com/dannysullivan/status/1108791313850204160
  • https://twitter.com/dannysullivan/status/1108791555995758592
  • https://twitter.com/searchliaison/status/1108776353996369408

CLSTM là gì và nó có liên quan đến Kết hợp thần kinh?

Bài báo Bill Slawski đã thảo luận với tôi được gọi là Mô hình bộ nhớ ngắn hạn bối cảnh (CLSTM) cho các nhiệm vụ xử lý ngôn ngữ tự nhiên quy mô lớn (NLP).
Thuật toán nội dung và hiệu ứng xếp hạng của Google
Tài liệu nghiên cứu PDF ở đây . Bằng sáng chế mà Bill đề xuất có liên quan đến nó ở đây .

Đó là một bài nghiên cứu từ năm 2016 và nó rất quan trọng. Bill không gợi ý rằng bài báo và bằng sáng chế đại diện cho Kết hợp thần kinh. Nhưng anh ấy nói nó có vẻ liên quan bằng cách nào đó.

Bài viết nghiên cứu sử dụng một ví dụ về một cỗ máy được đào tạo để hiểu ngữ cảnh của từ ma thuật Ma thuật từ ba câu sau đây, để cho thấy những gì nó làm:
1) Ngài Ahmed Salman Rushdie là một tiểu thuyết gia và nhà tiểu luận người Ấn Độ. Ông được cho là kết hợp chủ nghĩa hiện thực kỳ diệu với tiểu thuyết lịch sử.
2) Calvin Harris & HAIM kết hợp sức mạnh của họ cho một video âm nhạc kỳ diệu.
3) Các loại thảo mộc có sức mạnh ma thuật to lớn, vì chúng giữ năng lượng của trái đất trong chúng.
Bài báo nghiên cứu sau đó giải thích cách phương pháp này hiểu ngữ cảnh của từ ma thuật Ma thuật trong một câu và một đoạn:
Một cách mà bối cảnh có thể được nắm bắt một cách cô đọng là sử dụng chủ đề của đoạn văn bản (ví dụ: chủ đề của câu, đoạn).
Nếu bối cảnh có chủ đề là văn học, thì từ tiếp theo rất có thể nên là chủ nghĩa hiện thực. Quan sát này thúc đẩy chúng tôi khám phá việc sử dụng các chủ đề của các phân đoạn văn bản để nắm bắt bối cảnh phân cấp và phạm vi dài của văn bản trong LM.
Tách Chúng tôi kết hợp các tính năng theo ngữ cảnh (cụ thể là các chủ đề dựa trên các phân đoạn văn bản khác nhau) vào mô hình LSTM và gọi mô hình kết quả LSTM theo ngữ cảnh (CLSTM).
Thuật toán này được mô tả là hữu ích cho

Dự đoán từ
Điều này giống như dự đoán từ được gõ tiếp theo của bạn sẽ là gì khi gõ trên điện thoại di động

Lựa chọn câu tiếp theo
Điều này liên quan đến một nhiệm vụ câu hỏi và trả lời hoặc để tạo Trả lời thông minh, các câu trả lời theo khuôn mẫu trong các tin nhắn văn bản và email.

Dự đoán chủ đề câu Các bài
nghiên cứu mô tả đây là một phần của nhiệm vụ dự đoán chủ đề của câu trả lời cho truy vấn nói của người dùng, để hiểu ý định của họ.

Đó là loại âm thanh cuối cùng gần giống với những gì Neural Match đang làm ( Giảm giá giúp Google liên kết tốt hơn các từ để tìm kiếm trên mạng ).

Thuật toán trả lời câu hỏi 

Tài liệu nghiên cứu sau đây từ năm 2019 có vẻ như là một sàng lọc của thuật toán đó:

Mô hình truy xuất chú ý phân cấp cho trả lời câu hỏi chăm sóc sức khỏe

Tổng quan
https://ai.google/research/pub/pub47789

PDF
http://dmkd.cs.vt.edu/ con / WWW19.pdf

Đây là những gì nó nói trong tổng quan:
Phần lớn các truy vấn như vậy có thể không có bản chất, và do đó, các mô hình truy xuất dựa trên từ khóa truyền thống không hoạt động tốt cho các trường hợp như vậy.
Hơn nữa, trong nhiều tình huống, có thể mong muốn nhận được một câu trả lời ngắn đủ để trả lời truy vấn, thay vì một tài liệu dài chỉ có một lượng nhỏ thông tin hữu ích.
Trong bài báo này, chúng tôi đề xuất một mô hình mạng thần kinh để xếp hạng các tài liệu để trả lời câu hỏi trong lĩnh vực chăm sóc sức khỏe. Mô hình đề xuất sử dụng một cơ chế chú ý sâu sắc ở các cấp độ từ, câu và tài liệu , để truy xuất hiệu quả cho cả truy vấn factoid và non-factoid, trên các tài liệu có độ dài khác nhau.
Cụ thể, sự chú ý chéo cấp độ từ cho phép mô hình xác định các từ có thể phù hợp nhất với truy vấn và sự chú ý phân cấp ở cấp độ câu và tài liệu cho phép nó thực hiện truy xuất hiệu quả trên cả tài liệu dài và ngắn.
Đó là một bài báo thú vị để xem xét.

Dưới đây là những gì bài trả lời câu hỏi chăm sóc sức khỏe nói:

Thông tin về thần kinh

Với sự thành công của mạng lưới thần kinh sâu sắc trong việc học biểu diễn tính năng của dữ liệu văn bản, một số kiến ​​trúc xếp hạng thần kinh đã được đề xuất cho tìm kiếm tài liệu văn bản.

Trong khi mô hình được đề xuất trong [22] sử dụng các đầu ra trạng thái cuối cùng của bộ mã hóa LSTM làm các tính năng truy vấn và tài liệu. Cả hai mô hình này sau đó sử dụng sự tương tự cosine giữa các biểu diễn truy vấn và tài liệu, để tính toán mức độ liên quan của chúng.

Tuy nhiên, trong phần lớn các trường hợp trong truy xuất tài liệu, có thể thấy rằng văn bản có liên quan cho truy vấn là đoạn văn bản rất ngắn từ tài liệu. Do đó, việc kết hợp biểu diễn gộp của toàn bộ tài liệu với truy vấn không cho kết quả rất tốt, vì biểu diễn cũng chứa các tính năng từ các phần không liên quan khác của tài liệu.

Sau đó, nó đề cập đến các mô hình phù hợp sâu liên quan:

Để khắc phục các vấn đề của các mô hình IR dựa trên ngữ nghĩa phù hợp ở cấp độ tài liệu, một số mô hình IR dựa trên tương tác đã được đề xuất gần đây. Trong [9], các tác giả đề xuất Mô hình đối sánh liên quan sâu (DRMM), sử dụng các tính năng tương tác dựa trên số lượng từ giữa các truy vấn và từ tài liệu

Và ở đây, nó đề cập một cách hấp dẫn các mô hình kết hợp thần kinh dựa trên sự chú ý :

Các phương pháp khác sử dụng các tính năng tương tác cấp từ là Mô hình đối sánh thần kinh dựa trên sự chú ý (aNMM) [42], sử dụng sự chú ý đối với các từ nhúng và [36], sử dụng thao tác cosine hoặc song tuyến trên các tính năng Bi-LSTM, để tính toán các tính năng tương tác.

Chú ý dựa trên kết hợp thần kinh
Việc trích dẫn Mô hình kết hợp thần kinh dựa trên sự chú ý ( aNMM) là một bài nghiên cứu không thuộc Google từ năm 2018.

Liệu aNMM có liên quan gì đến những gì Google gọi là Kết hợp thần kinh không?
aNMM: Xếp hạng các văn bản trả lời ngắn với mô hình kết hợp thần kinh dựa trên sự chú ý

Tổng quan
https://arxiv.org/abs/1801.01641

PDF
https://arxiv.org/pdf/1801.01641.pdf

Dưới đây là tóm tắt của bài báo đó:

Thay thế cho các phương pháp trả lời câu hỏi dựa trên kỹ thuật tính năng, các phương pháp học sâu như mạng thần kinh tích chập (CNNs) và Mô hình bộ nhớ ngắn hạn (LSTM) gần đây đã được đề xuất để phù hợp với câu hỏi và câu trả lời.

Tuy nhiên, để đạt được kết quả tốt, các mô hình này đã được kết hợp với các tính năng bổ sung như chồng chéo từ hoặc điểm BM25. Không có sự kết hợp này, các mô hình này hoạt động kém hơn đáng kể so với các phương pháp dựa trên kỹ thuật tính năng ngôn ngữ.

Trong bài báo này, chúng tôi đề xuất một mô hình kết hợp thần kinh dựa trên sự chú ý để xếp hạng văn bản câu trả lời ngắn.

Xếp hạng dài tốt hơn năm 2018?

Jeff Coyle của MarketMuse tuyên bố rằng trong Bản cập nhật tháng 3, ông đã thấy sự thay đổi lớn trong SERPs có chứa các danh sách dài (ví dụ: Top 100 phim).

Điều đó thật thú vị bởi vì một số thuật toán mà bài viết này thảo luận là về việc hiểu các bài viết dài và cô đọng chúng thành câu trả lời. Cụ thể, điều đó tương tự như những gì mà Tài liệu trả lời câu hỏi chăm sóc sức khỏe đã thảo luận ( Đọc Chiến lược nội dung và Cập nhật Google tháng 3 năm 2019 ).

Vì vậy, khi Jeff đề cập rất nhiều từ thông trong SERPs liên quan đến danh sách dài, tôi đã ngay lập tức nhớ lại những tài liệu nghiên cứu được công bố gần đây tập trung vào việc trích xuất câu trả lời từ nội dung dạng dài.

Bản cập nhật tháng 3 năm 2019 cũng có thể bao gồm các cải tiến để hiểu nội dung dài hạn? Chúng tôi không bao giờ có thể biết chắc chắn vì đó không phải là mức thông tin mà Google tiết lộ.

Google có nghĩa là gì khi kết hợp thần kinh?

Trong Reddit AMA, Gary Illyes đã mô tả RankBrain là một thành phần xếp hạng PR Sexy . Phần mô tả gợi cảm của PR trên một mô tả của ông ngụ ý rằng cái tên được đặt cho công nghệ vì những lý do phải làm với mô tả và hấp dẫn và ít liên quan đến những gì nó thực sự làm.

Thuật ngữ RankBrain không truyền đạt công nghệ là gì hoặc làm gì. Nếu chúng ta tìm kiếm một bằng sáng chế của Rank RankBrain, chúng ta sẽ không tìm thấy nó. Đó có thể là vì, như Gary nói, đó chỉ là một cái tên PR Sexy.

Tôi đã tìm kiếm xung quanh vào thời điểm thông báo Kết hợp thần kinh chính thức để tìm bằng sáng chế và nghiên cứu gắn liền với Google với những từ rõ ràng trong đó và không tìm thấy bất kỳ.

Vì vậy, những gì tôi đã làm là sử dụng mô tả của Daniel về nó để tìm các ứng cử viên có khả năng. Và điều đó đã xảy ra khi mười ngày trước tôi đã tình cờ gặp một ứng cử viên có khả năng và đã bắt đầu viết một bài báo về nó.

Xếp hạng mức độ liên quan sâu bằng cách sử dụng các tương tác truy vấn tài liệu nâng cao

PDF
http://www2.aueb.gr/users/ion/docs/emnlp2018.pdf

Tổng quan
https://ai.google/research/pub/pub47324

Và tôi đã viết điều này về thuật toán đó:
Mặc dù nghiên cứu thuật toán này tương đối mới, nhưng nó cải thiện phương pháp mạng thần kinh sâu mang tính cách mạng để hoàn thành một nhiệm vụ được gọi là Xếp hạng liên quan đến tài liệu. Phương pháp này còn được gọi là phương pháp truy xuất Ad-hoc.
 Để hiểu điều đó, trước tiên tôi cần nghiên cứu Xếp hạng mức độ liên quan của tài liệu (DRR), cũng như Truy xuất Ad-hoc, bởi vì nghiên cứu mới được xây dựng dựa trên điều đó.

Truy tìm ad-hoc

Xếp hạng mức độ phù hợp của Tài liệu, còn được gọi là truy xuất ad-hoc, nhiệm vụ xếp hạng các tài liệu từ một bộ sưu tập lớn chỉ sử dụng truy vấn và văn bản của mỗi tài liệu.

Điều đó giải thích Ad-hoc Retriny là gì. Nhưng không giải thích DRR sử dụng Tương tác truy vấn tài liệu nâng cao là gì.

Kết nối với từ đồng nghĩa

Xếp hạng mức độ liên quan sâu bằng cách sử dụng các tương tác truy vấn tài liệu nâng cao được kết nối với các từ đồng nghĩa, một tính năng của Kết hợp thần kinh mà Danny Sullivan mô tả giống như các từ đồng nghĩa siêu.

Dưới đây là những gì bài nghiên cứu mô tả:

Trong mô hình dựa trên tương tác, mã hóa rõ ràng giữa các cặp truy vấn và tài liệu được tạo ra . Điều này cho phép mô hình hóa trực tiếp các thuật ngữ chính xác hoặc gần khớp (ví dụ: từ đồng nghĩa), điều này rất quan trọng để xếp hạng mức độ phù hợp.

Điều có vẻ như đang thảo luận là hiểu các truy vấn tìm kiếm.

Bây giờ hãy so sánh với cách mà Daniel mô tả Kết hợp thần kinh:
Kết hợp nơ-ron là một hệ thống dựa trên AI mà Google bắt đầu sử dụng vào năm 2018 chủ yếu để hiểu cách các từ có liên quan đến các khái niệm. Nó giống như một hệ thống siêu đồng nghĩa. Từ đồng nghĩa là những từ có liên quan mật thiết với những từ khác
Bí mật của sự kết hợp thần kinh

Rất có thể là Kết hợp thần kinh có thể không chỉ là một thuật toán. Có thể đáng xem xét rằng Kết hợp thần kinh có thể bao gồm nhiều loại thuật toán và thuật ngữ Kết hợp thần kinh là một tên được đặt để mô tả một nhóm các thuật toán làm việc cùng nhau.

Hành trình

Không đồng nghĩa Spam
Tôi chùn bước một chút khi Daniel đề cập đến các từ đồng nghĩa vì tôi tưởng tượng rằng một số SEO có thể được khuyến khích để bắt đầu gieo các trang của họ bằng các từ đồng nghĩa. Tôi tin rằng điều quan trọng cần lưu ý là Daniel đã nói rằng, giống như một hệ thống siêu đồng nghĩa.

Vì vậy, đừng coi điều đó có nghĩa là gieo một trang với các từ đồng nghĩa. Các bằng sáng chế và tài liệu nghiên cứu ở trên tinh vi hơn nhiều so với spam đồng nghĩa có đầu óc đơn giản.

Tập trung vào các từ, câu và đoạn văn
Một điểm khác của các bằng sáng chế đó là chúng mô tả một cách để gán ý nghĩa chủ đề ở ba cấp độ khác nhau của một trang web. Các nhà văn tự nhiên đôi khi có thể viết nhanh và truyền đạt một ý nghĩa cốt lõi bám sát chủ đề. Tài năng đó đi kèm với kinh nghiệm sâu rộng.

Không phải ai cũng có tài năng hoặc kinh nghiệm đó. Vì vậy, đối với phần còn lại của chúng tôi, bao gồm cả bản thân tôi, tôi tin rằng nó trả tiền để lên kế hoạch cẩn thận và viết nội dung và học cách tập trung.

Nội dung dạng dài so với dạng dài
Tôi không nói rằng Google thích nội dung dạng dài. Tôi chỉ chỉ ra rằng nhiều tài liệu nghiên cứu mới được thảo luận trong bài viết này tập trung vào việc hiểu rõ hơn nội dung dạng dài bằng cách hiểu chủ đề của những từ, câu và đoạn đó có nghĩa gì.

Vì vậy, nếu bạn gặp phải sự sụt giảm thứ hạng, có thể hữu ích để xem xét người chiến thắng và người thua cuộc và xem liệu có bằng chứng về thông lượng có thể liên quan đến nội dung dạng dài hoặc dạng ngắn.

Vũ điệu Google

Google thường cập nhật công cụ tìm kiếm mỗi tháng một lần với dữ liệu mới và đôi khi là thuật toán mới. Thay đổi thứ hạng hàng tháng là những gì chúng tôi gọi là Google Dance.

Google hiện làm mới chỉ mục của nó trên cơ sở hàng ngày (được gọi là cập nhật mới). Nhiều lần trong năm, Google cập nhật các thuật toán theo cách thường thể hiện sự cải thiện về cách Google hiểu các truy vấn và nội dung tìm kiếm. Những tài liệu nghiên cứu là điển hình của những loại cải tiến. Vì vậy, điều quan trọng là phải biết về họ để không bị đánh lừa bởi những kẻ thừa kế đỏ và những giả thuyết không thể tin được.

Bình luận SEO