Các nhân viên lập trình đôi khi sử dụng thuật ngữ “boilerplate” tạm dịch là mẫu trích (1) để ám chỉ các đoạn mã chuẩn thư viện được dùng để chèn vào trong chương trình. Trong khi đó các luật sư sử dụng trích mẫu trong các hợp đồng - phần văn bản nằm ở mặt sau của hợp đồng luôn cố định cho các loại hợp đồng khác nhau.
Các máy tìm kiếm hiện nay rất có thể bỏ qua các văn bản mẫu này khi đánh chỉ số những trang này. Ngoài ra máy tìm kiếm còn có thể sử dụng nội dung các trang này sau khi loại bỏ văn bản mẫu có thể làm nhiễu nội dung chính của trang để đưa ra các gợi ý tìm kiếm cho người dùng sử dụng chức năng tìm kiếm cá nhân hóa. Việc loại bỏ các văn bản mẫu này giúp cải thiện việc sắp xếp thứ hạng trang kết quả tìm kiếm cá nhân hóa.
Câu hỏi được đặt ra là bằng việc bỏ qua các văn bản mẫu, Google cố gắng hiểu nội dung chính của trang thì liệu nó có tính đến các từ khóa làm trong cảnh báo bản quyền cuối trang hay việc sử dụng đường dẫn tới trang chủ ? Liệu các chuỗi ký tự liên kết nằm trong đường dẫn trỏ tới các liên kết bạn bè có được tính đến hay không ?

Thật khó đưa ra một câu trả lời chính xác là Google tính đến các mẫu văn bản lặp này như thế nào. Google tính đến các từ khóa trong điều khoản bản quyền, giới thiệu và thông cáo ra sao trên tất cả các trang. Nhưng một điều có thể chắc là Google sẽ không còn quan tâm thật nhiều tới chúng trong tương lai.
Theo dự đoán thì Google thế hệ tiếp theo sẽ được “lai tạp” giữa tìm kiếm Internet và tìm kiếm trong máy tính các nhân cũng như tìm kiếm trong mạng nội bộ Intranet với nhiều tính năng mới. Theo các đăng ký bằng sáng chế gần đây thì hiện đã có trên dưới 50 ứng dụng mà tương lai có thể được tích hợp trong chức năng tìm kiếm thế hệ tiếp theo.
Google và các mẫu trích
Trong số 50 ứng dụng kể trên có một vài ứng dụng khá mới vừa được giới thiệu, nó cho phép bỏ qua mẫu văn bản lặp này :
Systems and methods for analyzing boilerplate
Invented by Stephen R. Lawrence
US Patent Application 20080040316
Published February 14, 2008
Filed March 31, 2004
Hệ thống và phương pháp phân tích boilerplate cho phép phát hiện các yếu tố trong nhiều các bài viết liên quan. Sau đó, hệ thống đánh chỉ số sẽ xem các yếu tố chung này như là một mẫu văn bản chung. Ví dụ, hệ thống đánh chỉ số sẽ xác định qui định về bản quyền tác giải xuất hiện trong các bài viết. Và phần qui định bản quyền sẽ bị qui vào mẫu văn bản chung.
Các máy tìm kiếm lại xử lý các boilerplate này một cách khác nhau. Ví dụ chúng có thể coi tất cả các ký tự nằm sau chữ “Bản quyền” chẳng hạn sẽ bị coi là mẫu văn bản trích dẫn nếu chúng lại xuất hiện trên nhiều trang khác nhau.
Các văn bản trên thanh trượt, tiêu đề, khẩu hiệu trang Web, địa chỉ cuối trang cũng có thể bị qui vào mẫu văn bản trích dẫn chung.
Có hai cách thức khác nhau mà các máy tìm kiếm (search engine) sẽ sử dụng để xác định ra các mẫu văn bản trích dẫn chung này :
Truy vấn ẩn
Hệ thống đánh chỉ số sẽ tìm kiếm và xác định các phần văn bản trích dẫn chung so với phần văn bản chính. Sau đó chúng sẽ tạo ra các truy vấn tìm kiếm ẩn chứa các từ khóa tìm kiếm từ phần nội dung chính.
Truy vấn hiện
Hệ thống truy vấn sẽ tách bỏ hoặc coi nhẹ phần văn bản trích dẫn chung khi người dùng tìm kiếm.
Trong cả hai trường hợp truy vấn ẩn hay hiện thì trọng số của phần văn bản trích dẫn chung luôn sẽ bị coi nhẹ hơn là phần văn bản chính của trang. Và vì thế một bài viết sẽ không cần phải được đánh chỉ số lại sau khi phần văn bản trích dẫn chung bị thay đổi hay xóa khỏi trang liên quan. Điều đó có nghĩa là chỉ có văn bản chính của trang mới ảnh hưởng tới các truy vấn tìm kiếm.
1. Bạn nên nhớ rằng các công cụ tìm kiếm có thể bỏ qua mẫu trích trên các trang đối với các truy vấn của người dùng.
2. Nếu bạn muốn máy tìm kiếm để ý đến nội dung văn bản của trang thì hãy để ý đến vị trí các văn bản này trên trang cũng như là tần suất sử dụng chúng trên nhiều trang khác nhau.
3. Các đường dẫn của thanh trượt và các liên kết các thành phần quan trọng khác nhau của trang Web có thể bị coi là mẫu trích nhưng phần văn bản neo (anchor text) vấn được máy tìm kiếm xem trong để đánh giá nội dung của trang mà nó trỏ tới.
4. Google có thể có hoặc chưa coi trọng những yếu tố trên. Trong trường hợp chưa thì chắc chắn nó sẽ được sớm tích hợp trong thuật toán của Google.
------Ghi chú-------
1. Boilerplate được dùng để ám chỉ tới một đoạn văn bản được sử dụng lặp đi lặp lại nhiều lần trong văn bản hay ứng dụng mới mà không hề thay đổi so với ban đầu [↩]