百度站长平台已经提供了一段时间的自动JS脚本提交链接索引。用百度自己的话说:JS链接推码以网页为小对象,服务于整个平台和多个终端,可供PC站和移动站使用。任何平台(浏览器、微信、微博)加载后,页面链接都会初次推送到百度,提高网站新内容的发现速度。
把这些代码放到你的每一页。当用户访问这些页面时,他们会通过这个脚本从百度下载一个1x1gif,并记录下此时页面的URL地址。
从这个脚本中,我们可以看到:
一、它首先确定当前协议类型是HTTPS还是其他类型(例如HTTP、FTP等)
二、然后下载百度官方JS文件
三、然后它从JS文件的内容生成一个脚本块并将其插入当前页面
我们可以访问这两个JS文件来查看它们的内容,这是一小行。它会读这样的GIF。
在这里我们可以发现两个问题:
一是该脚本会连续调用两个百度资源,造成冗余,不利于页面加载速度。
第二个是脚本将提交当前的URL,但是许多URL将是带有各种参数的动态URL。虽然百度爬虫也有自己的判断方法,但无疑增加了它的负担。
所以,为了解决这两个问题,我们有以下改进版本。
这个改进的脚本如下。如果您对JS一无所知,请使用下图。
在上图中添加了注释,代码解释从下面开始。
新脚本是查看页面规范URL的额外步骤。我们知道canonical属性表示这个页面上有数以千计的URL模式。请搜索引擎仅识别在href中给定的URL值。这样,搜索引擎就不会多次检查同一个页面(可能已经索引)的推送页面的特定内容。
新脚本的另一个更改是直接取出上述两个js的内容。因为这两个js中的代码实际上是静态的,所以不必每次都调用。另一方面,我们需要将R的值改为规范URL的值,这样就解决了上面的第二个问题。
自动推送是一种非常实用的方法。它的阈值低,易于部署,但也存在一些小问题。本文只提供了一种提高自动推送效率和效果的方法。
需要注意的是,百度可能会随时更新这两个JS文件的内容。虽然该功能自推出以来一直没有更新,但并不意味着以后不会更新,因此需要手动及时更新代码。