为了解决新网站不被收录的问题,我们必须首先知道影响网站不被收录的因素是什么,从而找到不被收录问题的具体影响,并解决它!
影响因素的爬虫爬行:
首先查看爬虫每天访问您网站的次数,然后查看一周内是否可以包含爬虫页面。如果爬网页面不被收录,抓取也没问题,问题就在网页本身上。如果爬虫没有抓取,那一定是抓取的问题。此时,添加一些场外链接以吸引爬虫访问自己的网站,或提交百度的自动推送、主动推送、网站地图、移动终端日级收藏等,通知爬虫您的URL。
当然,提交到搜索引擎URL并不意味着它也会被爬网。搜索引擎有一个爬网队列,首先要捕获哪些网页,然后要捕获哪些网页,您的URL排序是高还是低也会影响它是否会被爬网 (为了解决这个问题,您需要为内部链做一些工作,比如每个网址链接到网站其他页面的次数,次数越多,页面就越重要,自然爬网的队列顺序越高。)。
影响因素的问题:
同样抓住了,也就是说,不被收录,无疑是网页本身的问题,网页的问题必须分开:
网页打开速度很慢吗?
网络内容的质量通过了吗?
网页爬虫的整体内容是否可识别?
从页面速度来看,您可以优化服务器的配置和带宽,程序上代码执行的效率也会影响打开速度。建议如果速度为1秒,则需要优化到几百毫秒。如果必须给出一个值,我的建议是500毫秒 (这是页面打开速度,而不是服务器链接速度)。
就内容质量而言,我将在这里给出几点:
对于新网站,应在85% 处保证内容的原创性;
内容的可读性必须很强,说话流畅,不能冗长;
标题是什么,写下内容是什么。你不能这样卖狗肉;
对于字数没有明确的要求,但是为了更好地帮助你建议大约600 ~ 800,这只是一个参考值;
爬虫内容是否可识别取决于您是否使用了js来加载内容,没有alt的图片太多,或者alt声明不合理,以及falsh的使用等,这可以通过百度搜索资源的网站管理员工具进行爬网。诊断,查看爬虫是否获取所有内容。
最后,链接的重要性
一开始提到,一个网页链接的次数越多,搜索引擎就越认为它很重要,并且一定的百分比会增加被包含的可能性。这里我们必须从两点开始。
1.当前网页的链接数量。
你希望这个网页包含多少次,链接到这个网页的页面已经包含了吗?排名?如果它没有被包括在内或排名,你如何看待搜索引擎知道这个页面的链接是给你的?
2.链接到您的网页的重要性
其他人的主页给你一个链接,其他人的内页给你一个链接。重要性完全不同。但是不可能有这么多重要的网页给你一个内部页面的链接。因此,我们此时需要做的是通过交换友好链接来增强我们主页和其他网页的重要性,从而合理地部署内部链结构,从而增加重要链接的数量。
重要而多的链接指向你,内容没有问题,爬虫也抓住了,速度也很快,爬虫也可以识别你的内容。如果你不包括它,你需要通过百度搜索资源平台从网站管理员那里反馈情况。因为有时各种搜索引擎中会出现错误,这是我个人经历过的事情。
如上所述,我对超过一个月不被收录在新网站中的问题的回答。希望对您有所帮助!