本文目录一览:
- 1、如何查看蜘蛛访问网站的记录
- 2、百度蜘蛛是什么,常见百度爬虫有那些问题
- 3、我的蜘蛛爬行记录器 不能即时显示爬行记录
- 4、求一款好用的Typecho高亮插件
- 5、迅睿CMS安全性怎么样?如何进行安全设置
如何查看蜘蛛访问网站的记录
对于很多做网站的新手来说,都没有经过系统地授课进行网络技术和建站知识学习,做网站都是靠自学,遇到难题在论坛发帖提问,更不会懂得网站优化,对于较基本操作——通过网站日志看蜘蛛来访情况都不知到哪里看,怎么看。前两天看到很多人发帖提问,回复者的答案却比较精炼,不具体,提问者还是云里雾里的,现我就以自己的网站来系统地操作一次,提交给大家参考,有说错的地方,请批评指正。
1、打开FTP登录软件,我用的是FlashFXP,登录空间FTP
登录FTP后,你会发现根目录下有一个wwwlogs文件夹,(有的是weblog,注:不同的服务器空间生成的日志文件目录名称不一样,仅供参考,一般文件夹中包含Log字符的就是日志文件夹)。
2、打开wwwlogs文件夹后,里面有一些以日期格式特征为文件名的.gz后缀结尾的文件,这些就是我们需要下载到本地的日志文件。
3、下载到电脑桌面后,解压缩打开,里面是一个记事本格式的文件,打开文件,看到的是下图这样的代码,我下载的是3月7日的那个文件。
4、分析代码
上图1是百度蜘蛛的IP地址;
2是蜘蛛来访日期时间(2012年3月6日1时21分22秒),3月7日的日志文件记录的是从3月6日凌晨开始,至3月7日1时11分39秒整个时间段的n多次来访记录);
3是百度蜘蛛baiduspider
4是我网站被访问的网页地址;
5是sogou 搜狗蜘蛛的来访,同样也能看到时间和被访网页。
如果是简单的查看,您可以在记事本中搜索baiduspider ,如果想精确分析,可借助一些专用的分析软件。分析下哪些时间段百度蜘蛛来的最频繁,那么我们就在这个时间段更新我们的网站内容,很容易被百度收录的。
通过分析蜘蛛来访纪录,可以了解本站的大体情况,而不用再为百度不放出内页或者不收录的问题而苦恼了。
蜘蛛来访正常,可以确切的说,搜索引擎对你的站很友好的,坚持更新自己的网站,会有不错的收录的。
注:有些共享IP空间可能不支持日志功能,对于独立ip虚拟主机则提供每天的日志下载,而实在没有可以日志功能的空间可以参考使用蜘蛛爬行插件的一些方法进行分析。
百度蜘蛛是什么,常见百度爬虫有那些问题
简单理解,百度蜘蛛又名百度爬虫,主要的工作职能是抓取互联网上现有的URL,并对页面质量进行评估,给出基础性的判断。
通常百度蜘蛛抓取规则是:
种子URL-待抓取页面-提取URL-过滤重复URL-解析网页链接特征-进入链接总库-等待提取。
1、如何识别百度蜘蛛
快速识别百度蜘蛛的方式有两种:
① 网站a href=网址蜘蛛日志分析,可以通过识别百度蜘蛛UA,来判断蜘蛛来访记录,相对便捷的方式是利用a href=网址SEO软件/a去自动识别。关于百度UA的识别,你也可以查看官方文档:a href=网址
② CMS程序插件,自动嵌入识别百度爬虫,当蜘蛛来访的时候,它会记录相关访问轨迹。
2、百度蜘蛛收录网站规则有那些?
并不是每一个网站的蜘蛛来爬寻抓取就会被收录的,这样就会形成一个搜索引擎主要流程,这个流程主要分为,抓取、筛选、对比、索引最后就是释放,也技术展现出来的页面。
抓取:爬虫是根据网站URL连接来爬寻的,它的主要目的是抓取网站上所以文字连接,一层一层有规则的爬寻。
筛选:当抓取完成后,筛选这个步骤主要是筛选出垃圾文章,比如翻译、近义词替换、伪原创文章等,搜索引擎都能够识别出来,而是通过这一步骤识别。
对比:对比主要是实行百度的星火计划,保持文章的原创度。通常情况下,经过对比的步骤的时候,搜索引擎会对你站点进行下载,一来对比,二来创建快照,所以搜索引擎蜘蛛已经访问你的网站,所以网站日志中会有百度的IP。
索引:通过确定你网站没有问题的时候,才会对你网站创建索引,如果创建索引了,这也说明你的站点被收录了,有时候我们在百度搜索还是不出来,可能原因是还没有被释放出来,需要等待。
3、关于百度爬虫一些常见问题:
① 如何提高百度抓取频率,抓取频率暴涨是什么原因
早期,由于收录相对困难,大家非常重视百度抓取频率,但随着百度战略方向的调整,从目前来看,我们并不需要刻意追求抓取频率的提升,当然影响抓取频次的因素主要包括:网站速度、安全性、内容质量、社会影响力等内容。
如果你发现站点抓取频率突然暴涨,可能是因为:存在链接陷阱,蜘蛛不能很好抓取页面,或者内容质量过低,需要从新抓取,也可能是网站不稳定,遭遇负面SEO攻击。
② 如何判断,百度蜘蛛是否正常抓取
很多站长新站上线,总是所发布的文章不收录,于是担心百度爬虫是否可以正常抓取,这里官方提供两个简单的工具:
百度抓取诊断:
百度Robots.txt检测:
你可以根据这两个页面,检测网页的连通性,以及是否屏蔽了百度蜘蛛抓取。
③ 百度爬虫持续抓取,为什么百度快照不更新
快照长时间不更新并没有代表任何问题,你只需要关注是否网站流量突然下降,如果各方面指标都正常,蜘蛛频繁来访,只能代表你的页面质量较高,外部链接非常理想。
④ 网站防止侵权,禁止右键,百度蜘蛛是否可以识别内容
如果你在查看网页源代码的时候,可以很好的看到页面内容,理论上百度蜘蛛就是可以正常抓取页面的,这个你同样可以利用百度抓取诊断去解析一下看看。
⑤ 百度蜘蛛,真的有降权蜘蛛吗?
早期,很多SEO人员喜欢分析百度蜘蛛IP段,实际上官方已经明确表示,并没有说明哪些蜘蛛的爬行代表降权,所以这个问题不攻自破。
⑥屏蔽百度蜘蛛,还会收录吗?
常规来说屏蔽百度蜘蛛是没办法收录,虽然会收录首页,但是内页却不能收录的,就好比“淘宝”基本上都是屏蔽了百度蜘蛛,只有首页但是依然排名很好。
总结:很多市面上就会出现一个蜘蛛池这样的字眼呈现,这是一种并不好的一种变现的方式,搜外seo并不建议大家使用,上述仅供大家参考。
我的蜘蛛爬行记录器 不能即时显示爬行记录
应该是插件的时差问题,中国是+8区,所以显示会推迟。或者说,这段时间没有蜘蛛来爬过。
求一款好用的Typecho高亮插件
MagikeEditor:简易编辑器插件
一款简易的后台文章编辑器,我个人非常喜欢。可以随便的自定义按钮,例如快速加p标签、加h3标签等,当然,也可以自己加div class="download"这样的标签。根据我的习惯,一般都是直接在后台输入完内容,然后再套几个p标签等,非常快速方便。试过很多其它比较华丽的编辑器,用的很不舒服,略过,简洁才是王道。
AjaxComments:异步无刷新评论插件
Typecho默认的评论是要页面刷新的,该插件可以异步提交评论,页面无刷新,非常人性化。当然还有一个重要的功能是附带评论回复的邮件通知,支持smtp发送,只要在源文件里面设置几个参数即可,不过由于不是异步发送的,可能是最大的欠缺了。另外该插件smtp邮件通知设置中,如果使用的是腾讯的企业邮箱,有个bug,可能无法发送邮件。经过我的测试,必须使发送人名称和发送邮件的地址一致才可以发送。由于博客在SAE上,这里用的是SAE版本的AjaxComments。
CommentFilter:评论过滤器
让你远离垃圾评论,绝对的神器。可以直接封掉评论者的IP,设置禁止词汇和敏感词,限制输入中文,经过简单的设置直接spam掉垃圾评论,阻止提交或者提交到待审状态。非常棒的插件,使用以后,垃圾评论为零。有了它,其它的例如滑动锁,验证码等等的都不需要使用了,太不友好。
后续:本人在该插件的基础上进行了改进并且升级,推出了SmartFilter插件,请参看《Typecho智能评论过滤插件:SmartSpam》
Sticky:文章置顶插件
文章列表默认是按照时间顺序显示的,致使有些重要的文章可能不能重点显示。这个插件可以对单篇文章置顶、多篇文章置顶、自定义置顶文章显示顺序、自定义置顶样式等,还是比较有用的。
Robots:蜘蛛来访记录插件
做SEO必备的一款插件,可以记录搜索引擎蜘蛛的种类、爬行时间、爬行的页面、来源的IP。有利于监控站点的被蜘蛛抓取的情况,了解蜘蛛的习惯。
后续:本人在该插件的基础上进行了升级,请参看《Typecho蜘蛛来访记录插件加强版:RobotsPlus》
GravatarCache:头像缓存插件
评论者的头像缓存插件,主要是有一段时间Gravatar被GFW了,造成页面打开巨慢,该插件可以直接将头像下载到本地,防止Gravatar无法访问。由于SAE不支持本地写文件,这里使用的是SAE版本的GravatarCache,将头像下载保存到了Storage里面。
Smilies:评论表情及贴图插件
在评论时可以加入表情和贴图,可以使评论的互动性更加丰富,该插件可有可无。
SlimBox2:图片灯箱显示插件
类似插件很多,但是感觉比较臃肿,这款算是非常小巧,20几K的大小。
AudioPlayer:MP3播放器插件
到目前为止就用过一次,虽然用的少,但是偶尔还是有用的,这是直接从wordpress迁移过来的,清爽简单。该插件的设置就是配置参数,可以参看官方文档,非常简单。
TypechoKit:侧边栏加强插件
这个其实算不上什么插件,就是几个简单的函数。例如随机日志、评论最多的日志、评论最多的访客、沙发最多的访客、最近评论数等。另外,这里有几个函数有点bug,我直接改掉了。具体是哪个也不太记得了。
Views:浏览次数统计插件
记录每篇文章的浏览次数,另外有一款Stat插件,和这个基本差不多,不过个人偏好这款,命名较好。这款插件其实就是在数据库文章表中加了一个字段,不太友好,改变了原有的的设计规范。建议还是自己做一张表,外键关联一下,这才能体现插件热插拔的特点。
YoviSunCustom:YoviSun个人定制插件
顾名思义,这是我自己根据自己的博客写的插件,主要有:广告的设置与隐藏,欢迎语的开启与关闭,顶部图片的指定,自定义文字记录等。其实这个插件就是将自己经常用到的需要修改源代码的功能集成了,免去改源代码的麻烦,直接在前台进行设置即可。
另外还有,ArticleList热评与随机文章列表插件,归档页面插件JustArchives,Links友情链接插件,觉的太简单了,没必要做成插件的形式,直接将内容进行修改,结合到主题里面了。
迅睿CMS安全性怎么样?如何进行安全设置
一、迅睿CMS安全性
1、系统后台安全设置
开启https、开启跨站验证、登录失败次数设置
定期修改密钥,该密钥用于Cookie数据加密,为了保证用户数据安全
2、目录权限(非常重要)
目录权限的配置非常重要,80%的网站系统入侵后成功挂马,基本上是权限设置不正确引起的。
迅睿CMS系统目录权限配置的原则为:
这样即使黑客侵入了网站目录,也不能轻易让木马在可执行PHP脚本的目录下运行,相当于把木马文件隔离起来了。
3、分离后台程序,个性化后台域名
不要把后台放在前端目录中,防止被猜疑利用。
我们强烈建议后台域名不要通过公网DNS解析,最好手动绑hosts文件访问。
如果有条件的话,后台更应该放置在VPN以及内网下访问。
4、禁止模版目录在线修改
迅睿CMS后台提供了在线修改模版的功能,提供了一定的方便,但是一旦黑客通过其他途径拿到了后台帐号密码,并进入了后台,就可以在线修改模版并植入木马程序。
为了安全起见,我们强烈的建议用户不允许在线修改模版,因为你方便,黑客们也喜欢。
通过FTP或SFTP软件来进行模版修改,同时开启FTP与SFTP的操作日志。
5、开启后台操作日志
作为网站管理员,养成定时查看日志的习惯才是好同志。
通过开启迅睿CMS后台的操作日志,并定时查看是否有非法登入后台的管理员账户,是否有非法访问后台地址的行为。
6、开启访客日志记录
实时查看网站访问数据和POST提交数据,统计用户的操作行为日志,记录源端口号、IP、设备信息。
7、补丁更新及安全检查
迅睿CMS使用过程中,如发现已知的安全漏洞,官方会在第一时间修复漏洞并提供补丁包,并通知我们的客户及时打上补丁,避免再次入侵,造成更大损失。
如果您在使用过程中发现有入侵现象,请及时与我们联系,我们会安排工程师进行网站扫描与清理工作。
8、数据库与网站备份
建议每天对网站程序和模版以及数据库进行备份,阿里云服务器可以用设置定时快照备份,大部分虚拟主机也有自动定时备份功能,以防出现故障后无法恢复 历史 文件。
二、服务器安全配置
虚拟主机安全性都是由服务商来设定;
云服务器建议安装BT面板的防火墙插件
三、其他开源程序的安全配置
如果您的服务器运行了不止迅睿CMS一个产品,还有如Discuz、DedeCMS、帝国CMS等开源产品,请及时关注这些产品的安全信息,并做好补丁工作。