首页 >> 通信网络安全频道 >> 技术交流 >> 正文
 
WEB应用风险扫描的研究与应用
http://www.cww.net.cn   2010年11月24日 10:30    通信世界网    
作 者:杭州安恒信息技术有限公司总裁 范渊

(2) 对网页和数据的分析与过滤;

(3) 对URL的搜索策略。

3.1  网页抓取目标

网页弱点爬虫对抓取目标的描述或定义基于目标网页特征抓取、存储并索引,对象是网站的网页;通过用户行为确定的抓取目标样例,其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,以及网页代码的结构特征等。

3.2  网页分析算法

基于网页内容的分析算法指的是利用网页内容(文本、数据等资源)特征进行的网页评价。该算法从原来的较为单纯的文本检索方法,发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。根据网页数据形式的不同,将基于网页内容的分析算法,归纳以下三类:第一种针对以文本和超链接为主的无结构或结构很简单的网页;第二种针对从结构化的数据源动态生成的页面,其数据不能直接批量访问;第三种针对的数据界于第一和第二类数据之间,具有较好的结构,显示遵循一定模式或风格,且可以直接访问。

3.3  网页抓取策略

爬虫的抓取策略目前普遍的采用的方法有:深度优先、广度优先、最佳优先三种。由于深度优先在很多情况下会导致爬虫的陷入(trapped)问题,网页弱点爬虫目前采用的是深度优先和最佳优先方法组合方法。

深度优先搜索策略:指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。网页弱点爬虫采用深度优先搜索方法为覆盖指定网站存在弱点的网页。其基本思想是认为与初始URL在一定链接距离内的网页具有弱点相关性的概率很大;并采用将深度优先搜索与网页过滤技术结合使用,先用深度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低,因此网页弱点爬虫采用了最佳优先搜索策略来弥补这个缺点。

最佳优先搜索策略:最佳优先搜索策略采用基于网页内容的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。

4.      漏洞检测技术风险检测

4.1  主要WEB应用漏洞

[1]  [2]  [3]  [4]  [5]  
相关新闻
编 辑:石美君    联系电话:010-67110006-818
分享到新浪微博 分享到搜狐微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  进入论坛   推荐给朋友
关键字搜索:WEB应用  信息安全  漏洞扫描  网络爬虫  安恒信息  
文章评论查看评论()
昵称:  验证码:
 
重要新闻
通信技术
企业黄页
会议活动