空间管理您的位置: 51Testing软件测试网 » TestFamily的个人空间 » 日志

URL 过滤技术

上一篇 / 下一篇 2010-11-24 11:36:07 / 个人分类：安全防范

针对企业对员工上网行为的控制管理，可以采用URL过滤技术。如企业不允许研发员工在上班时间访问娱乐网站，在下班时间则允许；或者企业不允许市场人员访问研发内部网站等等。这些基于不同的用户组、不同的时间段，访问的网页有区别的问题，可以采用URL过滤技术实现。

URL过滤功能可以归纳为3大类：

黑白名单功能：如把钓鱼网站、黄色网站......列入黑名单，可以保护公司内网的安全；而把一些畅通无阻的网页加入白名单，就不需要进行分类查询，提高了访问速度。

分类访问功能：对于黑白名单无法匹配的网页，采取分类查询的功能。分类可以用户自己配置，也可以向第三方的分类查询服务器进行查询，如surfcontrol的分类服务器；与第三方服务器的通信是技术难点，是TCP连接还是UDP连接，若是TCP连接，在web访问高峰期，要建多少TCP连接，是不是会超过设备负载，性能是不是会受影响，查询速度是不是会很慢；若是UDP连接，怎么处理链路拥塞情况下查询报文丢失的情况，查询超时怎么处理？总而言之，查询到分类后，可以与本地的用户组和时间段关联，判断该http请求是否该放行。

页面推送：若是被阻断的页面，需要对用户进行通知，可以采用页面推送的方式。此时，需要对发起http请求的用户推送一个页面，知道客户，访问被阻断，并且断开http请求。这里的技术难点是，如何模拟http server，构造一个FIN报文发送给client。涉及到报文封装，校验和计算，序列号修改。并且，在client收到FIN后，回应的FIN结束报文，我们该如何处理，如果不处理，需要等待超时。

如何从http中提取URL呢？我们知道http get请求的格式：

GET /new/tb_02.gif HTTP/1.1

Accept: */*

Referer: http://www.360doc.com/content/09/1209/10/556933_10698354.shtml

Accept-Language: zh-cn

Accept-Encoding: gzip, deflate

User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; CIBA)

Host: pubimage.360doc.com

Connection: Keep-Alive

我们把 host 部分提取出来，进行 URL 过滤，过滤的时候，用什么匹配方式？可以考虑 MPSE 算法，即把要匹配的模式串先预编译成状态机，对string进行一次扫描时，进行状态跳转，因此一次扫描，就能找出所以字符串。时间复杂度为0(n);

对于一个网页中的N多资源，可以根据资源类型判断，是否需要对该 HOST 进行过滤，减少重复工作。

在该特性开发过程中，碰到的问题有：

1、易用性：web页面整改：按主功能划主页面，主页面里放子功能；匹配方式整改，分为prefix, surfix, exact, obscuring；分类页面区分自定义和预定义；category, user, address,action 的配置；默认IP地址；

2、功能问题：分类查询的返回报文；页面推送中RST报文重传；

如何测出这些问题：

1、易用性：按功能模块来设计页面；

2、功能问题：多任务交互时，考虑资源修改的情况；交互复杂的地方容易出现问题；

URL 过滤技术

相关阅读:

用户菜单

我的栏目

标题搜索

日历

我的存档

数据统计

RSS订阅