网络安全 频道

主流网页过滤(Web Filtering)方法剖析

网页过滤(Web Filtering)已经不是一个新鲜名词,由于互联网的蓬勃发展,网上的信息资源开始到处泛滥,而其中不乏很多不良信息,于是人们开始探寻各种过滤信息的技术手段,以扼制不良信息的传播,保护特定人群不受恶意信息的侵扰,例如保护企业内员工不受购物、娱乐等信息侵扰,而影响工作效率;保护青少年不受色情、暴力等信息毒害,而健康成长;因此网页过滤技术应运而生,而由此衍生的内容安全市场也在飞速发展,国内外众多网络设备厂商开始涉足该领域。例如国外厂商有Websense、BlueCoat、8e6等,国内厂商有网康科技、新网程、任子行等。

  目前,网页过滤技术正向两个主要方向发展:1.内容实时分析;2.Url过滤。

  内容实时分析过滤是指在访问Web内容时,对内容进行实时扫描,根据已知的敏感关键字/词、图片和页面构成特点,分析是否含有禁止访问的内容。这是最有效的控制方法,只要建立一个足够完全的关键字库就可以完全杜绝对不良信息的访问。

  但是,应用内容实时分析过滤技术却受到网络延迟、法律法规、文化道德、维护更新等多方面因素的限制。首先,该类产品对分析算法要求很高,并且要有相应运算能力的设备支持,否则在遇到大量数据分析时可能会造成严重的网络延迟、误判漏判等问题。其次,此类产品需要人工维护更新一个庞大的关键字数据库,不断将新的禁止访问的内容关键字添加进去,但是对内容的分析需要跟文化、法律、宗教信仰等多方面结合起来评判,因为不同地区、不同文化、不同法律对信息良莠的定义都不相同,特别是在中国,一个词可以用多音字、谐音字、拼音字母等多种方式表现,为关键字数据库的维护带来了巨大的难度。而这个维护更新工作一般是由用户自己完成,因为不同的用户对需要过滤的内容有不同的需求。还有,内容实时分析过滤需要将网页内容下载到本地才能进行分析,对系统资源和带宽资源都造成了一定的浪费。

  因此,采用内容实时分析过滤技术的产品不应该是一个全球通用产品,必须做到真正的完全本地化,才能具备为本地用户服务的能力。

  Url过滤是近几年才兴起的一种网页过滤方法,其原理非常简单:通过对互联网上各种各样的信息进行分类,精确地匹配URL和与之对应的页面内容,形成一个预分类网址库。在用户访问网页时,将要访问的网址与预分类网址库中的地址进行对比,以此来判断该网址是否被允许访问。例如我们事先设定禁止访问色情类网站,当某个用户想要访问www.sex.com时,系统会对比该网址在预分类网址库中属于哪一类?是否被允许访问?从而达到控制访问的效果。

  与内容实时分析过滤相比,Url过滤方法具有节约带宽,降低访问延迟,减少误判率的优点。但是,Url过滤方法也存在一定的应用限制:首先,采用Url过滤方法的产品也不能是全球通用产品,这同样牵扯到法律、文化、宗教等诸多问题,例如中西方对色情和成人的评定等级就不相同,这就要求预分类网址库收集、分类必须符合当地法律法规、道德文化标准、用户使用习惯等。其次,预分类网址库必须实时更新,我们知道互联网的发展日新月异,每天都会有大量的新网站诞生,这就对采用Url过滤技术的产品提出了实时更新数据库的要求。还有,既然采用预分类的方式过滤Url,就对预分类网址库的精确度提出了很高的要求,预分类的网址不但要数量庞大,还要具有非常高的分类精确度,才不至于出现误判、漏判的可能。

  北京网康科技有限公司拥有500万网址的预分类网址库,是业界领先的本地化预分类网址库,数据库的生成是根据中国地区上网用户的URL访问集中度、文化背景、对内容的敏感程度,以及参照国家立法规定,进行合理化采集、分类的结果。网康科技副总裁左英男说:“采用Url过滤技术的公司必须成立专门的Url收集分析部门,及时对新近诞生和死亡的网址进行跟踪、分析和分类,并及时为用户更新预分类网址库,这样才能保证网页过滤的有效性”。北京网康科技有限公司是中国领先的互联网控制管理设备及服务提供商。

  网康科技Url过滤部门负责人杨东晓说:“网康科技拥有自主研发的内容分类搜索引擎,它会实时在互联网上进行区域性的URL抓取,并经网康智能分类分析系统对抓取结果进行有效性校验和内容分类匹配,再通过我们部门的URL数据分类审核小组成员对分类结果进行人工审核,以保证分类的准确性,最后将审核结果导入数据库,并上传至服务器供所有用户实时更新。”

  由于网页过滤与法律、文化、宗教有着很高的相关性,过滤技术的发展已经不能完全满足用户的需求。而智能系统对内容的分析判断总是会有些偏差,无论是实时的内容扫描分析,还是预分类的Url过滤方法,都无法做到100%的准确判断。但是完善的本地化服务却能弥补先天的不足,只有把用户的需求和利益放在第一位,为本地用户提供真正适合的产品和服务,才能在市场上立足根本。
0
相关文章