【IT168专稿】根据赛门铁克的一份报告显示,目前垃圾邮件已经占到邮件总数的70%。反垃圾邮件系统的屏蔽、过滤功能升级也带动了垃圾邮件制造商们改进技术。2月份有38%的垃圾邮件是以图片方式发送的,这对于反垃圾邮件产品来说,检测变得更为困难,而且图片垃圾包含的信息具有独一性,能够较容易通过安全过滤。除此之外,垃圾软件制造商也开始大规模使用文字堆砌以及符号堆积,对传统文字识别过滤系统造成不小的困扰。
现有技术力不从心
种种迹象表明,现有的反垃圾邮件产品对图片垃圾邮件的拦截能力还不强,图片垃圾邮件将会继续呈现直线上升趋势。
图片垃圾邮件在2005年开始出现。而在2006年初,图片垃圾邮件在所有的垃圾邮件中所占比例仅为1%,而到了2006年7月份,所占比例已经飙升至15%,到2006年10月更是占据了整体垃圾邮件的25%,目前这个比例是38%。
图片垃圾邮件的持续增长给网络带来了明显的压力。图片垃圾邮件加重了电子邮件系统的负担,因为每封图片垃圾邮件所占空间大约是普通垃圾邮件的10倍。垃圾邮件所占用的空间从平均的8.9KB上升为13KB,增长了46%。垃圾邮件所占用的带宽从2005年10月的每天275千兆增长至2006年10月的每天819千兆,增长了200%。
目前,光学识别(OCR)技术被更广泛地用于防范图片垃圾邮件。利用OCR技术,防垃圾邮件设备能够识别图片中的文字,并根据特定的规则予以相应的评分,再结合邮件的其他部分,如信头、信体的各种特征,最终判断这封邮件是否是垃圾邮件并阻断。
但是OCR技术存在着一个问题:利用这种技术,需要先将图片中的文字信息完全转换成文本文字,然后对文本文字进行检测,从而判断邮件是否为垃圾邮件。这种方法非常容易出现错误,而且对识别垃圾邮件的效率很低。另外,由于需要将图片中的文字信息先转换成文本文字并进行过滤,因此将会占用邮件系统大量的资源。
有一种改进方案是,对图片中的各个可变因素进行集合分析,使防垃圾邮件设备能通过采用核心标识法来对这些可变因素进行阻隔。使用这种方法,可通过应用一些特定签名来阻隔图片垃圾邮件。这种新的OCR技术仅仅查看图片垃圾邮件中的关键字,不需要对图片中的所有文字进行检测,它将对系统的影响减少到最小,而且更有效率地检查垃圾邮件。该技术不仅仅可用于反垃圾邮件,还可用来防止数据流失。