【IT168评论】近期,国产大模型DeepSeek横空出世,在全球范围内引起了轰动,其讨论度更是达到了空前高度。多家网安公司纷纷宣布接入DeepSeek,一场深刻的科技变革正在悄然展开。本文深度对话绿盟科技天枢实验室主任顾杜娟博士,解码DeepSeek在技术突破、行业适配、安全实践等方面的创新路径,以及其如何重塑网络安全行业的未来格局。
解析DeepSeek:技术革新引领AI大模型发展
在AI大模型领域,性能与成本的平衡一直是核心挑战。传统大模型动辄千亿参数的规模,不仅需要海量算力支撑,更面临高昂的训练和推理成本。而DeepSeek作为新一代开源AI大模型,在技术上实现了多项创新和突破。在顾杜娟看来,DeepSeek的核心突破主要体现在以下四个维度:
1、稀疏MoE架构与动态激活
DeepSeek的核心突破之一在于其采用的稀疏混合专家(MoE)架构。传统模型在推理时需激活全部参数,而DeepSeek仅激活与任务直接相关的专家模块。
DeepSeek-V3在推理时激活参数规模为37B(370亿),仅占其总参数量671B(6710亿)的约5.5%,这使得计算成本大幅降低。
与此同时,DeepSeek引入了多头潜变量注意力(MLA)技术,将关键值缓存压缩为潜变量,成功将推理内存占用减少93.3%,生成吞吐量提升5.76倍。通过将关键值缓存压缩为潜变量,成功减少了内存占用并提升了推理效率。这种“按需调用”的机制,为复杂安全场景提供了高效解决方案。
2、FP8混合精度与3D并行训练
在训练阶段,DeepSeek通过FP8混合精度训练和3D并行策略,实现了超大规模数据的高效处理。以DeepSeek-V3为例,仅需2048块GPU,耗时2个月便完成了14.8T token训练,成本低至557万美元,这仅仅是GPT-4训练成本不到十分之一。
顾杜娟强调道,“FP8技术不仅降低了内存需求,还显著提升了计算性能,并且这种技术优势在推理阶段同样得以体现,有效降低了资源需求,实现了高效的推理能力。此外,DualPipe通信加速器的运用进一步优化了数据传输和处理,减少了通信开销,为训练效率的提升提供了有力保障。”
3、强化学习与多阶段训练
通过强化学习技术,特别是GRPO(Group Relative Policy Optimization)框架,DeepSeek成功地在不依赖大量有监督微调的情况下显著增强了模型的推理能力,在多个推理任务上的表现证明了RL在提升模型推理能力方面的巨大潜力。
DeepSeek-R1采用了一种多阶段训练策略,结合少量冷启动数据和强化学习,以优化模型在数学推理和编程测评等复杂任务上的表现。
DeepSeek-R1采用了一种多阶段训练策略,结合少量冷启动数据和强化学习,显著提升了模型的推理能力和可读性。它在多个推理任务上的表现与 OpenAI 的 o1-1217 相当,尤其在数学推理和编程测评等复杂任务上的表现。
4、知识蒸馏与多任务学习
DeepSeek的训练过程中还采用了知识蒸馏和多任务学习(MTL)技术。知识蒸馏使得模型能够从大模型中学习知识并传递给小模型,实现知识迁移,提高了模型的计算效率和推理能力。
多任务学习则使得模型能够同时处理多个任务,进一步提高了模型的泛化能力和适应性。模型同时学习多个任务(如文本分类、情感分析、问答),利用任务相关性优化共享的底层语义表示,从而提高推理效率和准确性
以需求为导向,绿盟科技深化DeepSeek技术应用
面对头部网安公司集体接入DeepSeek的现象,顾杜娟认为,“这既是行业技术升级的必然选择,也夹杂着一定的‘跟风’成分。”
一方面,DeepSeek的高效与低成本特性,契合网络安全领域对实时响应、复杂威胁分析的需求。例如,DeepSeek在智能推理和代码编程上的优势,可显著提升攻击模拟与漏洞挖掘的效率。
另一方面,部分网安厂商接入DeepSeek,可能是出于保持竞争力和跟上行业趋势的考虑,但缺乏深入的技术整合和应用。这种行为虽然可能带来短期的市场关注和品牌提升,但难以创造长期价值。
绿盟科技在这一趋势中,有着自己清晰的定位和战略考量。顾杜娟在采访中表示,“我们需要深入地将DeepSeek技术与现有的产品和服务进行整合,确保其能够真正提升业务能力。根据企业的具体需求和优势,明确DeepSeek在哪些领域能够带来最大的价值,集中资源进行应用和优化。”
在威胁检测场景中,绿盟科技将DeepSeek与自研的“绿盟风云卫AI安全能力平台”结合,实现双模型共同研判分析,大幅提升威胁检测的准确性和效率。例如,在检测APT(高级持续性威胁)等复杂攻击时,DeepSeek能够通过对大量数据的分析,发现潜在的攻击迹象,而风云卫则利用其安全知识图谱对威胁进行精准识别和分类。
值得一提的是,绿盟风云卫AI安全能力平台已经在金融、政府、能源等多个领域得到应用,显著提高了告警降噪率和威胁响应速度,整体运营效率提升了70%以上。
此外,数据隐私保护也是绿盟科技在接入DeepSeek时需要重点考虑的问题。为了确保数据安全和服务稳定性,绿盟科技提供本地化部署DeepSeek的方案,避免了敏感数据的远程传输。
同时,绿盟大模型安全评估系统LSAS(NSFOCUS LLMs Security Assessment System)为云端及本地部署的DeepSeek大模型提供自动化、系统化的安全与合规评估,确保模型在训练和推理过程中的数据安全,符合TC260-003规范。
如何应对DeepSeek的“过度思考”与幻觉问题?
DeepSeek在推理能力与通用任务处理上存在一定差异,尤其是可能出现“过度思考”现象,导致处理时间延长和资源浪费。DeepSeek也会生成虚假或不准确的信息,这种生成式AI的“幻觉问题”可能导致安全研判误判。为了规避这些局限性,绿盟科技采取了多种技术手段和策略。
首先,通过预判任务复杂度,绿盟科技能够智能选择最优模型进行处理。对于简单任务,可以选择使用较小的模型或更简单的算法进行处理;对于复杂任务,则调用DeepSeek进行深度分析。这种智能调用方式避免了简单任务的过度处理,提高了效率和准确率。
其次,绿盟科技构建了“任务-模型”性能矩阵,根据历史数据动态调整路由策略。在实验室基准测试中,模型根据参数量、延迟和能耗指标预选适配模型,根据不同任务选择合适的模型。如对于检测类问题,使用风云卫进行快速威胁检测或告警研判,而对于规划类复杂问题,则调用DeepSeek推理型模型进行深度分析。
此外,针对AI的“幻觉问题”,绿盟科技使用高质量、多样化的数据训练模型,帮助其更好地理解上下文,减少生成不准确信息的可能性,确保训练数据的质量和多样性,从源头上降低幻觉问题的风险。例如,在训练DeepSeek时,选用涵盖多种网络安全场景和攻击类型的大量数据,使模型能够更准确地理解和分析安全威胁。
与此同时,绿盟科技还通过人工复核的方式对AI模型的输出进行检查和纠正,安全专家可以评估输出的准确性和相关性,确保其符合实际情况。
针对DeepSeek服务的DDoS攻击,绿盟科技制定了专项防护策略。绿盟科技的全球威胁狩猎系统为DeepSeek提供实时攻击监测与分析,一旦检测到攻击,立即启动相应的防护措施。同时,绿盟科技对攻击来源进行可追溯性分析,以便更好地了解攻击者的攻击手段和意图,进一步加强防护措施。
顾杜娟指出,“绿盟全球威胁狩猎系统监测到攻击基础设施的前三个来源分别是美国(20%)、英国(17%)和澳大利亚(9%)。这些海外攻击者通过高度隐藏的技术手段对目标进行了协调的攻击,进一步强调了这次攻击的复杂性。攻击者使用全球分布式服务器资源来掩盖身份和地理位置,这种行为不仅严重破坏了网络空间的顺序,而且对全球互联网安全构成了重大威胁。”
结语
针对AI大模型与网络安全融合的终极形态,绿盟科技持积极态度。从构建可信任的安全智能生态出发,绿盟科技通过“大模型+小模型”协同的安全运营新体系,构建智能、高效的安全防护体系,覆盖全场景、可信任、实战化任务,推动人工智能与网络安全产业的深度融合。
未来,网络安全行业的竞争不再仅仅围绕单一“模型性能”,而会更关注行业适配和落地效率。绿盟科技将不断提升大模型在特定安全场景中的集成效率,如威胁检测、漏洞管理和事件响应等,并加快模型在实际场景中的部署和运行速度,以满足客户对快速响应和高效服务的需求。
绿盟科技非常期待与DeepSeek开展更深度的合作,构建垂直领域的安全大模型,以显著提升模型在安全行业的适用性和准确性。这种合作形式不仅能提高模型在安全行业的应用性能,还能促进不同企业之间的技术交流和协作。对于推动行业标准制定、促进技术创新和生态共建具有重要意义。