网络安全 频道

2025年度IT168技术卓越奖名单:网络安全类

      创新解决方案奖:F5智算中心大模型推理平台增效方案

  一句话点评:以“Token级调度”与“语义缓存”为核心,F5的解决方案实现了算力、性能与成本的精妙平衡,为大模型推理的高效落地提供了关键的平台级支撑。

创新解决方案奖:F5智算中心大模型推理平台增效方案

  产品介绍:F5的BIG-IP Next for Kubernetes(BNK)方案,其技术来源于F5享誉全球多年的BIG-IP产品,与AI智算容器云中大模型推理框架与业务深度结合后,提供了显著的技术提效与创新价值。该方案的核心创新主要体现在以下三个层面:

        首先,基于Token的推理请求负载均衡实现算力智能调度。针对大模型推理中Token请求突发、算力需求波动大的特点,F5研发的实时模型服务能力指标反馈调度技术能够依据模型服务的Token的首次响应时间、单个容器服务的Token生成效率及系统整体延迟,动态感知后台算力的实时状态。这使得系统能实现高性能的动态算力调度,将推理请求精准分配至最合适的GPU节点,从而避免算力浪费。

        其次,集成的云原生高效多服务调度引擎实现语义缓存,推理安全优化。通过与开源推理服务以及NVIDIA Dynamo框架等的整合,BNK方案将缓存查询与写入机制,模型安全防护能力服务化,实现平台无关,模型无依赖,帮助大型模型推理避免重复计算,从而显著降低同语义重复推理等多方面效率、提升模型整体服务能力。这不仅加速了生成式AI应用的响应速度,也以更低的成本实现了性能优化。

        最后,提供可定制化的智能流量路由与调度。BNK方案具备先进的感知模型业务流量与管理能力,可根据查询的复杂度、领域特异性等维度,将请求智能路由至最合适的模型或节点。例如,简单任务可被分发至成本更低的轻量级模型,而复杂查询则路由至高阶模型处理。这种精细化调度不仅降低了整体延迟,加快了首个词元(Token)的生成时间,还提升了输出质量与用户体验。此外,方案可通过将部分计算任务卸载至DPU,进一步释放了CPU资源,整体提升了数据中心的能效比,在海外的一些案例中甚至实现了网络能效190倍的提升。

        综上所述,F5 BNK方案通过基于词元Token的算力调度、语义缓存等服务调度能力与智能流量路由三大核心技术,协同解决了智算云数据中心在大模型推理场景下面临的算力利用率低、响应延迟高、资源成本高昂等核心挑战,为AI基础设施的高效、稳定与低成本运营提供了创新的平台级支撑。

  获奖理由:F5 BNK方案通过创新的Token级动态调度、语义缓存服务化及智能路由三大技术,系统性解决了算力利用不均衡与重复计算等难题。它不仅显著提升了推理响应速度与资源效率,更通过精细化调度与DPU卸载,大幅降低了整体运营成本,为智算中心实现高性能、高性价比的AI服务规模化部署提供了关键路径。

0
相关文章