背景与挑战
在此背景下,基于 RoCEv2 的智算技术应运而生。它通过在以太网上实现 RDMA 技术,成功绕过操作系统内核协议栈,极大降低了 CPU 开销和传输延迟,成为构建高性能数据中心网络的基石。
RoCEv2 的高性能高度依赖于无损网络环境,其部署与运维面临着严峻的测试挑战。
对网络丢包和时延极度敏感
复杂的集合通信算法与配置
跨节点、大规模组网
故障定位与性能调优困难
组网与特点
万里眼智算测试解决方案由 400G 测试板卡组成(每个端口支持 200/100G 散列),运行在数字网络测试仪 X 系列机框之上,整机框可提供 96 个 400G 端口,支持高达 38.4 Tb 吞吐 。
被测交换机设备通常由 Spine 交换机和 Leaf 交换机两层架构组成,万里眼智算测试仪与 Leaf 交换机连接,模拟 XPU 的流量行为,对各种集合通信算法行为进行仿真,来测试设备的负载分担与冲突解决能力,同时也可为集合通信算法开发提供验证环境。
多种测量算法
覆盖多达 32 种集合通信算法算子,满足不同用户不同算法算子组合的测试诉求 。
流量控制
流量控制功能丰富,支持 PFC、DCQCN、报文重传等。
高性能采样
具备高性能采样功能,1us 的精度和 10 万级的采样点,可满足用户对测量指标进行更细粒度的观测。
千卡级模拟性能
性能强大,具备千卡级集群业务仿真模拟能力,业界领先。
总结
当前数通网络正面临前所未有的复杂性和性能挑战。为助力客户应对 AI 计算带来的测试需求,我们推出的智算测试解决方案已在多个实际应用中取得显著成效,并持续引领行业创新,为客户带来真正价值。
我们将持续跟踪智算技术发展方向,提供智算千卡、万卡测试能力,深度融合数字孪生技术,帮助客户构建高保真智算网络仿真环境,实现虚拟空间中完成超大规模组网验证和故障推演。
为客户带来真正价值
缩短上市时间
紧跟智算技术发展,率先提供测试解决方案,缩短智算产品上市时间。
集群测试能力
千卡集群测试能力,对智算网络进行远超现网的极限压力测试。
更高速率演进
测试平台支持向更高速率演进,适应智算领域速率的快速迭代,保护客户的核心测试资产投资。