1. PA视讯PlayAce

      当前位置 > PA视讯PlayAce > 服务 > 服务器 > KunTai A924 服务器NPU掉卡问题分析

      KunTai A924 服务器NPU掉卡问题分析

      发布时间:2025-12-29

      一、现网描述

      1.1 环境描述

      设备型号:KunTai A924

      BMC版本:3.10.02.49

      BIOS版本:7.09

      CPLD版本:0.13

       

      二、故障描述

      2.1故障现象

      1台 KunTai A924 服务器系统下lspci只能显示7张卡,查看id为41:00.0的NPU卡掉卡

       

      三、问题分析

      3.1排查思路

      Current_event日志显示2025-10-20 Monday 23:17:16  NPU Board7 NPU 断连;

      0x81a3880c与0x819b8605均为链路质量告警,建议检查NPU网口连接情况

      b5a35aa278505600bc5aa03a05919f3b.png

      RAID卡以及硬盘状态正常

      c8b4aa81c39d28a7f3239e31fc7c4585.png

      e9d6eda7aa24340bb0b4e0ceba096575.png

      Npu_info显示NPU7功率过高

      2f3e7ee4ab21cc9d8273c77fe031a04d.png

      Sensor日志中无法获取npu7的温度

      7d7daa3eb32143b81a0e7f221db007e3.png

      Lspci查看系统侧41:00.0不识别

      dee85416b3a154819ce6a54b8f457f06.png

      npu-smi info信息中,NPU7识别不到

      b1cfac6d18f9d02fb1972a4aae62cafb.jpg

       

      3.2原因分析

      服务器OS执行 lspci | grep acc 命令, 查询到的pcie建链条数低于NPU 芯片个数,表明服务器启动NPU和CPU的建链失败

       

      四、问题解决

      4.1解决办法

      建议将NPU7交叉验证,检查NPU PCIE物理链路

      尝试交叉NPU卡/模组 观察故障是跟随NPU;

      是 => NPU模组故障,更换NPU卡/模组;

      否 => 更换NPU链路观察是否恢复。

       

      400-810-9119
      7×24 小时全天候专业支持,覆盖计算产品问题受理、售后故障排查等全场景需求,极速响应并高效解决问题,为您的业务稳定运行给予坚实保障。
      专业解答计算产品售后技术问题与产品资料传递,支持维保、巡检等服务信息精准查询,高效响应您的需求。
      官方微信
      • PA视讯PlayAce

      微信搜索【PA视讯PlayAce】公众号,点击对话窗口发送信息,和PA视讯PlayAce进行沟通,解决您随时想到的任何咨询。