记一次 .NET 某安全生产信息系统 CPU爆高分析
创始人
2024-04-26 20:02:41
0

一:背景

1.讲故事

今天是🐏的第四天,头终于不巨疼了,写文章已经没什么问题,赶紧爬起来写。

这个月初有位朋友找到我,说他的程序出现了CPU爆高,让我帮忙看下怎么回事,简单分析了下有两点比较有意思。

  1. 这是一个安全生产的信息管理平台,第一次听说,我的格局小了。

  2. 这是一个经典的 CPU 爆高问题,过往虽有分析,但没有刨根问底,刚好这一篇就来问一下底吧。

话不多说,我们上 WinDbg 说话。

二:WinDbg 分析

1. 真的 CPU 爆高吗?

别人说爆高不算,我们得拿数据说话不是,验证命令就是 !tp


0:085> !tp
CPU utilization: 100%
Worker Thread: Total: 40 Running: 26 Idle: 6 MaxLimit: 32767 MinLimit: 8
Work Request in Queue: 0
--------------------------------------
Number of Timers: 0
--------------------------------------
Completion Port Thread:Total: 1 Free: 1 MaxFree: 16 CurrentLimit: 1 MaxLimit: 1000 MinLimit: 8

从卦中看果然是被打满了,接下来可以用 ~*e !clrstack 观察各个线程都在做什么,稍微一观察就会发现有很多的线程卡在 FindEntry() 方法上,截图如下:

从图中可以看到,有 25 个线程都停在 FindEntry() 之上,如果你的经验比较丰富的话,我相信你马上就知道这是多线程环境下使用了非线程安全集合 Dictionary 造成的死循环,把 CPU 直接打爆。

按以往套路到这里就结束了,今天我们一定要刨到底。

2. 为什么会出现死循环

要知道死循环的成因,那就一定要从 FindEntry 上入手。


private int FindEntry(TKey key)
{if (key == null){ThrowHelper.ThrowArgumentNullException(ExceptionArgument.key);}if (buckets != null){int num = comparer.GetHashCode(key) & 0x7FFFFFFF;for (int num2 = buckets[num % buckets.Length]; num2 >= 0; num2 = entries[num2].next){if (entries[num2].hashCode == num && comparer.Equals(entries[num2].key, key)){return num2;}}}return -1;
}

仔细观察上面的代码,如果真有死循环肯定是在 for 中出不来,如果是真的出在 for 上,那问题自然在 next 指针上。

关于 Dictionary 的内部布局和解析 可以参见我的 高级调试训练营,这里我们就不细说了。

那是不是出在 next 指针上呢? 我们来剖析下方法上下文。

3. 观察 next 指针布局

为了方便观察,先切到 85 号线程。


0:085> ~85s
mscorlib_ni!System.Collections.Generic.Dictionary.FindEntry+0x8f:
00007ff8`5f128ccf 488b4e10        mov     rcx,qword ptr [rsi+10h] ds:0000017f`39c07d00=0000017eb9ee00c0
0:085> !clrstack
OS Thread Id: 0x4124 (85)Child SP               IP Call Site
0000007354ebcc70 00007ff85f128ccf System.Collections.Generic.Dictionary`2[[System.__Canon, mscorlib],[System.__Canon, mscorlib]].FindEntry(System.__Canon) [f:\dd\ndp\clr\src\BCL\system\collections\generic\dictionary.cs @ 305]

接下来把 Dictionary 中的 Entry[] 中的 next 给展示出来,可以用 !mdso 命令。


0:085> !mdso
Thread 85:
Location          Object            Type
------------------------------------------------------------
RCX:              0000017eb9ee00c0  System.Collections.Generic.Dictionary`2+Entry[[System.String, mscorlib],[xx]][]
RSI:              0000017f39c07cf0  System.Collections.Generic.Dictionary`2[[System.String, mscorlib],[xxx.xxx]]0:085> !mdt -e:2 0000017eb9ee00c0
0000017eb9ee00c0 (System.Collections.Generic.Dictionary`2+Entry[[System.String, mscorlib],[xxx.xxx]][], Elements: 3, ElementMT=00007ff816cedc18)
[0] (System.Collections.Generic.Dictionary`2+Entry[[System.String, mscorlib],[F2.xxx]]) VALTYPE (MT=00007ff816cedc18, ADDR=0000017eb9ee00d0)hashCode:0x0 (System.Int32)next:0x0 (System.Int32)key:NULL (System.__Canon)value:NULL (System.__Canon)
[1] (System.Collections.Generic.Dictionary`2+Entry[[System.String, mscorlib],[F2.xxx]]) VALTYPE (MT=00007ff816cedc18, ADDR=0000017eb9ee00e8)hashCode:0x5aba4760 (System.Int32)next:0xffffffff (System.Int32)key:0000017f39c0ab50 (System.String) Length=20, String="xxxMessage_Select"value:0000017f39c0b5d0 (xxx.xxx.ORM.SqlEntity)
[2] (System.Collections.Generic.Dictionary`2+Entry[[System.String, mscorlib],[F2.xxx]]) VALTYPE (MT=00007ff816cedc18, ADDR=0000017eb9ee0100)hashCode:0x65b6e27b (System.Int32)next:0x1 (System.Int32)key:0000017f39c09d58 (System.String) Length=20, String="xxxMessage_Insert"value:0000017f39c0ba50 (xxx.xxx.ORM.SqlEntity)

从卦中看也蛮奇葩的,只有三个元素的 Dictionary 还能死循环。。。如果你仔细观察会发现 [0] 项是一种有损状态,value 没值不说, next:0x0 可是有大问题的,它会永远指向自己,因为 next 是指向 hash 挂链中的下一个节点的数组下标,画个图大概是这样。

接下来我们验证下是不是入口参数不幸进入了 [0] 号坑,然后在这个坑中永远指向自己呢?要想寻找答案,只需要在 FindEntry 的汇编代码中找到 int num = comparer.GetHashCode(key) & 0x7FFFFFFF; 中的 num 值,看它是不是 0 即可。


0:085> !U /d 00007ff85f128ccf
preJIT generated code
System.Collections.Generic.Dictionary`2[[System.__Canon, mscorlib],[System.__Canon, mscorlib]].FindEntry(System.__Canon)
Begin 00007ff85f128c40, size 130. Cold region begin 00007ff85ff07ff0, size 11
...
f:\dd\ndp\clr\src\BCL\system\collections\generic\dictionary.cs @ 303:
00007ff8`5f128c6f 488b5e18        mov     rbx,qword ptr [rsi+18h]
00007ff8`5f128c73 488b0e          mov     rcx,qword ptr [rsi]
00007ff8`5f128c76 488b5130        mov     rdx,qword ptr [rcx+30h]
00007ff8`5f128c7a 488b2a          mov     rbp,qword ptr [rdx]
00007ff8`5f128c7d 4c8b5d18        mov     r11,qword ptr [rbp+18h]
00007ff8`5f128c81 4d85db          test    r11,r11
00007ff8`5f128c84 750f            jne     mscorlib_ni!System.Collections.Generic.Dictionary.FindEntry+0x55 (00007ff8`5f128c95)
00007ff8`5f128c86 488d154d2f1800  lea     rdx,[mscorlib_ni+0x68bbda (00007ff8`5f2abbda)]
00007ff8`5f128c8d e8ce44f3ff      call    mscorlib_ni+0x43d160 (00007ff8`5f05d160) (mscorlib_ni)
00007ff8`5f128c92 4c8bd8          mov     r11,rax
00007ff8`5f128c95 488bcb          mov     rcx,rbx
00007ff8`5f128c98 488bd7          mov     rdx,rdi
00007ff8`5f128c9b 3909            cmp     dword ptr [rcx],ecx
00007ff8`5f128c9d 41ff13          call    qword ptr [r11]
00007ff8`5f128ca0 8bd8            mov     ebx,eax
00007ff8`5f128ca2 81e3ffffff7f    and     ebx,7FFFFFFFh
...0:085> ? ebx
Evaluate expression: 957083499 = 00000000`390bef6b0:085> ? 0n957083499 % 0n3
Evaluate expression: 0 = 00000000`00000000

从汇编代码中分析得出,num 是放在 ebx 寄存器上,此时 num=957083499,再 %3 之后就是 0 号坑,大家再结合源代码,你会发现这里永远都不会退出,永远都是指向自己,自然就是死循环了。

3. .NET6 下的补充

前段时间在整理课件时发现在 .NET6 中不再傻傻的死循环,而是在尝试 entries.Length 次之后还得不到结束的话,强制抛出异常,代码如下:


internal ref TValue FindValue(TKey key)
{uint hashCode2 = (uint)comparer.GetHashCode(key);int bucket2 = GetBucket(hashCode2);Entry[] entries2 = _entries;uint num2 = 0u;bucket2--;while ((uint)bucket2 < (uint)entries2.Length){reference = ref entries2[bucket2];if (reference.hashCode != hashCode2 || !comparer.Equals(reference.key, key)){bucket2 = reference.next;num2++;if (num2 <= (uint)entries2.Length){continue;}goto IL_0171;}goto IL_0176;}return ref Unsafe.NullRef();
IL_0176:return ref reference.value;
IL_0171:ThrowHelper.ThrowInvalidOperationException_ConcurrentOperationsNotSupported();goto IL_0176;
}

可能是 .NET团队 被这样的问题咨询烦了,干脆抛一个异常得了。。。

三: 总结

多线程环境下使用线程不安全集合,问题虽然很小白,但还是有很多朋友栽在这上面,值得反思哈,借这一次机会进一步解释下死循环形成的内部机理。

相关内容

热门资讯

安卓系统自带的网页,功能与特色... 你有没有发现,每次打开安卓手机,那熟悉的系统界面里总有一个默默无闻的小家伙——安卓系统自带的网页浏览...
美咖云系统安卓版,开启智能生活... 你有没有发现,最近手机上多了一个叫“美咖云系统安卓版”的小家伙?它就像一个魔法师,轻轻一点,就能让你...
安卓系统推荐最好的手机,盘点性... 你有没有想过,拥有一部性能卓越的手机,就像是拥有了移动的宝藏库?在这个信息爆炸的时代,一部好手机不仅...
安卓11系统能精简吗,释放潜能 你有没有发现,随着手机越来越智能,系统也越来越庞大?安卓11系统,这个最新的操作系统,是不是也让你觉...
安卓自动重启系统软件,揭秘原因... 手机突然自动重启,是不是感觉整个人都不好了?别急,今天就来和你聊聊这个让人头疼的安卓自动重启系统软件...
苹果手机x刷安卓系统,探索安卓... 你有没有想过,你的苹果手机X竟然也能刷上安卓系统?是的,你没听错,就是那个一直以来都和我们苹果手机X...
安卓系统智商低吗,智商低下的真... 你有没有想过,为什么安卓系统的智商总被调侃得好像有点低呢?是不是觉得它总是慢吞吞的,有时候还犯点小错...
安卓系统手机联系人,揭秘你的社... 你有没有发现,手机里的联系人列表就像是一个小小的社交圈呢?里面藏着我们的亲朋好友、工作伙伴,甚至还有...
安卓系统免费铃声下载,打造个性... 手机里那首老掉牙的铃声是不是让你觉得有点out了呢?别急,今天就来给你支个招,让你轻松给安卓手机换上...
安卓系统用哪个桌面好,打造个性... 你有没有发现,手机桌面可是我们每天都要面对的“脸面”呢?换一个好看的桌面,心情都能跟着好起来。那么,...
虚拟大师是安卓10系统,功能与... 你知道吗?最近在手机圈里,有个新玩意儿引起了不小的轰动,那就是虚拟大师!而且,更让人惊喜的是,这个虚...
安卓系统与苹果优缺点,系统优缺... 说到手机操作系统,安卓和苹果绝对是两大巨头,它们各有各的特色,就像两道不同的美味佳肴,让人难以抉择。...
安卓win双系统主板,融合与创... 你有没有想过,一台电脑如果既能流畅运行安卓系统,又能轻松驾驭Windows系统,那该有多爽啊?没错,...
安卓系统可精简软件,轻松提升手... 你有没有发现,手机里的安卓系统越来越庞大,软件也越装越多,有时候感觉手机就像个“大肚子”,不仅运行速...
安卓系统基于linux的代码,... 你有没有想过,那个陪伴你每天刷抖音、玩游戏、办公的安卓系统,其实背后有着一套复杂的基于Linux的代...
苹果和安卓的拍照系统,谁更胜一... 你有没有发现,现在手机拍照已经成为我们生活中不可或缺的一部分呢?无论是记录生活的点滴,还是捕捉美丽的...
苹果和安卓系统不同吗,系统差异... 你有没有想过,为什么你的手机里装的是苹果的iOS系统,而朋友的手机却是安卓系统呢?这两种系统,看似都...
安卓系统有多少级,揭秘其多级架... 你有没有想过,那个陪伴我们日常生活的安卓系统,它其实有着丰富的层级结构呢?没错,就是那个让我们的手机...
华为鸿蒙系统与安卓的,技术融合... 你知道吗?最近科技圈可是炸开了锅,华为鸿蒙系统与安卓的较量成为了大家热议的话题。这不,今天我就来给你...
什么安卓手机是苹果系统,搭载苹... 你有没有想过,为什么有些人宁愿花大价钱买苹果手机,而有些人却对安卓手机情有独钟呢?其实,这个问题背后...