Go 服务自动收集线上问题现场
admin
2024-02-27 21:36:30
0

这里填写标题

  • 1. Go 服务自动收集线上问题现场
    • 1.1. 前言
    • 1.2. 源码分析
    • 1.3. 一次线上实战
    • 1.4. 写在最后
    • 1.5. 项目地址

1. Go 服务自动收集线上问题现场

1.1. 前言

对于 pprof, 相信熟悉 Go 语言的程序员基本都不陌生, 一般线上的问题都是靠它可以快速定位。但是实际项目中, 很多时候我们为了性能都不会开启它, 但是出了问题又要靠它来分析。

好在 go-zero 已经帮我们很好的集成进来了, 我们只需要像开关一样去开启、关闭它即可, 这样我们就可以配合运维监控, 当出现 cpu、内存等异常情况时候, 自动开始开启收集(比如大半夜你睡的正香的时候), 那么第二天可以通过分析当时的采样还原现场, 那我们看看 go-zero 是如何做的。

1.2. 源码分析

我们可以看 go-zero 源码位置 https://github.com/zeromicro/go-zero/blob/master/core/proc/signals.go

func init() {go func() {...signals := make(chan os.Signal, 1)signal.Notify(signals, syscall.SIGUSR1, syscall.SIGUSR2, syscall.SIGTERM)for {v := <-signalsswitch v {...case syscall.SIGUSR2:if profiler == nil {profiler = StartProfile()} else {profiler.Stop()profiler = nil}...}}()
}

服务启动的时候, go-zero 在 init 初始化了监听信号操作(gracefulStop 也是通过这里通知的, 这里不展开讲了), 可以看到在接收到 syscall.SIGUSR2 信号时候, 如果是第一次就开始收集, 第二次就停止收集, 看到这块可能瞬间就明白了, 我们只需要在服务器执行 kill -usr2 <服务进程 id> 就可以开始收集这个服务的 pprof 信息了, 再执行一次就停止了收集, 就可以将这些文件导出到本地, 使用 go tool pprof 分析。

1.3. 一次线上实战

我们线上有一个 mq 的服务监控告警, 内存占用比较高, 这时候我打开 grafana 看到服务内存累计占用的确异常, 如下图:

这时候到线上找到这个服务的服务器, 执行了 ps aux | grep xxx_mq, 查询到了这个 mq 服务的进程 ID 是 21181, 我们这时候就可以给这个 xxx_mq 服务发送信号收集 pprof 信息: kill -usr2 21181

第一次执行了这个命令后, 在对应服务的 access.log 日志中可以看到 enable 了 pprof, 当我们再次执行 kill -usr2 21181, access.log 日志中可以看到 disable 了 pprof 信息, 这时候代表收集完成了。值得注意的是收集的信息都在 /tmp 文件夹下, 以这个服务名命名的如下:

  • xxxx-mq-cpu-xxx.pprof
  • xxxx-mq-memory-xxx.pprof
  • xxxx-mq-mutex-xxx.pprof
  • xxxx-mq-block-xxx.pprof

这时候就可以下载对应的 pprof 去本地分析, 可以使用 go tool pprof xxxx-mq-memory-xxx.pprof, 也可以配合 graphviz 使用 web ui 查看, 由于我这边通过命令行就快速定位了问题, 就没用使用 web ui。

我使用 go tool pprof xxxx-**-mq-memory-xxx.pprof 然后进入命令行交互, 使用 top 30 查看前面占用较高的资源。

前面基本是底层序列化等操作, 发现主要问题集中在红色框中导致持续上涨的内存, 因为业务同学在 mq 中消费完了消息又向下游其他的 mq 服务使用 publisher 发送一个 mq 消息, 每次发送都调用一个 NewPublisher 然后在 defer close, 恰恰这个 mq 服务又大量消息消费又特别频繁, 导致内存不断上涨, 最终解决方案将 NewPublishersvcCtx 中初始化一个 client 就可以了, 没必要每次都要 NewPublisher, 世界又恢复清净了。

1.4. 写在最后

想一下 go-zero 给了我们 pprof 开关, 让我们很方便的实现分析问题, 但是不是所有问题都是一直存在的, 比如半夜突发内存、cpu 过高, 早上起来服务正常了, 这怎么排查? 所以我们希望如果异常了, 能保留问题现场, 那我们是不是可以配合运维监控实现自动保存问题现场呢? 比如内存、cpu 连续超过 80% 指标 3 分钟的话, 我们就调用这个开关收集, 之后我们就可以根据这个文件来分析问题了, 这样就达到自动化了。

1.5. 项目地址

go-zero 微服务框架: https://github.com/zeromicro/go-zero

go-zero 微服务最佳实践项目: https://github.com/Mikaelemmmm/go-zero-looklook

相关内容

热门资讯

怎么解除订阅安卓系统,安卓系统... 你是不是也和我一样,手机里订阅了好多服务,结果现在想解除订阅,却一头雾水?别急,今天就来手把手教你如...
安卓系统停用怎么开启,轻松恢复... 亲爱的手机控们,你是否曾经遇到过安卓系统突然停用的情况,让你手忙脚乱,不知所措?别担心,今天就来教你...
安卓系统电池健康度,电池健康度... 你有没有发现,你的安卓手机最近是不是有点儿不给力了?电池续航能力大不如前,充电速度也慢了不少?别急,...
安卓系统按键怎么截图,安卓系统... 你是不是也和我一样,有时候想截个图分享给朋友,却发现安卓手机的截图功能有点神秘呢?别急,今天就来手把...
购票系统安卓源代码,架构设计与... 你有没有想过,那些我们每天离不开的购票系统,它们背后的秘密是什么呢?今天,就让我带你一探究竟,揭开购...
安卓手机系统后台测试,深度解析... 你有没有发现,你的安卓手机后台总是悄悄地忙碌着?别小看了这些后台程序,它们可是手机系统稳定运行的关键...
安卓系统重启的图标,解锁设备新... 手机突然重启,是不是心里有点慌?别急,今天就来和你聊聊安卓系统重启的图标,让你一眼就能认出它,再也不...
车载智慧屏安卓系统,智能出行新... 你有没有发现,现在的车载智慧屏越来越智能了?尤其是那些搭载了安卓系统的,简直就像是个移动的小电脑,不...
安卓系统连上网权限,解锁设备无... 你有没有发现,你的安卓手机里有些应用总是偷偷连上网?别小看这个小小的网络权限,它可是能影响你隐私、消...
安卓谷歌操作系统,探索安卓谷歌... 你知道吗?在智能手机的世界里,有一个操作系统可是无人不知、无人不晓,那就是安卓谷歌操作系统。它就像一...
安卓系统手写%怎样调出,具体实... 你有没有遇到过这种情况:在使用安卓手机的时候,突然想用手写输入法来记录一些灵感或者重要信息,可是怎么...
安卓手机重置 系统设置,轻松恢... 手机用久了是不是感觉卡顿得厉害?别急,今天就来教你怎么给安卓手机来个大变身——重置系统设置!想象你的...
win如何安装安卓系统,Win... 哇,你有没有想过,让你的Win系统也能玩转安卓应用?没错,就是那种在手机上轻松自如的安卓系统,现在也...
苹果qq和安卓系统,跨平台体验... 你有没有发现,现在手机市场上,苹果和安卓的较量可是越来越激烈了呢!咱们就来聊聊这个话题,看看苹果QQ...
显示最好的安卓系统,探索最新旗... 你有没有想过,为什么安卓系统那么受欢迎呢?它就像一个魔法盒子,里面装满了各种神奇的魔法。今天,就让我...
安卓app怎么降级系统,系统版... 你有没有发现,有时候安卓手机的系统更新后,新功能虽然炫酷,但老系统用起来更顺手呢?别急,今天就来教你...
雷军脱离安卓系统,引领科技变革... 你知道吗?最近科技圈可是炸开了锅,因为我们的雷军大大竟然宣布要脱离安卓系统,这可真是让人大跌眼镜啊!...
安卓系统自动开网络,安卓系统自... 你有没有发现,手机里的安卓系统有时候会自动开启网络连接,这可真是让人又爱又恨啊!有时候,你正专心致志...
安卓系统怎样控制后台,因为服务... 手机里的安卓系统是不是感觉越来越卡了?后台程序太多,不仅耗电还影响性能。别急,今天就来教你怎么巧妙地...
安卓系统打游戏推荐,一触即达! 你有没有发现,现在手机游戏越来越好玩了?不管是休闲小游戏还是大型MMORPG,都能在手机上畅玩。但是...