Go 服务自动收集线上问题现场
admin
2024-02-27 21:36:30
0

这里填写标题

  • 1. Go 服务自动收集线上问题现场
    • 1.1. 前言
    • 1.2. 源码分析
    • 1.3. 一次线上实战
    • 1.4. 写在最后
    • 1.5. 项目地址

1. Go 服务自动收集线上问题现场

1.1. 前言

对于 pprof, 相信熟悉 Go 语言的程序员基本都不陌生, 一般线上的问题都是靠它可以快速定位。但是实际项目中, 很多时候我们为了性能都不会开启它, 但是出了问题又要靠它来分析。

好在 go-zero 已经帮我们很好的集成进来了, 我们只需要像开关一样去开启、关闭它即可, 这样我们就可以配合运维监控, 当出现 cpu、内存等异常情况时候, 自动开始开启收集(比如大半夜你睡的正香的时候), 那么第二天可以通过分析当时的采样还原现场, 那我们看看 go-zero 是如何做的。

1.2. 源码分析

我们可以看 go-zero 源码位置 https://github.com/zeromicro/go-zero/blob/master/core/proc/signals.go

func init() {go func() {...signals := make(chan os.Signal, 1)signal.Notify(signals, syscall.SIGUSR1, syscall.SIGUSR2, syscall.SIGTERM)for {v := <-signalsswitch v {...case syscall.SIGUSR2:if profiler == nil {profiler = StartProfile()} else {profiler.Stop()profiler = nil}...}}()
}

服务启动的时候, go-zero 在 init 初始化了监听信号操作(gracefulStop 也是通过这里通知的, 这里不展开讲了), 可以看到在接收到 syscall.SIGUSR2 信号时候, 如果是第一次就开始收集, 第二次就停止收集, 看到这块可能瞬间就明白了, 我们只需要在服务器执行 kill -usr2 <服务进程 id> 就可以开始收集这个服务的 pprof 信息了, 再执行一次就停止了收集, 就可以将这些文件导出到本地, 使用 go tool pprof 分析。

1.3. 一次线上实战

我们线上有一个 mq 的服务监控告警, 内存占用比较高, 这时候我打开 grafana 看到服务内存累计占用的确异常, 如下图:

这时候到线上找到这个服务的服务器, 执行了 ps aux | grep xxx_mq, 查询到了这个 mq 服务的进程 ID 是 21181, 我们这时候就可以给这个 xxx_mq 服务发送信号收集 pprof 信息: kill -usr2 21181

第一次执行了这个命令后, 在对应服务的 access.log 日志中可以看到 enable 了 pprof, 当我们再次执行 kill -usr2 21181, access.log 日志中可以看到 disable 了 pprof 信息, 这时候代表收集完成了。值得注意的是收集的信息都在 /tmp 文件夹下, 以这个服务名命名的如下:

  • xxxx-mq-cpu-xxx.pprof
  • xxxx-mq-memory-xxx.pprof
  • xxxx-mq-mutex-xxx.pprof
  • xxxx-mq-block-xxx.pprof

这时候就可以下载对应的 pprof 去本地分析, 可以使用 go tool pprof xxxx-mq-memory-xxx.pprof, 也可以配合 graphviz 使用 web ui 查看, 由于我这边通过命令行就快速定位了问题, 就没用使用 web ui。

我使用 go tool pprof xxxx-**-mq-memory-xxx.pprof 然后进入命令行交互, 使用 top 30 查看前面占用较高的资源。

前面基本是底层序列化等操作, 发现主要问题集中在红色框中导致持续上涨的内存, 因为业务同学在 mq 中消费完了消息又向下游其他的 mq 服务使用 publisher 发送一个 mq 消息, 每次发送都调用一个 NewPublisher 然后在 defer close, 恰恰这个 mq 服务又大量消息消费又特别频繁, 导致内存不断上涨, 最终解决方案将 NewPublishersvcCtx 中初始化一个 client 就可以了, 没必要每次都要 NewPublisher, 世界又恢复清净了。

1.4. 写在最后

想一下 go-zero 给了我们 pprof 开关, 让我们很方便的实现分析问题, 但是不是所有问题都是一直存在的, 比如半夜突发内存、cpu 过高, 早上起来服务正常了, 这怎么排查? 所以我们希望如果异常了, 能保留问题现场, 那我们是不是可以配合运维监控实现自动保存问题现场呢? 比如内存、cpu 连续超过 80% 指标 3 分钟的话, 我们就调用这个开关收集, 之后我们就可以根据这个文件来分析问题了, 这样就达到自动化了。

1.5. 项目地址

go-zero 微服务框架: https://github.com/zeromicro/go-zero

go-zero 微服务最佳实践项目: https://github.com/Mikaelemmmm/go-zero-looklook

相关内容

热门资讯

安卓系统账号怎么改,轻松实现账... 你是不是也和我一样,在使用安卓手机的时候,突然觉得账号名字太老土了,想要来个焕然一新的改变呢?别急,...
离线语音系统安卓版下载,随时随... 你有没有想过,在手机上也能实现语音助手的功能,而且完全不需要联网?没错,就是那种离线语音系统,听起来...
华为os系统是基于安卓系统吗,... 你有没有想过,华为的手机里那个神秘的OS系统,它是不是就是安卓系统呢?别急,今天就来揭开这个谜底,让...
各品牌安卓系统多大,探索各大品... 你有没有想过,那些我们每天离不开的安卓手机,它们背后的系统到底有多大呢?这可不是一个小问题哦,因为系...
不是安卓系统电视机,探索非安卓... 你有没有想过,家里的电视是不是安卓系统呢?现在市面上,安卓系统电视机可是越来越流行了。但是,你知道吗...
谷歌安卓系统开源免费用,免费体... 你知道吗?在科技的世界里,有时候最让人惊喜的就是那些免费又好用的东西。今天,就让我来给你揭秘一个超级...
安卓电脑版怎么装系统,轻松实现... 你有没有想过,你的安卓电脑版突然间卡得像蜗牛一样,慢得让人抓狂?别急,今天就来教你怎么给它来个焕然一...
安卓系统有几种语音,揭秘多样化... 你知道吗?安卓系统里的语音功能可真是让人爱不释手呢!想象你只需要动动嘴,就能完成各种操作,是不是觉得...
扫码系统推荐安卓游戏,畅享指尖... 你有没有发现,最近手机里的游戏推荐越来越贴心了?没错,就是那个神奇的扫码系统!今天,就让我带你一探究...
手机系统安卓做的最好,探索最佳... 你有没有发现,现在手机市场上,安卓系统简直是要风得风,要雨得雨,简直是手机系统中的佼佼者!不信?那就...
安卓系统越拉越难用,越拉越难用... 你有没有发现,最近安卓系统越来越难用了?是不是每次打开手机,都感觉卡得要命,各种广告弹窗让人头疼不已...
卓安系统创始人,引领科技浪潮的... 你有没有想过,在这个信息爆炸的时代,谁才是那个站在风口浪尖,引领科技潮流的先锋?今天,我要带你认识一...
安卓10系统经常断网,安卓10... 最近是不是你也遇到了安卓10系统经常断网的问题?这可真是让人头疼啊!手机断网,就像失去了方向感的指南...
开发安卓系统用什么,从工具到实... 你有没有想过,为什么你的手机里装了那么多应用,却还是觉得不够用呢?其实,这一切都离不开一个强大的操作...
安卓系统如何双开抖音,安卓系统... 如何在安卓系统上双开抖音:让你的娱乐生活更加丰富多彩在数字化时代,手机已经成为我们生活中不可或缺的一...
安卓8.0系统内测地址,探索系... 你有没有听说最近安卓8.0系统内测的消息?这可是科技圈的大事啊!作为一个紧跟潮流的数码爱好者,我可是...
安卓系统可以账号同步吗,安卓系... 你有没有想过,你的安卓手机里的各种账户信息,比如微信、QQ、支付宝,能不能像变魔术一样,一键同步到另...
安卓系统的平板怎么下载,畅享应... 你有没有想过,拥有一款安卓系统的平板电脑,那感觉简直就像拥有了整个世界?想象随时随地都能畅游网络海洋...
win平板上装安卓系统咋样,开... 亲爱的读者们,你是否曾想过在Windows平板上体验安卓系统的魅力?想象那双熟悉的Windows界面...
给安卓车机写系统,安卓车机系统... 你有没有想过,你的安卓车机系统其实可以焕然一新?想象当你驾驶着爱车,车机界面流畅得像丝滑的巧克力,功...