Go 服务自动收集线上问题现场
admin
2024-02-27 21:36:30
0

这里填写标题

  • 1. Go 服务自动收集线上问题现场
    • 1.1. 前言
    • 1.2. 源码分析
    • 1.3. 一次线上实战
    • 1.4. 写在最后
    • 1.5. 项目地址

1. Go 服务自动收集线上问题现场

1.1. 前言

对于 pprof, 相信熟悉 Go 语言的程序员基本都不陌生, 一般线上的问题都是靠它可以快速定位。但是实际项目中, 很多时候我们为了性能都不会开启它, 但是出了问题又要靠它来分析。

好在 go-zero 已经帮我们很好的集成进来了, 我们只需要像开关一样去开启、关闭它即可, 这样我们就可以配合运维监控, 当出现 cpu、内存等异常情况时候, 自动开始开启收集(比如大半夜你睡的正香的时候), 那么第二天可以通过分析当时的采样还原现场, 那我们看看 go-zero 是如何做的。

1.2. 源码分析

我们可以看 go-zero 源码位置 https://github.com/zeromicro/go-zero/blob/master/core/proc/signals.go

func init() {go func() {...signals := make(chan os.Signal, 1)signal.Notify(signals, syscall.SIGUSR1, syscall.SIGUSR2, syscall.SIGTERM)for {v := <-signalsswitch v {...case syscall.SIGUSR2:if profiler == nil {profiler = StartProfile()} else {profiler.Stop()profiler = nil}...}}()
}

服务启动的时候, go-zero 在 init 初始化了监听信号操作(gracefulStop 也是通过这里通知的, 这里不展开讲了), 可以看到在接收到 syscall.SIGUSR2 信号时候, 如果是第一次就开始收集, 第二次就停止收集, 看到这块可能瞬间就明白了, 我们只需要在服务器执行 kill -usr2 <服务进程 id> 就可以开始收集这个服务的 pprof 信息了, 再执行一次就停止了收集, 就可以将这些文件导出到本地, 使用 go tool pprof 分析。

1.3. 一次线上实战

我们线上有一个 mq 的服务监控告警, 内存占用比较高, 这时候我打开 grafana 看到服务内存累计占用的确异常, 如下图:

这时候到线上找到这个服务的服务器, 执行了 ps aux | grep xxx_mq, 查询到了这个 mq 服务的进程 ID 是 21181, 我们这时候就可以给这个 xxx_mq 服务发送信号收集 pprof 信息: kill -usr2 21181

第一次执行了这个命令后, 在对应服务的 access.log 日志中可以看到 enable 了 pprof, 当我们再次执行 kill -usr2 21181, access.log 日志中可以看到 disable 了 pprof 信息, 这时候代表收集完成了。值得注意的是收集的信息都在 /tmp 文件夹下, 以这个服务名命名的如下:

  • xxxx-mq-cpu-xxx.pprof
  • xxxx-mq-memory-xxx.pprof
  • xxxx-mq-mutex-xxx.pprof
  • xxxx-mq-block-xxx.pprof

这时候就可以下载对应的 pprof 去本地分析, 可以使用 go tool pprof xxxx-mq-memory-xxx.pprof, 也可以配合 graphviz 使用 web ui 查看, 由于我这边通过命令行就快速定位了问题, 就没用使用 web ui。

我使用 go tool pprof xxxx-**-mq-memory-xxx.pprof 然后进入命令行交互, 使用 top 30 查看前面占用较高的资源。

前面基本是底层序列化等操作, 发现主要问题集中在红色框中导致持续上涨的内存, 因为业务同学在 mq 中消费完了消息又向下游其他的 mq 服务使用 publisher 发送一个 mq 消息, 每次发送都调用一个 NewPublisher 然后在 defer close, 恰恰这个 mq 服务又大量消息消费又特别频繁, 导致内存不断上涨, 最终解决方案将 NewPublishersvcCtx 中初始化一个 client 就可以了, 没必要每次都要 NewPublisher, 世界又恢复清净了。

1.4. 写在最后

想一下 go-zero 给了我们 pprof 开关, 让我们很方便的实现分析问题, 但是不是所有问题都是一直存在的, 比如半夜突发内存、cpu 过高, 早上起来服务正常了, 这怎么排查? 所以我们希望如果异常了, 能保留问题现场, 那我们是不是可以配合运维监控实现自动保存问题现场呢? 比如内存、cpu 连续超过 80% 指标 3 分钟的话, 我们就调用这个开关收集, 之后我们就可以根据这个文件来分析问题了, 这样就达到自动化了。

1.5. 项目地址

go-zero 微服务框架: https://github.com/zeromicro/go-zero

go-zero 微服务最佳实践项目: https://github.com/Mikaelemmmm/go-zero-looklook

相关内容

热门资讯

【MySQL】锁 锁 文章目录锁全局锁表级锁表锁元数据锁(MDL)意向锁AUTO-INC锁...
【内网安全】 隧道搭建穿透上线... 文章目录内网穿透-Ngrok-入门-上线1、服务端配置:2、客户端连接服务端ÿ...
GCN的几种模型复现笔记 引言 本篇笔记紧接上文,主要是上一篇看写了快2w字,再去接入代码感觉有点...
数据分页展示逻辑 import java.util.Arrays;import java.util.List;impo...
Redis为什么选择单线程?R... 目录专栏导读一、Redis版本迭代二、Redis4.0之前为什么一直采用单线程?三、R...
【已解决】ERROR: Cou... 正确指令: pip install pyyaml
关于测试,我发现了哪些新大陆 关于测试 平常也只是听说过一些关于测试的术语,但并没有使用过测试工具。偶然看到编程老师...
Lock 接口解读 前置知识点Synchronized synchronized 是 Java 中的关键字,...
Win7 专业版安装中文包、汉... 参考资料:http://www.metsky.com/archives/350.htm...
3 ROS1通讯编程提高(1) 3 ROS1通讯编程提高3.1 使用VS Code编译ROS13.1.1 VS Code的安装和配置...
大模型未来趋势 大模型是人工智能领域的重要发展趋势之一,未来有着广阔的应用前景和发展空间。以下是大模型未来的趋势和展...
python实战应用讲解-【n... 目录 如何在Python中计算残余的平方和 方法1:使用其Base公式 方法2:使用statsmod...
学习u-boot 需要了解的m... 一、常用函数 1. origin 函数 origin 函数的返回值就是变量来源。使用格式如下...
常用python爬虫库介绍与简... 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库&...
药品批准文号查询|药融云-中国... 药品批文是国家食品药品监督管理局(NMPA)对药品的审评和批准的证明文件...
【2023-03-22】SRS... 【2023-03-22】SRS推流搭配FFmpeg实现目标检测 说明: 外侧测试使用SRS播放器测...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
初级算法-哈希表 主要记录算法和数据结构学习笔记,新的一年更上一层楼! 初级算法-哈希表...
进程间通信【Linux】 1. 进程间通信 1.1 什么是进程间通信 在 Linux 系统中,进程间通信...
【Docker】P3 Dock... Docker数据卷、宿主机与挂载数据卷的概念及作用挂载宿主机配置数据卷挂载操作示例一个容器挂载多个目...