【需求】:监控flink 1.16.2 on hadoop 3.2.4的任务 【环境】:在linux服务器上已经部署hadoop,flink on yarn,prometheus 【操作】:部署pushgateway并启动,在flink-conf.yaml追加监控配置:

metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter

metrics.reporter.promgateway.host: hadoop1

metrics.reporter.promgateway.port: 9091

metrics.reporter.promgateway.jobName: flink-metrics

metrics.reporter.promgateway.randomJobNameSuffix: true

metrics.reporter.promgateway.deleteOnShutdown: false

metrics.reporter.promgateway.interval: 30 SECONDS

重新提交yarn-per-job任务,在yarn页面查看任务正常运行,然后在prometheus的graph页面上找不到flink字眼的监控指标(pushgateway页面显示正常但是为空白) ①prometheus的graph页面找flink字眼的指标

②pushgateway页面查看是空白

【报错信息】:没有报错信息,prometheus和pushgateway基本上没什么日志,flink这边任务正常运行,找不到flink metrics推送的相关日志,苦苦难以下手。

【解决方案】:灵机一动,看了一下flink官网,惊奇地发现flink 1.16.2的监控配置做了修改,然后就马不停蹄修正配置参数如下:

metrics.reporter.promgateway.factory.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporterFactory

metrics.reporter.promgateway.hostUrl: http://hadoop1:9091

metrics.reporter.promgateway.jobName: flink-metrics

metrics.reporter.promgateway.randomJobNameSuffix: true

metrics.reporter.promgateway.deleteOnShutdown: false

metrics.reporter.promgateway.interval: 30 SECONDS

然后查看旧一点版本的flink 1.12发现,metrics.reporter.promgateway.factory.class变了,host和port合并为hostUrl。最后需求实现贴图:

最终当然是在grafana实现可视化图表展示。

总结:多看官网

接收报错信息及解决方案邮箱:flinkxabc@yeah.net

报错库

参考阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: