prometheus +alertmanger+Grafana (Email :QQ+阿里云企业邮箱) 配置篇监控linux+windows系统|电子爱好者

admin管理员组
文章数量:1601612

环境要求:
根据环境下载对应环境的:prometheus包
根据环境下载对应prometheus Service 端环境的 alertmanger
Grafana图形工具
常用的exporter Linux环境: node_exporter Windows环境: windows_exporter 下载链接

端口

工具	端口号
prometheus	9090
Grafan	3000
windows_exporter	9182
Node_exporter	9100
postgres_exporter	9187
Stmp(邮箱)	25 QQ邮箱 ,465 阿里邮箱

1.先上 prometheus的架构图吧

参考链接 :prometheus架构原理

理解了 prometheus的架构原理后我们开始搭建系统吧

下载完 prometheus的包后点击 prometheus.exe 文件 ,访问http://localhost/:9090 prometheus 配置好了

现在我们 prometheus 上没有配置任何的监控目标 ,下面我们配置二个监控目标

环境	IP	监控身份
Linux	192.36.168.1	被监控的客户端
Windows	192.36.168.2	被监控的客户端
Windows	192.36.168.3	prometheus Service端

3.我们在不同的客户端上,下载对应不同环境系统的exporter导出器
例如 Linux 环境下:

ubuntu@ip-192.36.168.1:~$ wget https://github.com/prometheus/node_exporter/releases/download/v1.0.1/node_exporter-1.0.1.linux-amd64.tar.gz  --下载压缩包
ubuntu@ip-192.36.168.1:~$ tar xvfz node_exporter-*.*-amd64.tar.gz  --解压压缩包
--配置 linux 服务启动的时候 启动 node_exporter
ubuntu@ip-192.36.168.1:~$ cd /etc/systemd/system/ --到系统目录下 创建 server配置文件
ubuntu@ip-192.36.168.1:~$ sudo vi node_exporter.service
--填入以下内容
[Service]
User=root
ExecStart = /usr/local/bin/node_exporter/node_exporter

[Install]
WantedBy=multi-user.target

[Unit]
Description=node_exporter
After=network.target
ubuntu@ip-10-0-1-4:~$ sudo systemctl start node_exporter  --启动node_exporter服务 配置成功

windows 环境下点击下载的包即可启动成功

配置完监控客户端后, 配置prometheus Service 服务端 prometheus.yml文件获取客户端监控的指标数据 (此处配置的是prometheus 服务发现模式 )

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
        - localhost:9093
      # - localhost:9093

# Load rules once and periodically evaluate them according to the global  'evaluation_interval'.  
--告警规则文件
rule_files:
  - "node-up.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.
     
    static_configs:
    - targets: ['localhost:9090']
   # 在这里 添加一个监控 任务 去实时的 加载 配置文件里面的 targets 监控目标    以下 内容
  - job_name: 'dynami_service'
    file_sd_configs:
    - files: ['D:\监控系统\prometheus-2.21.0-rc.0.windows-amd64\conf\exporter.yml'] 
    # 监测 频率 
      refresh_interval: 10s

监控客户端目标的 exporter.yml 配置文件

- targets: ['192.36.168.2:9182']
  labels:  --labels 下的标签都是 自定义标签
    app:    '本机 windows(1)'  
    env:   'windows Service'
    # region: 'us-west-2'
- targets: ['192.36.168.1:9100']
  labels:
    app:    'example-linux'
    env:   'Linux'
    # region: 'ap-southeast-1'

exporter.json 格式

[
  {
    "targets": [
      "monitor.gimyingao:9100"
    ],
    "labels": {
      "app":"ubuntu@52.83.68.66-Linux",
      "hostname": "test1",
      "env":"Linux_Service"
    }
  },
  {
    "targets": [
      "52.82.5.91:9187"
    ],
    "labels": {
      "hostname": "test2",
      "app":"ubuntu@52.82.5.91-pgsql",
      "env":"pgsql_Service"
    }
  },
  {
    "targets": [
     "monitor.gimyingao:9121"
    ],
    "labels":{
     "app":"redis_exporter-Linux",
     "hostname":"test3",
     "env":"redis"
    }
  },
  {
    "targets":[
     "173.0.1.98:9100"
    ],
    "labels":{
     "app":"@ubuntu-173.0.1.98-Linux",
     "hostname":"test4",
     "env":"Linux-sercice-app1-server"
    }
  },
   {
    "targets":[
     "173.0.1.83:9100"
    ],
    "labels":{
     "app":"@ubuntu-173.0.1.83-Linux",
     "hostname":"test5",
     "env":"Linux-sercice-app2-server"
    }
  }
]

5.现在 prometheus 开始收集监控目标的指标数据了,如下:

现在已经获取到监控客户端的数据了,有监控就一定有报警,不然就不完美了。接下来我们配置 alertmanger
配置 alertmanger .yml 文件

global:
  resolve_timeout: 5m
  # smtp_from: '{{ template "email.from" . }}'
  smtp_from: 'haoyacong@gimmake.com'
  smtp_smarthost: 'smtp.mxhichina.com:465'
  # smtp_auth_username: '{{ template "email.from" . }}'
  smtp_auth_username: 'haoyacong@gimmake.com'
  smtp_auth_password: 'Haoyacong515'
  # smtp_auth_password: 'dpbbqhaxwltxdcia'
  smtp_require_tls: false
  # smtp_hello: 'mailsso.mxhichina'
templates:
--邮件自定义模板 
  - 'email.tmpl'
route:
  group_by: ['alertname']
  group_wait: 15s
  group_interval: 5s
  repeat_interval: 5m
  receiver: 'email'
receivers:
- name: 'email'
  email_configs:
  - to: '2716966498@qq.com , weilina@gimmake.com'
  # - to: '{{ template "email.to" . }}'
  # 
    html: '{{ template "email.to.html" . }}'
    
    send_resolved: true
inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']

email.tmpl 文件

{{ define "email.from" }}2716966498@qq.com{{ end }}
{{ define "email.to" }}2716966498@qq.com{{ end }}
{{ define "email.to.html" }}
{{ range .Alerts }}
=========start==========<br>
告警程序: prometheus_alert <br>
告警级别: {{ .Labels.severity }} <br>
告警类型: {{ .Labels.alertname }} <br>
故障主机: {{ .Labels.instance }} <br>
告警主题: {{ .Annotations.summary }} <br>
告警详情: {{ .Annotations.description }} <br>
=========end==========<br>
{{ end }}
{{ end }}

有了告警发件人和收件人 ,现在我们配置一下触发告警的规则

告警规则文件 (常用的规则) 官方的规则

groups:
- name: node-up.yml
  rules:
  - alert: Linux_cpu
    expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 < 90   # 自定义摘要 10
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} 主机内存不足 （剩余<10％）" # 自定义摘要    Linux
  - alert: Prometheus_task_down
    expr: absent(up{job="my-job"})
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} Prometheus 的工作宕机" # 自定义摘要
  - alert: PrometheusNotConnectedToAlertmanager
    expr: prometheus_notifications_alertmanagers_discovered < 1
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: " Prometheus Service 无法连接到报警器" # 自定义摘要
  - alert: PrometheusConfigurationReloadFailure
    expr: prometheus_config_last_reload_successful != 1
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: " Prometheus Service 配置重新加载失败" # 自定义摘要
  - alert: service_down
    expr: up == 0
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} 目标 exporter 意外宕机！！" # 自定义摘要
  - alert: Linux_internal
    expr: rate(node_vmstat_pgmajfault[1m]) > -1    # 1000
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} ：{{ $labels.mountpoint }} 主机内存承受内存压力过大" # 自定义摘要   Linux
  - alert: Linux_pull_datas
    expr: sum by (instance) (irate(node_network_receive_bytes_total[2m])) / 1024 / 1024 > 100
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} ：{{ $labels.mountpoint }}  主机网络接口可能接收到太多数据（> 100 MB / s）" # 自定义摘要   Linux
  - alert: Linux_push_datas
    expr: sum by (instance) (irate(node_network_transmit_bytes_total[2m])) / 1024 / 1024 > 0   # 100
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} ：{{ $labels.mountpoint }} 主机网络接口可能正在发送过多数据（> 100 MB / s）" # 自定义摘要   Linuxs
  # - alert: windows_exporter_down
  #   expr: windows_exporter_collector_success == 0
  #   for: 5m
  #   labels:
  #     severity: warning
  #   annotations:
  #     summary: "Instance {{ $labels.instance  }} ：{{ $labels.mountpoint }} exporter 服务关闭" # 自定义摘要  
  - alert: windows_cpu
    expr: 100 - (avg by (instance) (rate(windows_cpu_time_total{mode="idle"}[2m])) * 100) > 10  # 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} ：{{ $labels.mountpoint }} 服务器 CPU使用率超过80％" # 自定义摘要
  - alert: windows_internal
    expr: 100 * (windows_os_physical_memory_free_bytes) / windows_cs_physical_memory_bytes >20  # 90
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} ：{{ $labels.mountpoint }} 服务器 内存使用率超过90％" # 自定义摘要
  - alert: windows_panl
    expr: 100.0 - 100 * ((windows_logical_disk_free_bytes{} / 1024 / 1024 ) / (windows_logical_disk_size_bytes{} / 1024 / 1024)) > 50   # 80
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Instance {{ $labels.instance  }} ：{{ $labels.mountpoint }} 服务器  {{ $labels.volume  }} 磁盘使用率超过80％" # 自定义摘要

注意配置 yml配置文件时不可以使用tab键要用空格键

告警和 Service 端已经配置好了,prometheus 也有自带的图像但是不太美观 ,我们使用 Grafana 工具

点击 grafana-server.exe 文件后在本地访问 http://localhost:3000
账户,密码默认是 admin
8. 配置 Grafana 数据源为prometheus

9.配置数据源后,我们添加不同环境的监控指标数据的页面模板
node_exporter 的指标数据的模板
windows_exporter的指标数据的模板
可以去官网查询合适的模板。

配置模板如下

本文标签：阿里企业邮箱系统 Grafana prometheus

版权声明：本文标题：prometheus +alertmanger+Grafana (Email :QQ+阿里云企业邮箱) 配置篇监控linux+windows系统内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728379515a1156355.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

prometheus +alertmanger+Grafana (Email :QQ+阿里云企业邮箱) 配置篇 监控linux+windows系统

更多相关文章

win10系统卷影复制服务器,卷影复制Windows 10与全能备份软件

如何禁用计算机防病毒程序,win10系统怎么关闭Windows Defender防病毒程序

win10系统C盘存储使用优化操作教程

【解决】win10 启用系统保护灰色 不可选 的解决办法

阿里云云效平台使用——Windows上使用阿里云云效（RDC）Git拉取代码

windows系统内搭建跨架构linux虚机的方法

如何上传本地文件到阿里云服务器，实现本地windows系统和阿里云服务器linux系统之间的文件互通

将本地windows中的文件上传到阿里云Ubuntu服务器上

golang项目从windows系统快速部署到linux服务器上

腾讯云服务器部署python项目（阿里云通用）

【docker】win10系统下docker容器安装及使用（一）：docker的安装及简介

阿里云简介和如何使用阿里云

win10系统通过WSLWSL2安装各种linux版本，开启图形桌面

本地与云服务器（阿里云）实现多客户端虚拟局域网搭建

Docker——常用镜像的安装 &amp; 本地镜像推送发布到阿里云

阿里云服务器盘镜像备份恢复到本地VMware

初识Docker，大白话理解Docker。Docker Windows Desktop的安装以及阿里云镜像加速。在Docker中运行Redis、MongoDB、MySQL

阿里云GTS-平台，混合云TAM-云平台运维 笔试题

阿里云SLB负载均衡理论与操作

后端自学——使用WinSCP远程连接阿里云轻量应用服务器

发表评论

推荐文章

Android app中调用启动其他应用（系统应用和第三方应用

deepin 20 apt软件源

切尔诺贝利_切尔诺贝利泰坦尼克号的自然恢复历史以及复杂系统的课程

Condition 深入源码解析

自己的腾讯云服务器（有公网IP）内网穿透NPS实现访问内网站点

热门文章

让HR眼前一亮：30个APP项目软件测试经验，点燃你的简历

Java面试~基础

Win10共享打印机，别人连接不上出现无法连接到打印机错误码0x0000011b

MAC电脑连接打印机及属性设置

win10系统显示打印机未连接到服务器,win10系统无法打印提示似乎未连接打印机的解决方法...

计算机错误代码0X000000be,Win7系统出现蓝屏代码0x000000BE的解决方法

移动硬盘‘需格式化‘困境：原因剖析、恢复策略与预防之道

试用各种五笔输入法

如何使用挂载磁盘和windows服务器进行文件传输？

DBeaverEE 21.1 激活

最新文章

Windows10 环境配置 CentOS7 云桌面

免费激活Vmware16且配置虚拟机网络

[转]Clion2019破解-Jetbrains系列产品2019.1.1最新激活方法[持续更新]

windows server2019数据中心桌面版多远程桌面RDP方案

卡巴斯基2014激活码授权文件KEY

Charles 注册码破解激活

windows Mysql5.7的安装+Navicat Premium 12.0.18激活版本

jira 破解（windows）

Sublime Text4 4180 安装激活

Studio 3T for MongoDB 激活破解脚本

win7搭建虚拟pppoe服务器,在Win7桌面快速建立PPPOE宽带的方法

EarMaster Pro V7.4.64中文版2024年怎么激活

[win转mac]-Alfred4 安装激活版并简单设置

pycharm修改hosts 文件依然需要激活码

Idea2018最新永久激活方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

prometheus +alertmanger+Grafana (Email :QQ+阿里云企业邮箱) 配置篇监控linux+windows系统

【解决】win10 启用系统保护灰色不可选的解决办法

Docker——常用镜像的安装 & 本地镜像推送发布到阿里云

阿里云GTS-平台，混合云TAM-云平台运维笔试题

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载