linux下的watchdog（一）|电子爱好者

admin管理员组
文章数量:1588124

前言

Watchdog 是 Linux 系统一个很重要的机制，其目的是监测系统运行的情况，一旦出现锁死，死机的情况，能及时重启机器（取决于设置策略），并收集crash dump.

watchdog，顾名思义，看门狗。这就说明，有一个被watch的对象，和一个watch它的程序。

无论是内核watchdog，还是userland watchdog，其基本思路都是：
1. 假定某一个对象的状态能表征系统运行是否健康（比如interrupt的次数，比如/dev/watchdog的时间戳）;
2. 启动一个watchdog程序，定期（通过内部或者外部时钟触发）来观测这个对象，来判定系统是否健康，并采取相应动作。

Watchdog 有好几种不同的实现机制，最近我在公司鼓捣了一下各种机制的原理，并在实验室机器上面进行了实验操作，总结了以下两种机制：
1. kernel watchdog
2. Userland watchdog

下面，我们分别阐述他们的机制。

kernel watchdog

kernel watchdog 目的

当我们引入这么一个Watchdog的时候，首先关心的是它是做什么用的。简单的说，kernel watchdog是用来检测Lockup 的。

所谓lockup，是指某段内核代码占着CPU不放。Lockup严重的情况下会导致整个系统失去响应。Lockup有几个特点：

首先只有内核代码才能引起lockup，因为用户代码是可以被抢占的，不可能形成lockup（只有一种情况例外，就是SCHED_FIFO优先级为99的实时进程即使在用户态也可能使[watchdog/x]内核线程抢不到CPU而形成soft lockup）
其次内核代码必须处于禁止内核抢占的状态(preemption disabled)，因为Linux是可抢占式的内核，只在某些特定的代码区才禁止抢占（例如spinlock），在这些代码区才有可能形成lockup。
Lockup分为两种：soft lockup 和 hard lockup，它们的区别是 hard lockup 发生在CPU屏蔽中断的情况下。而soft lockup则是单个CPU被一直占用的情况（中断仍然可以响应）。

这里我们先要介绍一下NMI。

NMI

NMI，即非可屏蔽中断。即使在内核代码中设置了屏蔽所有中断的时候，NMI也是不可以被屏蔽的。

中断分为可屏蔽中断和非可屏蔽中断。

其中，可屏蔽中断包含时钟中断，外设中断（比如键盘中断，I/O设备中断，等等），当我们处理中断处理程序的时候，在中断处理程序top half时候，在不允许嵌套的情况下，需要关闭中断。

但NMI就不一样了，即便在关闭中断的情况下，他也能被响应。触发NMI的条件一般都是ECC error之类的硬件Error。但NMI也给我们提供了一种机制，在系统中断被误关闭的情况下，依然能通过中断处理程序来执行一些紧急操作，比如kernel panic。

这里涉及到了3个东西：kernel线程，时钟中断，NMI中断（不可屏蔽中断）。

这3个东西具有不一样的优先级，依次是kernel线程 < 时钟中断 < NMI中断。其中，kernel 线程是可以被调度的，同时也是可以被中断随时打断的。

接下来，我们分别看什么是soft lockup，什么是hard lockup.

SoftLockup

Soft lockup是指CPU被内核代码占据，以至于无法执行其它进程。检测soft lockup的原理是给每个CPU分配一个定时执行的内核线程[watchdog/x]，如果该线程在设定的期限内没有得到执行的话就意味着发生了soft lockup，[watchdog/x]是SCHED_FIFO实时进程，优先级为最高的99，拥有优先运行的特权。

SoftLockup 示例代码

以下是一段Soft lockup的示例代码，通过一直占用某个CPU，而达到soft lockup的目的：

#include<linux/kernel.h>
#include<linux/module.h>
#include<linux/kthread.h>

struct task_struct *task0;
static spinlock_t spinlock;
int val;

int task(void *arg)
{
printk(KERN_INFO "%s:%d\n",__func__,__LINE__);
/* To generate panic uncomment following */
/* panic("softlockup: hung tasks"); */

while(!kthread_should_stop()) {
printk(KERN_INFO "%s:%d\n",__func__,__LINE__);
spin_lock(&spinlock);
/* busy loop in critical section */
while(1) {
printk(KERN_INFO "%s:%d\n",__func__,__LINE__);
}

spin_unlock(&spinlock);
}

return val;
}

static int softlockup_init(void)
{
printk(KERN_INFO "%s:%d\n",__func__,__LINE__);

val = 1;
spin_lock_init(&spinlock);
task0 = kthread_run(&task,(void *)val,"softlockup_thread");
set_cpus_allowed_ptr(task0, cpumask_of(0));

return 0;
}

static void softlockup_exit(void)
{
printk(KERN_INFO "%s:%d\n",__func__,__LINE__);
kthread_stop(task0);
}

module_init(softlockup_init);
module_exit(softlockup_exit);

上述代码是从某个网站上找到的，它通过spinlock()实现关抢占，使得该CPU上的[watchdog/x]无法被调度。另外，通过set_cpus_allowed_ptr()将该线程绑定到特定的CPU上去。

SoftLockup 检测机制

SoftLockup 检测首先需要对每一个CPU core注册叫做watchdog的kernel线程。即[watchdog/0]，[watchdog/1]，[watchdog/2

本文标签： Linux watchdog

版权声明：本文标题：linux下的watchdog（一）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1728026004a1142674.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

linux下的watchdog（一）

更多相关文章

用tar备份和恢复Linux系统

linux raid1无法恢复,RAID1单硬盘损坏更换硬盘后恢复的方法

华为电脑Linux进pe,华为 matebook X Pro怎样用PE重装系统win10

windows和linux将文件删除至回收站【C++】【Go】语言实现

linux smb共享删除恢复,给Samba添加回收站功能

linux 删除回收站文件,浅析linux下的回收站以及U盘中的.Trash文件夹

linux——按照文件大小查看，清空回收站，删除以减小内存

linux用键盘怎么关机,用 SysRq 键安全重启hang住的Linux

Linux基本的键盘输入快捷键和一些常用命令

LINUX应用开发

Linux 学习笔记

Linux驱动面试题总结（2）

0.linux笔记.....持续更新...

Linux驱动的部分问题

Ubuntu常用命令大全（Linux）

linux操作系统和windows操作系统的不同点 通俗易懂

win10启动linux蓝屏,系统之家重装 win10启动蓝屏0xc000021a如何修复

Linux装Windows系统，萌新必备攻略

Linux系统和Windows系统哪个更好？

windows与linux CC++对比（一）文件路径操作

发表评论

推荐文章

CPU检测工具：CPU-Z快捷键大全（绿色）

Win10安装.net FrameWork3.5失败解决方法

Quartz Cron表达式 在线生成器

autocad2022发布 autocad2022中文版新功能

在VMmare上安装Windows 2003

热门文章

百度网盘no limit speed 下载

移动硬盘数据恢复，90%的人都是这么做的…

常见的100个推广创意

挑战《IT我最大》Windows 7由你秀 活动的丑恶行径

apk加固后如何重新签名（uni-app打包的apk）

linux常用命令（面试）

Linux常用命令----cp 命令

SecureCRT常用Linux命令,SecureCRT 常用命令

AutoCAD2018（cad2018）32位64位中文版

操作系统期末复习题（超级全）

最新文章

3DMAX 2020 安装失败，怎么把3DMAX 2020彻底卸载删除干净重新安装？【转载】

revit2016注册表删除_Revit怎么卸载，如何把revit彻底卸载删除干净重新安装的方法？【转载】...

# 2022年最新Mac OS 最新安装cocopods 安装超级快速为您节省大量时间与精力 30分钟搞定的教程(需要注意的是电脑一次没有安装过cocopods,如果安装过不建议使用这个方式安装)已经

Java基础--JDK的安装和卸载（超详细讲解）

小型内衣裤洗衣机哪个牌子好？深度刨析五款热门内衣洗衣机

2020年领导最满意的可视化工具！分分钟吊打python

基于YOLOV8的数粒机-农业应用辣椒种子计数计重双标质量解决方案

洗地机哪个牌子最好用？2024洗地机希亦、云鲸、追觅、必胜哪一款更好

2024洗地机测评，洗地机哪个品牌好？洗地机排行榜前十名

内衣洗衣机哪个牌子好用？五大硬核宝藏内衣洗衣机推荐

Stable Diffusion从入门到卸载，一站式服务为你的AI绘画保驾护航！

原本只是想装个系统 结果变成了这个样子OTZ

小型内衣裤洗衣机哪个牌子好？六大选购锦囊私藏分享

3DMAX 2021安装失败，怎么完全彻底卸载删除清理干净3DMAX 2021各种残留注册表和文件？【转载】

mysql 备份操作系统,centos下mysql 最新版总算安装成功！备份一下几个关键地方

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

linux操作系统和windows操作系统的不同点通俗易懂

Quartz Cron表达式在线生成器

挑战《IT我最大》Windows 7由你秀活动的丑恶行径

原本只是想装个系统结果变成了这个样子OTZ

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载