侧边栏壁纸
博主头像
落叶人生博主等级

走进秋风,寻找秋天的落叶

  • 累计撰写 130562 篇文章
  • 累计创建 28 个标签
  • 累计收到 9 条评论
标签搜索

目 录CONTENT

文章目录

Debian Gnu/Linux 8.7故障处理实例

2023-11-21 星期二 / 0 评论 / 0 点赞 / 65 阅读 / 5916 字

Debian Gnu/Linux 8.7故障处理实例os:Debian Gnu/Linux 8.7kernel:Linux localhost 4.9.0-0.bpo.2-amd64 #1 SMP D

Debian Gnu/Linux 8.7故障处理实例os:Debian Gnu/Linux 8.7kernel:Linux localhost 4.9.0-0.bpo.2-amd64 #1 SMP Debian 4.9.13-1~bpo8+1 (2017-02-27) x86_64 GNU/Linux浏览器:Chrome 57.0.2987.110 (64-bit)显卡1NVIDIA Corporation G98 [GeForce G 100] (rev a1)显卡2Intel Corporation 4 Series Chipset Integrated Graphics Controller (rev 03)

最近使用计算机发现系统总是莫名奇妙的发生黑屏现象,主机正在使用中会突然黑屏。开机后也不能确定何时又会出现黑屏,感觉故障非常的随机。而且故障出现频次越来越频繁,影响主机正常使用。今天主机再次黑屏,等待数分钟后开机并决定查找具体原因。

开机后使用cat /var/log/messages | grep error查看,没有发现太多异常。使用tail /var/log/messages只能看到末尾部分,但因为日志生成太快,同样掠过很多重要日志记录。于是使用

tail -n 1500 /var/log/messages > messageslog.log

进行处理,使用emacs messageslog.log,找到宕机时间段,发现大量类似

18163:Mar 14 03:44:26 xianbirdofprey8400e kernel: [404095.799973] nouveau 0000:01:00.0: therm: temperature (96 C) hit the 'downclock' threshold

信息。

再次使用

cat /var/log/messages | grep temperatuer

关键字发现shutdown关键字,于是再次使用

cat /var/log/messages | grep temperatuer | grep shutdown

发现如下内容:

766:104034:Mar 16 17:27:29 xianbirdofprey8400e kernel: [626278.751662] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold767:104035:Mar 16 17:27:35 xianbirdofprey8400e kernel: [626284.334786] nouveau 0000:01:00.0: therm: temperature (124 C) went below the 'shutdown' threshold814:108656:Mar 17 11:36:35 xianbirdofprey8400e kernel: [63454.189739] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold

从时间上看刚好接近主机黑屏时的时间,但无法确定故障具体原因。上万能的百度(oschina.net)发帖寻求帮助。知道了原来可以在Linux系统中安装sensors以及xsensors查看设备温度,赶快使用apt-get install xsensors sensors安装软件,并使用sensors进行查看:

14:58:49[root@xianbirdofprey8400e /proc]# sensorscoretemp-isa-0000Adapter: ISA adapter Core 0:   +45.0°C  (high = +80.0°C, crit = +100.0°C) Core 1:   +45.0°C  (high = +80.0°C, crit = +100.0°C) nouveau-pci-0100 Adapter: PCI adapter temp1:   +112.0°C  (high = +95.0°C, hyst =  +3.0°C)     (crit = +122.0°C, hyst =  +2.0°C)    (emerg = +135.0°C, hyst =  +5.0°C)

显卡温度已经接近关机温度。4分钟后主机自主关闭(很销魂的自主动作) 再次开机使用cat /var/log/messages | grep temperatuer | grep shutdown命令查看日志显示如下:

766:104034:Mar 16 17:27:29 xianbirdofprey8400e kernel: [626278.751662] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold767:104035:Mar 16 17:27:35 xianbirdofprey8400e kernel: [626284.334786] nouveau 0000:01:00.0: therm: temperature (124 C) went below the 'shutdown' threshold814:108656:Mar 17 11:36:35 xianbirdofprey8400e kernel: [63454.189739] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold844:110541:Mar 17 15:02:54 xianbirdofprey8400e kernel: [12040.904513] nouveau 0000:01:00.0: therm: temperature (136 C) hit the 'shutdown' threshold

同时使用xsensors查看显卡温度,升温及其迅速,很快就到了90°C,多跑几个应用就可以达到135°C,然后系统就销魂的黑屏。

打开机箱开机观察,发现显卡风扇转速缓慢,至此问题定位结束

本机外置N卡损坏后,直接用本机集成显卡代替,但有时使用Chrome打开网页时,系统会挂起,切换到终端模式下,发下系统报如下错误:[drm:drm_atomic_helper_commit_cleanup_done [drm_kms_helper]] *ERROR* [CRTC:26:pipe A] flip_done timed out网上查找资料,发现该问题似乎从内核4.8之后就一直存在,这是一个与视频驱动程序相关的错误,特别是对于intel内核DRM解决方法:按照bbs.archlinux.org论坛中给的解决方法需要按如下操作完成。1、使用命令vi /etc/default/grub修改GRUB_CMDLINE_LINUX_DEFAULT行内容如下:GRUB_CMDLINE_LINUX_DEFAULT="video=SVIDEO-1:d quiet"2、使用命令update-grub更新Grub并重新启动系统。 3   、打开chrome流浪器,使用Ctrl+F,搜索GPU,并将相关项关闭。至此系统恢复稳定运行。以上问题对于其它Linux发行版处理过程稍有不同,但基本命令以及配置方法具有通用性。其他发行版Linux可以如有该问题可以进行借鉴

广告 广告

评论区