Linux服务器常用巡检命令

发布时间:
更新时间:
🕒 阅读时间:22 min read 👀 阅读量:Loading...

1. 查看系统信息

1.1 系统信息显示

命令:uname -a

[root@linux100 ~]# uname -a
Linux linux100 4.15.0-70-generic #79-Ubuntu SMP Tue Nov 12 10:36:11 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

打印出来的信息说明:

字段对应打印的值说明
操作系统类型 - Operating System TypeLinux显示操作系统类型,如Linux、Unix等。
主机名 - Hostnamelinux100显示当前主机的名称
内核版本 - Kernel Version4.15.0-70-generic显示当前系统正在使用的内核版本号
操作系统发行版版本号 - OS Distribution Version#79显示操作系统发行版的版本号。
操作系统发行版 - OS DistributionUbuntu显示操作系统的发行版信息,如Ubuntu、CentOS等。
操作系统架构 - Architecturex86_64显示操作系统的架构,如x86_64、i386等

1.2 显示操作系统发行版信息

命令:cat /etc/*release*

图片

1.3 通过LSB工具查询Linux发行版信息

lsb_release是一个Linux Standard Base(LSB)的工具,用于显示Linux发行版的信息。它通常用于查询和显示Linux发行版的版本号、发行代号、描述等信息。

# CentOS安装lsb_release包
[root@linux100 ~]# sudo yum install redhat-lsb
# 查看Linux版本
[root@linux100 ~]# lsb_release -a
LSB Version: :core-4.1-amd64:core-4.1-noarch:cxx-4.1-amd64:cxx-4.1-noarch:desktop-4.1-amd64:desktop-4.1-noarch:languages-4.1-amd64:languages-4.1-noarch:printing-4.1-amd64:printing-4.1-noarch
Distributor ID: CentOS
Description: CentOS Linux release 7.9.2009 (Core)
Release: 7.9.2009
Codename: Core

1.4 通过hostnamectl来查询Linux系统信息

hostnamectl是一个用于管理系统主机名(hostname)的命令行工具,它通常在Linux系统中提供。它可以用来查询、设置和管理系统的主机名及其相关的信息。

[root@linux100 ~]# hostnamectl
Static hostname: linux100
Icon name: computer-vm
Chassis: vm
Machine ID: fb9d8715fff144aca93accad42cec460
Boot ID: 49ec505cca3d4052a6115b36a670e7e6
Virtualization: vmware
Operating System: CentOS Linux 7 (Core)
CPE OS Name: cpe:/o:centos:centos:7
Kernel: Linux 3.10.0-1160.25.1.el7.x86_64
Architecture: x86-64

1.5 显示系统运行时间、负载情况

命令:uptime

图片

打印出来的信息说明:

字段对应打印的值说明
当前时间10:52:57显示当前系统时间。
系统运行时间up 7 min显示系统自上次启动以来的运行时间。通常以天、小时、分钟的格式显示。up 7 min表示运行了7分钟。
当前登录用户数1 user当前登录系统的用户个数,1user表示1人
平均负载load average: 0.05, 0.07, 0.05显示系统在过去1分钟、5分钟、15分钟内的平均负载。负载是指系统处于运行和等待状态的进程数目的平均值。值显示该系统处于轻负载状态。

1.6 列出已加载的内核模块

命令:lsmod

图片

2.资源****利用情况

2.1 实时查看系统资源使用情况

命令:top

图片

打印出来的信息说明:

字段对应打印的值说明
第一行: 总体信息 top当前时间top - 11:56:43显示当前系统时间。
系统运行时间up 1:10显示系统自上次启动以来的运行时间。通常以天、小时、分钟的格式显示。up 1:10表示运行了1小时10分钟。
当前登录用户数1 user当前登录系统的用户个数,1user表示1人
平均负载load average: 0.00, 0.01, 0.05显示系统在过去1分钟、5分钟、15分钟内的平均负载。负载值反映了系统在单位时间内处于可运行状态的平均进程数。
第二行: 任务统计 Tasks系统中各类任务数量的统计信息Tasks: 108 total, 1 running, 107 sleeping, 0 stopped, 0 zombie该系统总共有108个任务,其中有1个运行中的任务,107个睡眠中的任务,0个已停止的任务,0个僵尸进程。
第三行: CPU使用情况 %Cpu(s)us0.3 us用户空间占用CPU的百分比
sy0.3 sy内核空间占用CPU的百分比
ni0.0 ni优先级较低的进程用户态占用CPU的百分比
id99.3 idCPU空闲的百分比
wa0.0 waCPU等待I/O完成的百分比
hi0.0 hi硬中断占用CPU的百分比
si0.0 si软中断占用CPU的百分比
st0.0 st被虚拟机偷取的时间的百分比
第四行: 内存使用情况 KiB Mem总内存995664 total系统总可用的物理内存量
空闲内存491532 free当前已经被使用的内存量
已用内存175596 used当前可用但未被使用的内存量
缓存/缓冲区328536 buff/cache被系统用作文件缓存和缓冲区的内存量
第五行: 系统交换空间使用情况 KiB Swap总交换空间2097148 total系统总可用的交换空间大小
空闲交换空间2097148 free当前可用但未被使用的交换空间大小
已用交换空间0 used当前已经被使用的交换空间大小
列表字段说明PID668进程ID
USERroot用户
PR20优先级(Priority),表示进程的静态优先级。Linux进程的优先级范围是-20到19,数值越小,优先级越高。
NI0优先级值(Nice Value),表示进程的动态优先级。通过renice命令可以调整进程的优先级值,数值越小,优先级越高。
VIRT273192虚拟内存(Virtual Memory),表示进程当前使用的虚拟内存大小,以千字节(KB)为单位。虚拟内存包括进程使用的物理内存(RES)和交换空间。
RES4868物理内存(Resident Memory),表示进程当前使用的物理内存大小,以千字节(KB)为单位。物理内存是指进程实际占用的内存空间。
SHR3736共享内存(Shared Memory),表示进程使用的共享内存的大小,以千字节(KB)为单位。共享内存是多个进程之间共享的内存区域,通常用于进程之间的通信。
SS当前进程状态(State),常见的状态包括:R(运行)、S(睡眠)、D(不可中断睡眠)、Z(僵尸)、T(停止)、<(高优先级)、N(低优先级)、+(位于前台)、L(锁住页)、s(会话领导者)、l(多线程)。
%CPU0.3CPU使用率
%MEM0.5内存使用率
TIME+0:06.98运行时间
COMMANDvmtoolsd进程名称

具体查看参数:

  • 第一行load average(CPU负载):三个参数分别指前1分钟、前5分钟、前15分钟的负载,数值越高负载越高,对比数值在增加的话则表明CPU负载越来越高。
  • 第三行%Cpu(s):看id的数值>20%则表示CPU运行流畅,<20%则表示CPU负载过重。还有us过高就是用户进出优化,sy过高则需要提高服务器性能,wa过高就要关注磁盘io了。
  • 按shift+p或者大写的P可以将cpu占用情况由大到小排列出来,找到占用cpu最大的那个线程,即可造成CPU过大的线程。

2.2 查看运行内存使用情况

命令:

free -g(单位GB)

free -m(单位MB)

图片

打印出来的信息说明:

字段说明
total内存总大小
used使用的内存
free除了 buff/cache 剩余的内存
Shared共享内存
Buff/cact缓冲、缓存区内存数
available真实剩余的可用内存数

2.3 查看磁盘空间使用情况

命令:df -h

图片查看发现根挂载点使用率100%,明明清理了大文件,但还是使用率100%,这就有可能是大量进程在占用内存使用率。

解决办法:

通过执行命令 lsof -n |grep deleted ,查看已经删除的文件,空间没有释放,kill掉pid。

扩展:

检查当前目录下,目录层级深度为1,空间占用情况:

du -h -x —max-depth=1

2.4 查看磁盘IO

常用命令格式:iostat [参数] [时间] [次数]

例如:iostat -d -k -x 1 10

命令参数说明如下:

命令中间的参数参数说明
-c显示CPU使用情况
-d显示磁盘使用情况
-k以K为单位显示
-m以M为单位显示
-N显示磁盘阵列(LVM) 信息
-n显示NFS使用情况
-p可以报告出每块磁盘的每个分区的使用情况
-t显示终端和CPU的信息
-x显示详细信息
[user1@Test_Server ~]$ iostat -x
Linux 3.10.0-693.2.2.el7.x86_64 (jellythink) 01/05/2019 _x86_64_ (1 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
1.83 0.00 0.31 0.09 0.00 97.77
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
vda 0.03 0.78 0.24 1.38 12.64 20.67 41.01 0.02 10.98 55.50 3.17 0.71 0.12

打印出来的信息说明:

字段对应的值说明
avg-cpu 显示CPU的平均使用情况%user1.83用户进程占用CPU的百分比。这包括用户应用程序和用户级别的进程。
%nice0.00优先级较高的用户进程占用CPU的百分比。这些进程的优先级被提升了。
%system0.31系统进程占用CPU的百分比。这包括内核级别的进程。
%iowait0.09等待I/O操作完成占用CPU的百分比。如果CPU大部分时间都在等待I/O操作完成,这个值会比较高。
%steal0.00被虚拟化环境中其他虚拟机“偷走”的CPU时间的百分比。这个值主要用于虚拟化环境。
%idle97.77CPU空闲时间的百分比。这是CPU未被使用的时间
某个设备在系统的IO性能和负载情况Devicevda设备名称,表示正在监视的磁盘或者其他IO设备的名称。
rrqm/s0.03每秒向该设备发出的读请求并在请求队列中排队的请求数(合并请求)
wrqm/s0.78每秒向该设备发出的写请求并在请求队列中排队的请求数(合并请求)
r/s0.24每秒从设备读取的块数(读取速率)
w/s1.38每秒向设备写入的块数(写入速率)
rkB/s12.64每秒从设备读取的数据量(以MB为单位)
wkB/s20.67每秒向设备写入的数据量(以MB为单位)
avgrq-sz41.01平均每个IO请求的大小(块大小)
avgqu-sz0.02平均IO请求在设备队列中的长度
await10.98平均IO请求的等待时间,包括排队时间和服务时间
r_await55.50平均读取IO请求的等待时间
w_await3.17平均写入IO请求的等待时间
svctm0.71平均IO请求的服务时间
%util0.12设备的利用率,即设备处于活动状态的时间占总时间的百分比

可通过观察一下字段的数值来了解系统的CPU负载情况:

  • 如果%user%system的值比较高,说明系统主要受到用户进程和系统进程的影响;
  • 如果%iowait的值较高,说明系统大部分时间都在等待I/O操作完成;
  • 如果%idle的值接近零,说明系统的CPU资源被充分利用,而如果%idle的值较高,则说明系统CPU有较多空闲时间。
  • 从%util可知,该设备在一秒中有百分之几的时间用于IO操作。

2.5 显示当前系统网络连接和网络监听情况

命令:netstat -tulnp

图片打印出来的信息说明:

字段说明
Proto显示协议类型,如TCP或UDP
Recv-Q表示接收队列中的未读取字节数
Send-Q表示发送队列中的未发送字节数。
Local Address表示本地地址和端口号,即服务器正在监听的地址和端口。
Foreign Address表示远程地址和端口号,即与本地地址建立的连接的远程主机地址和端口。
State表示连接状态,如ESTABLISHED(已建立)、LISTEN(监听)、TIME_WAIT(等待关闭)等。
PID/Program name表示与连接或监听端口相关联的进程的PID和程序名称

由上面信息可知:

  • 是否建立连接 :通过State可知服务器是否与客户端建立了连接;
  • 监听端口 :通过Local Address列中,可以找到正在监听的端口号以及关联的IP地址,这些是服务器正在监听的端口
  • 进程关联 :通过PID/Program name列,可以查看与网络连接或监听端口相关联的进程的PID和程序名称,从而找到哪些进程在使用这些网络资源。

2.6 显示当前系统上运行的进程

命令:ps aux

图片

打印出来的信息说明:

字段说明
USER进程的用户名,表示该进程是由哪个用户启动的
PID进程ID,唯一标识系统中的每个进程
%CPUCPU使用率,表示进程占用CPU的百分比
%MEM内存使用率,表示进程占用内存的百分比
VSZ虚拟内存大小(Virtual Size),表示进程虚拟内存的大小,以KB为单位
RSS常驻内存集(Resident Set Size),表示进程实际使用的物理内存大小,以KB为单位
TTY控制终端,表示进程关联的控制终端
STAT进程状态,包括运行状态(R)、睡眠状态(S)、僵尸状态(Z)等
START进程启动时间,表示进程启动的时间点
TIMECPU时间,表示进程累计占用CPU的时间
COMMAND进程的命令行,表示启动进程时使用的命令和参数

扩展:

1)只显示包含指定进程名的行:ps aux | grep <进程名>

2)ps -ef 和 ps aux 两者都可用于列出系统的所有进程信息,但ps aux更适合快速查看当前系统中的进程情况。

3. 查看日志

3.1 通过journalctl命令查看系统日志

命令:journalctl

图片

3.2 通过tail查看系统日志

查看日志文件多少行代码:tail -n [行数] [日志文件]

4. 服务状态

4.1 查看指定服务的状态

命令:systemctl status <service>
比如查看防火墙的状态:

图片

4.2 查看已启用的服务

命令:systemctl list-unit-files --state=enabled

5. 网络状态

5.1 显示网络接口信息

命令:ifconfig` 或 `ip addr

图片

图片

5.2 测试网络连通性

命令格式:ping <IP地址或域名>

图片如果有类似以上的输出,则网络通畅了。

字段说明
icmp_seq数据包的序列号,每个数据包都有一个唯一的序列号,以便于识别
ttl数据包的生存时间(Time to Live),也称为跳数。它指示了数据包在网络中可以传递的最大路由器跳数。如果ttl值超过0而数据包还未到达目标,那么数据包会被丢弃
time往返时间(Round-Trip Time,RTT),表示从发送数据包到收到回应数据包所花费的时间,单位是毫秒(ms)

5.3 跟踪数据包的路由路径

命令格式:traceroute <IP地址或域名>

图片上面示例中,显示了从本地主机到目标主机(192.168.243.102)经过的1个路由器或中间节点的信息,包括它们的IP地址(192.168.243.102)、主机名(linux102)、以及数据包往返时间RTT(0.161 ms 0.132 ms 0.097 ms)。

5.4 查看网络IO

命令:nload

图片

nload 默认分为上下两块:

上半部分:Incoming,是进入网卡的流量;

下半部分:Outgoing,是从这块网卡出去的流量。

参数详情表:

参数描述
Curr当前流量
Avg平均流量
Min最小流量
Max最大流量
Ttl总和流量

Curr当前网速 ,MAX 最大网速。当 curr 接近Max 时为负荷比较高的状态

6. 检查安全性

6.1 查看当前开放的网络连接,检查是否有异常连接

命令:ss -tulwn

图片打印出来的信息说明:

字段说明
Netid显示网络标识符,表示套接字类型。常见的Netid值有:* tcp :表示TCP协议,用于传输可靠的、面向连接的数据流。* udp :表示UDP协议,用于传输不可靠的、面向数据报的数据。* raw :表示原始套接字(Raw Socket),允许应用程序直接访问网络层的数据包。* icmp :表示ICMP协议,用于在IP网络上发送控制消息。* udplite :表示UDP Lite协议,类似于UDP,但提供了部分数据包校验和的功能。
State显示套接字的状态。常见的状态包括 LISTEN(正在监听传入连接)、 ESTAB(套接字已建立连接)、 CLOSED(套接字已关闭)、 TIME-WAIT(等待关闭的连接的套接字)等
Recv-Q接收队列中的字节数
Send-Q发送队列中的字节数
Local Address:Port本地地址和端口号
Peer Address远程地址和端口号

7.其他

7.1 查看Oracle数据库资源使用情况

根据以下sql来查询表空间使用情况:

SELECT a.tablespace_name "表空间名",
total "表空间大小",
free "表空间剩余大小",
(total - free) "表空间使用大小",
total / (1024 * 1024 * 1024) "表空间大小(G)",
free / (1024 * 1024 * 1024) "表空间剩余大小(G)",
(total - free) / (1024 * 1024 * 1024) "表空间使用大小(G)",
round((total - free) / total, 4) * 100 "使用率 %"
FROM (
SELECT tablespace_name, SUM(bytes) free
FROM dba_free_space
GROUP BY tablespace_name
) a,(
SELECT tablespace_name, SUM(bytes) total
FROM dba_data_files
GROUP BY tablespace_name
) b
WHERE a.tablespace_name = b.tablespace_name;

如果表空间的使用率超过了80%(自定义预警值)的时候,则需要通过清理某些表数据来释放空间,或进行表空间扩展。

Linux服务器常用巡检命令

作者: Mindspark

本文链接: https://oxai.net.cn/posts/94f964c2

本文采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。

留言评论

2000年1月1日星期六
00:00:00