(云计算)华为HCIP全笔记——FusionCompute篇(六)FC日常维护与故障处理:维护告警、实时监控、备份与恢复策略、存储与网络与虚拟机和模板故障点案例分析(包含VM通信问题处理)..._fusioncompute 发送消息到主机失败。
维护管理
空气质量
防尘情况
符合运行环境对空气质量的要求
无明显尘土附着
为了保证系统长期正常、稳定的运行,维护工程师需要定期对系统进行检查,并根据检查出的异常结果排除故障
查看告警:
紧急:已经影响业务,需要立即采取纠正错误的告警为紧急告警
重要:已经影响业务,如果不及时处理会产生较为严重后果的告警为重要告警
次要:目前对业务没有影响,但需要采取纠正错误,以防止更为重要的故障的发送,这种情况下的告警为次要告警。
提示:检测到潜在的或即将发送的影响业务的故障,但是目前对业务还没有影响,这种情况下的告警为提示告警
实时监控
管理员可以查看集群、主机以及虚拟机的监控信息,以便于了解集群在指定时间段内的运行状态
备份与恢复策略
维护工程师在对系统进行重大操作(如升级、重大数据调整等)前,为了保证FusionCompute在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低,需要提前对VRM节点的数据进行备份。
FusionCompute同时支持对关键数据进行自动备份和手工备份。
- 在对系统部件进行重大操作(如升级、重大数据调整等)后,系统有可能出现异常或未达到预期结果。此时,需要对其进行回退,回退过程中需要进行数据恢复操作。
故障处理
案例——HA迁移过程:
- 首先有两个主机的管理口通信,为的是查询对端主机是否有足够的空间让虚拟机迁移
- 对端主机会创建一个空壳虚拟机,然后通过存储链路将后端的存储信息发给对端主机
- 与VRM建立连接,也建立的心跳,由VRM来管控虚拟机
系统配置:
管理员可以根据业务需求对FusionCompute系统配置参数做出调整
- 配置域认证信息
- 更新License
- 修改系统Logo
- 配置登录超时时间
- 配置资源调度周期
- 配置SNMP管理站
- VRM单节点扩展为主备部署
- …
集群控制管理:
-
自动化级别:手动、自动
-
衡量因素:CPU、内存、CPU+内存
-
阈值:保守、较保守、中等、较激进、激进
阈值根据衡量因素的使用情况迁移虚拟机
为什么没有默认开启DPM或DRS?
- 开启DRS的条件是要开启DPM
- 主机或虚拟机随时都处于就绪的状态,随时都有流量的产生,造成资源浪费,设备的性能会变差
IMC,用于屏蔽底层的CPU差异;
- 在虚拟机迁移的过程中,不会因为对端的CPU版本不一致而导致迁移失败,目前只支持INTEL系列
FusionCompute账户:
- FusionCompute账户分为:本地用户、域用户、接口对接用户。
本地用户用于登录、管理系统;
在配置域后可用域用户登录系统;
接口对接用户用于其他用户对接
FusionCompute登录账户:
普通模式:
- 默认账户/密码:
admin/laaS@PORTAL-CLOUD8
账户权限:具有系统管理员权限三员分立模式:
主机和集群故障处理
主机和集群创建流程
- FusionCompute主机和集群的故障处理,可以参考该流程顺序进行检查。
主机和集群的故障可能会涉及到如下关键故障点:
- 站点故障
- 集群故障
- 主机故障
- 系统接口故障
主机和集群故障点:
站点、集群故障分析
FusionCompute使用VRM节点对资源统一调度管理,站点、集群故障和VRM节点强相关。
建不了VRM:
- CNA与VRM不同网段
- CNA能否ping通网关,CNA的IP段配置错了又或者是物理接口错了?
- 主机不可达、消息发送失败;
针对软件安装CNA版本与软件包不一致 - 仅
CNA virsh list -all
站点、集群故障点分析:
- 找出故障点
- 查询出可能故障的原因
- 排除故障
案例 —— VRM虚拟机无法启动:
- 收集信息:
- FusionCompute服务异常,无法启动VRM虚拟机
- 定位故障:
- 可能在FusionCompute中对VRM虚拟机执行过关机操作
- 可能在VRM虚拟机上执行过关机命令
- 可能VRM操作异常而引发VRM自动关机
- 排除故障:
- 使用 “PuTTY” ,登录VRM节点所在主机
- 切换至 “root” 用户:
su - root
- 查找VRM虚拟机ID
- 启动虚拟机:
virsh start 虚拟机ID
- 检查确认:
- 告警消失
- 业务正常
主机故障点分析:
主机上的计算资源经过虚拟化后,形成计算资源池,并分配给虚拟机使用。如果主机出现故障,将影响上层的虚拟机和业务。
案例 —— 添加主机失败:
- 收集信息:
- 在FusionCompute界面上添加主机失败
- 定位故障:
- VRM在CNA节点网络链路不通
- 添加主机失败后,主机上可能残留网络配置数据,导致再次添加主机失败
- 排除故障:
- 检查VRM与故障CNA节点网络连接
- 删除故障CNA节点残留网络数据
- 检查确认:
- 告警消失
- 业务正常
系统接口管理:
FusionCompute管理如下几类接口:
一般是两个及以上的业务口做绑定,目的是替身业务可靠性,增加带宽
添加多个存储接口,可以实现存储的多路径传输
连接存储网口,使其多路径传输
系统接口故障点分析:
系统接口涉及到底层网络硬件,主机和VRM节点,排除故障时可自顶向下快速定位故障层次,然后再自底向上逐步排除故障点。
案例 —— 删除存储接口路由导致异常:
- 收集信息:
- 删除存储接口路由后,提示存储链路中断,关联虚拟机不能使用
- 定位故障:
- 主机与存储设备通过三层网络连接,主机的存储接口和存储设备的存储IP地址不在同一网段,需要设置静态路由,使存储平面能够互通
- 排除故障:
- 登录主机
- 为主机存储接口配置静态路由
- 检查确认:
- 告警消失
- 业务正常
两个虚拟机通信情况分析:
- 同主机、同 OVS、同 VLAN
- 直接通信
- 同主机、同 OVS、不同 VLAN
- 因为OVS是二层,所以不具备路由交换的功能,
需要通过上行接口到三层物理交换机上获取VM2的网关
- 因为OVS是二层,所以不具备路由交换的功能,
- 不同主机、同 OVS、同 VLAN
- 由 VM3 经过 主机2 的上行接口,到达三层交换机交换网关,获取路由,然后访问 主机1 的 VM1
- 不同主机、不同 OVS、相同 VLAN
- 一般情况下,无法通信,但通过物理层面例如向两端虚拟机添加 DVS(OVS) 则可以
- 不同主机、不同 OVS、不同 VLAN
- 由VM发出报文,从上行接口出去到达三层交换机获取路由,然后访问 主机1 的 VM1
两个虚拟机不通的原因:
- 同主机、同OVS、同VLAN
- 对端vm ip网段是否为同一网段、对端的防火墙杀入软件没关彻底
VM或主机异常
- 对端vm ip网段是否为同一网段、对端的防火墙杀入软件没关彻底
- 同主机、同OVS、不同VLAN
- 对端vm ip网段是否为同一网段、对端的防火墙杀入软件没关彻底
网络连接异常、端口配置异常
- 对端vm ip网段是否为同一网段、对端的防火墙杀入软件没关彻底
存储故障处理
- 存储资源池故障点
存储资源和存储设备故障
存储资源、存储设备故障点分析:
FusionCompute存储资源、存储设备故障涉及到对端存储设备配置,存储链路,存储接口等,需要逐步排错。
案例——存储资源管理链路中断
- 收集信息:
- FusionCompute上报告警信息:存储资源管理链路中断
- 定位故障:
- 网络异常
- 存储资源网口故障
- 排除故障:
- 查看故障的存储资源的名称以及故障的存储资源管理IP
- 登录VRM节点
- 查看VRM与故障的管理链路的IP能否正常通信
- 网络排查、修复
- 检查确认:
- 告警消失
- 业务正常
数据存储故障
数据存储故障点分析:
案例 —— VIMS文件系统损坏:
- 收集信息:
- 共享存储的VIMS文件系统损坏
- 定位故障:
- 系统文件元数据损坏或用户文件元数据损坏
- 超级块损坏或文件系统根目录损坏
- 排除故障:
- 停止故障存储设备上的业务运行
- fsck修复只读卷
- 恢复故障存储设备上的业务运行
- 检查确认:
- 告警消失
- 业务正常
虚拟磁盘故障
虚拟磁盘故障点分析:
FusionCompute上的虚拟机,如果绑定的虚拟磁盘出现故障,会影响到业务和数据,故障排除时需提前备份数据。
案例 —— 磁盘无法在线扩容:
- 收集信息:
- 虚拟机磁盘不能在线扩容
- 定位故障:
- 磁盘所属的数据存储类型不支持扩容
- 磁盘配置模式不支持在线扩容
- 虚拟机操作系统不支持在线扩容
- 排除故障:
- 迁移磁盘到支持扩容的数据存储上
- 更改磁盘配置模式
- 重启虚拟机
- 检查确认:
- 磁盘扩容成功,业务正常
网络故障处理
FusionCompute网络池的故障处理,可以参考该流程顺序进行检查。
网络池可能会涉及到如下关键故障点:
- 分布式交换机故障
- 上行链路故障
- VLAN池故障
- 子网故障
- 端口组故障
因网络池的各个组件关联紧密,可以统一概括成如下故障:
- 虚拟机之间通讯故障
- 虚拟机和外部网络通讯故障
虚拟机通信故障
虚拟机之间通讯故障:
虚拟机可能分别属于不同分布式交换机,归属于不同端口组,使用不同上行链路,需要逐一进行故障排除。
案例 —— 两台虚拟机无法通讯:
- 收集信息:
- 同一主机上的两台虚拟机无法通讯
- 定位故障:
- 虚拟机自身网络异常
- 虚拟机所属的端口不同
- 虚拟机所属的分布式交换机不同
- 排除故障:
- 修复故障虚拟机自身网络配置
- 更改故障虚拟机所属端口组
- 检查所属的分布式交换机
- 检查确认:
- 网络正常,业务正常
虚拟机外部通信故障
虚拟机和外部网络通讯故障:
虚拟机和外部网络通讯涉及到底层主机、网卡、外部交换机等,需要逐一进行故障排除。
案例 —— 绑定网口后网络不通:
- 收集信息:
- FusionCompute绑定网口后网络不通
- 定位故障:
- 上行链路绑定模式
- 外部交换机链路汇聚模式
- 排除故障:
- 修改上行链路绑定模式
- 修改外部交换机端口汇聚模式
- 检查确认:
- 网络正常,业务正常
虚拟机和模板故障处理
虚拟机创建方式
-
创建空虚拟机
-
创建空虚拟机时,可选择创建在主机或集群上,并可自定义CPU、内存、磁盘、网卡等规格。
-
空虚拟机创建完成后,需要在上面安装操作系统。
-
-
使用模板创建虚拟机
- 按模板部署虚拟机或模板导入虚拟机时,以下属性继承自模板,其他属性可自定义。
- 虚拟机的操作系统类型和操作系统版本号
- 虚拟机磁盘的数量和容量
- 虚拟机的网卡数
-
使用虚拟机创建虚拟机
- 克隆虚拟机过程中,以下属性继承自原虚拟机,其他属性可自定义。
- 虚拟机的操作系统类型和操作系统版本号
- 虚拟机磁盘的数量和容量
- 虚拟机的网卡数
- 如果有一个要经常克隆的虚拟机,可以将该虚拟机转换为模板。
- 克隆虚拟机过程中,以下属性继承自原虚拟机,其他属性可自定义。
虚拟机创建流程
-
选择创建位置
- 集群 或 主机
-
设置虚拟机属性
-
虚拟机名称
-
操作系统类型、版本号
-
硬件规格(CPU/内存/磁盘数/网卡数)
-
虚拟机蓝屏策略
-
-
设置网卡和磁盘
- 网卡所属的分布式交换机和端口组
- 磁盘属性
- 数据存储
- 配置模式
- 容量
- 是否受快照影响
- 持久化
-
创建虚拟机
- 确认信息
FusionCompute三种虚拟机创建方式都需要经过以下四个过程。
- 选择创建位置
- 设置虚拟机属性
- 设置网卡和磁盘
- 创建虚拟机
虚拟机创建、调整、回收、操作和虚拟机模板转换、管理等故障都可以参考该流程逐一检查。
虚拟机和模板故障
虚拟机和模板故障分析:
案例 —— 使用模板部署虚拟机失败:
- 收集信息:
- FusionCompute使用模板部署虚拟机失败
- 错误提示 “指定 Location 下不存在网络条件满足虚拟机启动的节点”
- 定位故障:
- 待部署虚拟机与模板不在同一集群
- 排除故障:
- 更改虚拟机部署位置到模板同一集群
- 检查确认:
- 部署正常,业务正常
❤️HCIP专栏——前文链接
- (云计算HCIP)价值8k的上万字学习笔记,考华为云计算HICP的有福啦!HCIP全笔记(一)本篇涵盖 云计算概述,谈及虚拟化、云计算的介绍、云服务模式、部署模式的区别和主流云计算技术
- (云计算HCIP)价值8k的上万字学习笔记,考华为云计算HICP的有福啦!HCIP全笔记(二)本篇介绍服务器基础、硬件结构、RAID冗余阵列
- (云计算HCIP)价值8k的上万字学习笔记,考华为云计算HICP的有福啦!HCIP全笔记(三)本篇介绍网卡、华为服务器网卡类型、电源和风扇、服务器关键技术:BIOS、IBMC、BMC、IPMI
- (云计算HCIP)价值8k的上万字学习笔记,考华为云计算HICP的有福啦!HCIP全笔记(四)本篇介绍 存储技术、硬盘类型、存储架构:DAS、SAN、NAS等
- (云计算HCIP)价值8k的上万字学习笔记,考华为云计算HICP的有福啦!HCIP全笔记(五)本篇介绍存储形态、RAID技术特点与工作原理、RAID的常见级别介绍
- (云计算HCIP)价值8k的上万字学习笔记,考华为云计算HICP的有福啦!HCIP全笔记(六)本篇介绍存储协议,包含:SCSI、iSCSI、FC协议、iFCP协议、FCoE协议;FC协议与TCP协议
- (云计算HCIP)HCIP全笔记(七)本篇介绍网络技术基础,包含:网关、交换机、路由的介绍,OSI网络参考模型、TCP/IP协议栈、TCP和UDP协议、SSH协议
- (云计算HCIP)HCIP全笔记(八)本篇介绍网络技术基础,包含:网络交换的流程、交换机原理、VLAN技术、VLAN划分与接口类型、路由原理、路由转发流程、静态路由和默认路由
- (云计算HCIP)HCIP全笔记(九)本篇介绍操作系统基础,内容包含:操作系统组成、分类和定义,Linux的特性结构和Linux版本分类
- (云计算HCIP)HCIP全笔记(十)本篇介绍操作系统基础,内容包含:linux命令使用、linux文件相关命令、vim的使用、配置openEuler静态IP地址、设置主机名 等
- (云计算HCIP)HCIP全笔记(十一)本篇介绍虚拟化技术,内容包含:虚拟化介绍、虚拟化定义、虚拟化重要概念、虚拟机类型、虚拟化的特点:分区、隔离、封装、硬件独立
- (云计算HCIP)HCIP全笔记(十二)本篇介绍虚拟化技术,内容包含:虚拟化资源、CPU虚拟化、KUMA、KVM介绍、模拟CPU指令、敏感指令区分、内存虚拟化、TLB技术、影子页表技术
- (云计算HCIP)HCIP全笔记(十三)本篇介绍虚拟化技术,内容包含:虚拟化资源、虚拟化过程、I/O虚拟化、虚拟化架构KVM和Xen介绍、主流虚拟化技术介绍
- (云计算HCIP)HCIP全笔记(十四)本篇介绍云计算存储基础,内容包含:物理存储内/外存、集中式和分布式存储差异、虚拟化和非虚拟化存储、文件系统、华为虚拟化产品的存储架构
- (云计算HCIP)HCIP全笔记(十五)本篇介绍网络虚拟化,内容包含:网桥、虚拟交换模型、网络安全策略、安全组、Trunk口、流量走向、端口组…
- (云计算HCIP)HCIP全笔记(十六)本篇介绍虚拟机VM特性:内存复用、虚拟机克隆、虚拟机快照、NUMA架构、资源迁移、磁盘扩容、HA集群迁移、VNC登录…
😎👉HCIP——Fusioncompute篇
- (云计算)华为HCIP全笔记——FusionCompute篇(一):介绍华为云FusionSphere的架构组成、虚拟化套件特点,FusionCompute产品介绍
- (云计算)华为HCIP全笔记——FusionCompute篇(二)FC计算虚拟化:CNA介绍、GPU虚拟化、GPU直通技术、内存复用、NUMA亲和度调度、虚拟机HA、IMC策略…
- (云计算)华为HCIP全笔记——FusionCompute篇(三)FC存储虚拟化:FC存储虚拟化架构、VIMS心跳与分布式锁、存储热迁移、RDM技术、普通延时置零产品、FC存储类型…
- (云计算)华为HCIP全笔记——FusionCompute篇(四)FC网络虚拟化:华为分布式交换方案、FC分布式交换机、Trunk口、OVS、DVS与EVS、VNC连接原理、网络QoS…
- (云计算)华为HCIP全笔记——FusionCompute篇(五)FC虚拟机发放与管理:存储资源介绍、FC磁盘参数、FC安全组管理、虚拟机发放流程、虚拟机管理(回收、调整…)、Tools管理…
💕👉博客专栏
- Golang专栏-包含基础、Gin、Goam等知识
- 云原生专栏-包含k8s、docker等知识
- 从0开始学习云计算-华为HCIP证书
- JUC专栏-带你快速领悟JUC的知识!
- JVM专栏-深入Java虚拟机,理解JVM的原理
- 基于Java研究 数据结构与算法-包含贪心算法、加权图、最短路径算法等知识
- Docker专栏-上手热门容器技术Docker
- SpringBoot专栏-学习SpringBoot快速开发后端
- 项目管理工具的学习-设计技术:Maven、Git、Gradle等相关管理工具
- JavaSE-全面了解Java基础
- JS专栏-使用JS作的一部分实例~
- 使用CSS所作的一部分案例