控制文件不一致引发的“血案”

控制文件不一致引发的故障如何恢复改进?本文告诉你答案。

作者 陈康·沃趣科技数据库技术专家
出品 沃趣科技

| 故障发生

近日,某客户通过QMonitor监控软件发现一个备库报警,需要远程支持。通过客户发出的告警截图可以判断该备库已经挂掉。由于该客户不擅长技术方面,所以无法提供过多的信息。

| 故障恢复

登上备库主机,检查环境为11g单实例ASM,操作系统为RedHat6.5。数据库实例确认为关闭状态,ASM实例状态正常。所以直接进行备库实例开启,启动备库后开启实施日志恢复进程,操作一切顺利,没有异常。

| 问题深究

通过和现场值守人员交流,该备库在VMware虚拟机上运行,存储会定时进行备份,该备库近期一直无人操作,可以排除人为关库。只好通过查看数据库alert日志确定备库关闭原因。可以发现alert日志记载的非常明显。

**The controlfile header block returned by the OS has a sequence number that is too old.The controlfile might be corrupted. **

当多副本控制文件内部sequence不一致就会产生该错误。据MOS上文档 1589355.1 的描述,这种情况大多是因为存储错误或者IO错误的情况引起的。

| 改进措施

由于暂时无法解决存储端的问题,而且该备库因为此原因发生关闭的情况已经出现了两次,所以为了预防此问题的发生,根据文档1589355.1 的建议,修改隐藏参数_controlfile_update_check

SQL> alter system set "_controlfile_update_check"='OFF' scope=spfile; -- then bounce the database.

设置该参数后,每次控制文件更新时,数据库都会去检查控制文件状态。保证数据库的健壮性。

在未来如果解决了IO低效的问题,可以再次将该参数设置为默认值。

SQL> alter system set "_controlfile_update_check"='OFF' scope=spfile; -- then bounce the database.

| 作者简介

陈康,沃趣科技数据库技术专家,主要参与公司产品实施、测试、维护以及优化。

发表评论

电子邮件地址不会被公开。 必填项已用*标注