云计算作为一种新的IT服务模式,已得到越来越多政府部门和企事业单位的认可和应用,审计系统也把构建审计云平台作为审计信息化下一步工作的重点。但云计算的安全问题特别是数据安全问题,成为制约审计云平台建设的重要因素。作为数据安全的三要素之一,数据可用性有别于数据保密性和数据完整性,侧重于确保授权用户能够持续、可靠地访问或使用数据资源,其关键在于能够从容应对各种故障导致的数据破坏、数据丢失等威胁。这就要求在服务器断电、自然灾害等不可控因素导致数据丢失或者服务中断等情况下,审计云平台能够快速恢复数据和重启服务,保证审计人员能够24小时不间断地访问或使用已授权的审计数据,从而保障审计项目、审计数据分析等工作持续有效地开展。 技术框架概述 为了切实保证24小时不间断的审计数据服务,审计云平台可以采用“本地数据多副本、两地三中心灾备”的数据可用性技术框架。框架中的“本地”指的是审计署数据中心所在城市,即北京;“两地”指的是本地和异地,其中异地相对本地而言,指的是距离北京较远的城市。“本地数据多副本”指的是审计署数据中心采用多副本技术,保证在发生服务器故障或服务器机柜毁坏等情况下,仍然可提供数据服务。“两地三中心灾备”中“三中心”指的是审计署数据中心、同城灾备中心和异地灾备中心,其中审计署数据中心和同城灾备中心处于同一个城市,同城双中心间采用专用高速网络互连;而异地灾备中心通常距离本地较远,不与审计署数据中心处于同一地震带、断电区域等灾难区域,采用常规通信网络与同城双中心互连。 同城灾备中心的主要功能是当审计署数据中心遭遇诸如区域电力系统故障、自然灾害等严重故障而导致审计署数据中心数据破坏或数据丢失时,可利用同城灾备中心继续提供数据服务并进行灾后恢复,从而确保审计云平台的数据安全和服务不间断。 异地灾备中心利用地域上的分离来提升审计云平台对灾难性事件的抵御能力,当本地双中心遭到严重破坏时,在异地灾备中心仍然有一份可用的数据,并能从该数据中快速地恢复审计署数据中心的数据,从而继续提供数据服务,保证数据的可用性。 本地数据多副本 通常情况下,数据保持三个副本能够保证绝大多数情况下数据是可用的,但这三个副本如何分布是有一定技巧的。首先,三个副本不能放在同一机柜中。这样就能防止当机柜断电或毁坏时三个副本同时失效。其次,三个副本中最好有两个副本位于同一机柜。这是由于审计云平台通常运行在具有多个机柜的服务器集群上,机柜内部的数据传输速度要高于机柜之间的数据传输速度,这种方式能够在保证数据可用性的同时降低数据传输的开销。 Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)就是基于上述多副本分布理念,采用机柜感知的方法来提高数据的可用性和网络带宽的利用率。HDFS将文件划分成一系列数据块来进行存储,数据块默认大小为64MB,也可配置成32MB、128MB、256MB等大小。为了保证数据可用性,每个文件的数据块通常都会配置成三个副本的方式。对于某文件的数据块A,比如A要放在机柜1中,在写入HDFS时通常首先会在同一机柜的不同数据服务器创建一个副本,同时在另一个机柜2中也创建一个副本。在发生数据服务器失效或机柜故障时,这种副本分布方式能够保证至少还有一个数据副本是可用的,从而提高数据可持续访问的能力。 两地三中心灾备 “两地三中心”的三个中心有着明确的主从关系,其重要性各不相同。审计署数据中心是数据的生产中心,也是主数据中心,由其对外提供数据服务;同城灾备中心和异地灾备中心都是备份中心,但同城灾备中心由于采用高速网络与审计署数据中心相连,其重要性要高于异地灾备中心。通常数据备份路径是从审计署数据中心备份到同城灾备中心,再从同城灾备中心备份到异地灾备中心。备份路径一般不会考虑从审计署数据中心直接备份到异地灾备中心,因为这种方式会显著地增加审计署数据中心的负担和开销。但当同城灾备中心发生故障时,必须考虑将审计署数据中心的数据直接备份到异地灾备中心。 (一)数据备份方案 “两地三中心”中的任何两中心之间都可以采用同步复制或者异步复制的方式进行数据备份。同步复制是指A中心和B中心的数据在任何时点都保持着一致性,即对引起A中心数据变动的任何操作都需要实时同步地施加到B中心,从而保持A、B两中心数据的高度一致性;而异步复制是指定期将A中心的数据变化复制到B中心,A中心和B中心的数据更新存在一定的时间差,如果在这个时间差内A中心发生故障,将会导致部分数据丢失。异步复制可以考虑采用增量复制的方法,从而节省数据复制所占用的带宽,缩短备份时间。显而易见,同步复制的数据一致性要高于异步复制,相应地,由于需要实时同步数据,同步复制的开销也要高于异步复制方式。 为了兼顾数据一致性、同步开销、备份路径等因素,审计云平台三个中心之间有两种可选备份方案:方案一是审计署数据中心和同城灾备中心进行同步复制,而同城灾备中心和异地灾备中心进行异步复制;方案二是审计署数据中心和同城灾备中心,同城灾备中心和异地灾备中心全部进行异步复制。在实施时,必须结合数据特征进行考虑。审计署数据中心的数据主要有两种:一是实时生产数据,是由审计计划软件、审计项目管理软件等实时生成的审计管理数据;二是批量导入数据,是出于数据分析的需要而批量导入的被审计单位数据。对于实时生产数据,可以考虑采用方案一;对于批量导入数据,可以考虑采用方案二。在进行数据备份后,要注意使用数据验证工具对备份数据进行验证,从而保证数据的完整性与一致性。