WatchStor.com — 领先的中文存储网络媒体 | 51CTO旗下网站

评论分析 > 大数据 > 正文
为数字校园提供信息基础架构
作者: 佚名 2010-02-08 17:05 【中国教育和科研计算机网】

11月24日消息,由教育部科技发展中心主办,《中国教育网络》杂志承办的“2009(第四届)教育信息存储大会(北京站)”今天在清华大学举行。中国教育网做现场报道。

EMC资深技术顾问 杨  捷 

图为:EMC资深技术顾问 杨  捷

下面是EMC资深技术顾问杨捷演讲实录:

主持人:下面我们要介绍EMC公司的一个发言,本次大会得到一些业界的、企业的支持。此次大会由EMC、重庆雅阁、浪潮集团、戴尔公司、新科储存有限公司、微软有限公司等的支持,下面有请EMC资深技术顾问杨捷女士,她为我们讲述EMC数字教育理念。大家掌声欢迎!

杨捷:各位老师、各位专家大家上午好!今天很高兴有机会在这里跟大家一起学习、一起探讨怎么建立更高效的数字化校园。也是结合我们之前跟很多学校老师的交流,包括我们在过程中积累的经验,能够跟大家做一些分享。我们其实也在过去几年中看到,其实我们在信息化建设方面也经历这样不同的发展阶段。所以现在看到有这样趋势在我们校园网络和信息化建设过程中,我看到很多学校都在提我们要建设新一代数字化大学,这个过程中我们谈到很多整合,包括应用的整合、管理的整合,中间就会带来数据整合、所有计算、资源的整合。

我这里提出来一个理念,就是我们在新一代数字化大学建设过程中,实际为整个校园建设资源中心,所以这个里边就会包含各种各样应用,应用产生各种各样数据。在为大家提供应用和数据的时候,我们需要各种各样计算资源,包括刚才陈教授讲的有云计算的平台,除了普通的服务器之外,我们还有专用高清计算平台。所以现在有一个趋势,一个建设数据中心、还有一个建设计算中心。并且我们看到应用越来越多,做了很多整合之后,实际上我们校园在管理这一块也面临越来越多压力,怎么简化我们管理,管理中心也是这样趋势。

针对这样的需求,一个方向我们怎么构建我们整个基础架构。在这个之前我们首先看一下在整个数字化校园里边有什么样应用?根据不同应用类型我们会分析各个方面有什么需求,根据这些需求我们制定什么样策略、用什么手段和技术最适合的。所以我们先从应用角度看。

我们学校都建立校园一卡通系统、包括数字化校园理念,有很多模块,还有就是我们每一位老师、每一位学生都有校园电子邮件,我们看到一个趋势我们为所有校友提供终身的电子油箱,在这一块有不断增长数据在里头。

我们刚才提到传统网络中心的应用,另外在数字化图书馆里头,以前是外购一些图书,现在看到趋势我们学校建立自己的数据中心比如我们网络教学音视频资料。

以前我们建立高性能计算中心,很多学校都会自己建立高性能计算中心,实际没有做到资源共享,未来趋势我们怎么分散在每个院系、各个学校资源整合起来协同操作。在我们从教育科研环境里边,实际上现在应用模式也是在不断转变,随之带来就是我们数据量越来越大,在不同应用系统里边,不同类型数据量会越来越大,不同数据对于性能要求不一样、对于数据安全不一样,对数据连续性不一样。

一卡通可能学生每天随时随地都要用,这个一卡通系统可能不能停机。相对于其他资源类应用和数据停机大家可以接受。所以我们看到不同应用、不同数据有不同要求。我们学校建设整个信息系统的时候,在信息化过程中面临这样的挑战,数据类型越来越多、数据量越来越大,应用也越来越多。有一类应用叫个性化门户,有不同的老师、不同的院系、不同的教研组都有自己门户的应用,为校园或者为部门提供应用服务,所以这些应用我们看到有一个趋势,他会在校园网里边在网络中心进行托管。

针对不同的应用系统其实关注点不一样,可能对业务连续性要求非常高,另外在高峰期间对系统要求比较高。一些自建资源数据它是我们所有老师和同学智慧的结晶,所以它是对数据保护需求非常高的。我们看到针对不同类型的需求,我们要有不同的解决办法。我们一直提到EMC提供信息技术架构。

从我们理解来讲分几块。这里边主要分四大块,储存大家比较熟悉,我们怎么样能够以最有效的方式来保存我们的数据、来管理我们的数据是我们第一个考虑的,再有我们有数据之后怎么进行保护,保护分两大块,一块是数据安全,每年我们都会这样的研讨会专门讨论安全话题。比如网络安全、加密、身份认证等等东西,保护我数据怎么保证不丢失、应用怎么确保连续性,所以这一块是保护讨论的内容。第三块是我们提到对于数据中心来讲,一个机房环境、包括空调等等,这些随着应用增加消耗增多的,怎么在现有基础上还有管理、人力成本不增加的基础上,能够支撑越来越多应用。在数据中心需要虚拟化架构。第四块更多跟应用相关。这一块可以跟企业应用结合,在国外医疗行业里边已经做了很多数据的整合,它可以把各种各样类型数据,通过内容管理平台把它展现给所有使用者,这个是我们后续可以进行交流的地方。

从储存角度我给大家介绍普遍使用的架构,EMC是技术型公司我们在市场里边有什么样新的技术,可以解决我们目前面临的问题。传统的架构我相信很多人都已经了解,我们针对不同类型的数据,我们需要不同形式、不同技术储存访问平台,这里列出比较主流。有FC SAN、IP SAN、NAS,自建资源用NAS访问,云计算高性能计算等等,以后有一个趋势云计算里边有新的储存云储存,在我们研发中心有专门有一些人研发新一代云储存技术,未来我们可以探讨在云环境里边是什么储存技术更合适。

今天我们还是看应用比较广泛、比较成熟的架构。对于现在网络中心,我们看到过去几年中已经有非常明显的趋势,我们叫储存整合,我们把原来每一个服务器、有一个统一的架构统一管理起来。针对不同类型的数据有不同类型的访问模式,比如一卡通可以通过SAN方式进行整合。对于边缘化系统,比如门户等等通过IP SAN整合,再有的音视频、语音文件通过NAS进行整合。我们通过光线SAN整合的时候,单个带宽达到8个G,很多学校网络中心都有万兆网骨干,也看到这样趋势储存这一块万兆网部署也渐渐通过,使原来带宽不再成为一个瓶颈。这是非常标准的统一储存的架构,能够满足我们目前网络中心、数字化图书馆目前除了高性能计算以外,应该所有数据储存和访问的需求。

在储存介质上边,我们知道之前有两大类,一个光线板、一个SAN板,对一些要求非常高性能苛刻的系统,要求相应时间非常快,对于这些我们提供新的储存介质,有闪盘。这种闪盘跟我们现在有在储存里边企业级闪盘不一样,这种企业级闪盘比原来光线板提高30倍处理能力,并且它的相应时间不到一毫秒,这里有一个数据可以给大家看一下。

闪盘我们建议大家在你应用环境中,对于性能要求特别高、还有对延迟特别敏感的这类数据放在闪盘上,通过这样我们再做分层储存,一般性能放在光线板,不经常用放在SAN板上,降低成本。对于数据库来讲我们有这样建议,做数据查询、频繁访问的表可以放在闪盘上,其实历史表可以放在光线板,可以提高查询速度。

这里我们有一个交易系统做一个测试,这个测试其实是我们平常股票的交易,每一天峰值有三段,一段早晨九点到中午11点半,然后下午一点到五点,每个人关心股市可能看行情,所有下单交易数据放在数据库里边,每天晚上六点到八点有清算时间,所有数据写着占80%,读占20%。这套系统我们只用了两个闪盘,写的时候只有一个盘真正工作。剩下一些历史数据都放在光线板,做了分头储存。在绝大多数时间里边,我们闪盘相应时间是在0.25毫秒左右,只有个别时间段峰值的时候会到4毫秒左右。

光线盘同一个时间四十毫秒左右。这个系统远远没有把闪盘压力压到极限,我们并没有得到这两个闪盘最大压力是多少,但是可以看到峰值可以达到1200IO,其实并没有到闪盘的极限。其实我们也看到在学校系统里边,我们开始应用闪盘。有一个学校在一卡通系统里边,比如说中午时间段,一卡通交易很频繁大家都在使用的时候,原来有性能瓶颈,用了闪盘提高数据库查询和访问的时间。

另外有一个客户也是学校,已经把数字化校园数据库部署我们闪盘架构上边,把最新的数据放在闪盘上,提高整个数据库的查询性能。

我们刚才提到有光线盘、闪盘我们现在做法手动部署数据,必须事先分析出来那些数据频繁访问,对性能要求高的放在闪盘上,我们在今年推出新的理念和技术,叫全自动分层储存,在储存系统里边有这样一个智能,根据你应用对于数据频繁访问度、性能要求把你数据不同储存介质之间做动态的迁移,迁移过程中应用不受影响,当你要求性能高的时候把这个数据自动放到闪盘上去,我们看到性能要求下来就防到光线盘上。这就是全自动的分层储存。

高性能计算除了对计算资源有很高要求之外,对于储存系统也有非常高性能要求,并且我们看到高性能计算环境,在传统高性能计算比如有一百个结点,可能有八十个、九十个计算结点,这些计算结点需要数据从我们储存结点来,一般部署几个结点过储存结点,计算结点和储存结点通常用网络共享的,为了给这么多计算结点提供数据、提供高带宽数据传输,本身高效能计算系统。有几个网络储存结点给计算结点提供数据,这中间有一个问题,在计算结点和储存结点传输效率并不高,仍然走文件传输,在传文件类型的数据所以效率不够高。

我们在刚才架构上边,有三家SAN架构,我们还启动多种文件系统,可以使整个集群理念所有计算结点都变成储存结点,所有计算结点都可以直接通过线速速度访问数据,看一下它的具体原理。当需要访问数据的时候向我提出申请,由我储存通过NFS协议,将他访问结点返回结点上,直接通过光线或者IP SAN拿数据,这个时候不受NFS协议限制,所以速度可以接近连接速度。

你的计算对于数据流量的带宽,我们说几百个、上千个结点都部署光线可能受不了,可能有个别环境少数结点工作,需要高带宽访问可以用光线传输数据。这个架构我们刚刚在上海超算中心系统里边我们部署这个架构,是1500个结点,都采用MPFSI架构部署的。这是给大家介绍一下,除了传统架构以外,因为我看到这样趋势,很多学校在网络中心建立自己高层计算集群,借助现有架构不仅仅支撑传统应用系统,也可以支持新的高性能计算。

第二个块我们看一下数据保护,并不是所有数据都需要保护,但是有些数据很关键需要备份,如果我们数据受到损坏或者丢失需要恢复。有一个老师校园网络上有很多病毒、攻击等等,应用系统比如文件类型系统、操作系统可能被病毒感染,还有网络门户经常被人黑掉了,怎么能够很短时间内把数据恢复正常的、好的状态,这是保护这一块帮大家做的事情。

当然针对不同类型的应用、不同数据还有你保护需要级别不一样。比如有的数据一天之前在就可以,比如一卡通数据尽量丢的越少越好,这样不同保护需求我们选择不同的技术实现。这里给大家介绍比较新的技术。

一种新的技术需求来源哪里?我看到在我们数字化校园里边数据量增长太快了,几年前可能在几个T徘徊,今年或者明年可能几百个T都有,怎么保护才能更有效?我们今天主题就是虚拟化,在虚拟化环境里边我数据怎么保护,虚拟化之后会带来很多问题,我们所有操作系统是不是都要保护,我们所有虚拟化数据怎么进行保护。

针对这样环境有一个趋势,我们有这样新的技术,叫做重复技术删除技术,这种技术为了应对数据量越来越大、而备份、保护窗口不变,怎么有限时间保护更多数据,再有怎么保护现有架构以及未来虚拟化架构。我们举一个很简单的例子,如果数据中心有10个T,如果有除存技术,当我做备份的时候只需要5个T备份空间,我们未来每一次做备份,或者第二天或者隔一周做备份多了5个T,因为有备份技术,第二次只需要备份2.5个T,在我系统备份10个T,因为有备份技术只有10.5T空间。我们现在通过这样技术可以帮助我们,首先减少备份对空间的占用,同时提高整个备份的效果。它的理念非常简单,我们在我们数据里头切成很块,我们通过算法把数据块算出唯一的地址,这个地址只要相同数据块就一样,只是把地址不同的数据块备份起来。很简单氢和氧,我们把氢和氧原子备份起来。

除存技术有两种实现方式,一种源端除存、一个目标端,我备份窗口不够或者有新的虚拟环境,我们建立用源端除存,对于网络带宽占用都能减少很多。通过这样技术我们可以备份更多的数据,可以将这些数据保留更长的时间。

比如我需要保护数据五分钟之前,我们有时间点恢复,有两种方式,一种快照克隆,恢复某一个时间点,另外一个技术任意时间点恢复。最后一块是虚拟化,因为时间关系,所以今天不花太多的时间。我们只是看一下虚拟化在数据中心帮助大家做什么,可以做资源整合、资源灵活调配、应用快速部署、绿色IT、通过整合之后提高我们整个数据中心可用性。其实后边专门有介绍虚拟化新一代技术,明天分会场EMC针对新一代虚拟化中心有什么解决方案,所以这里不太多说了。

我们看到现在数字化校园、数字化大学建设,我们要搭好比较完善的信息架构,依次支撑我们越来越多、各种各样不同类型的应用,以及由这些应用产生的各种类型的数据,同时帮助我们学校来进行数据保护、应用的保护,还有我们整个数据中心运维的管理。今天我就先介绍到这里,谢谢大家!

【编辑推荐】

  1. 昆腾发力中小型带库市场 希翼布局整合解决方案
  2. 专访EMC范承工:新浪潮推动业界巨变
  3. HDS的双赢模式:为用户提供优势服务带动业务发展
  4. 存储专访:整合磁带与磁盘 昆腾为用户提供更灵活的选择
  5. 赛门铁克满足客户需求 保旺达自主开发与系统集成两手一起抓

标签:大数据 混合云 数据保护 云存储 服务器虚拟化 

了不起的IT经理
LecVideo
论坛与活动