大家下午好。我们今天来主要是和大家探讨一下网络运维管理的一些问题。
我们说北塔网络在做网管这个市场上在国内已经有好多年了,从99年开始到现在已经有7年了,我们的管理思路在各行各业里都有我们的应用,就是在故障出现以前的网络运维管理。今天我们讲的主题,首先为什么需要管理呢?目前的用户感觉得越来越多了,主要是由几个方面组成的。
第一网络发展了十几年,我们的网络产品的性能、种类、规模和设备性能状况都不太一样。这种情况下,我们需要一个综合的管理系统,这是非常重要的。另外就是不同性能的要求。早期的网络是一个数据共享、数据访问的问题,随着网络的进一步发展,我们在各个行业都看到网络逐渐成为了多媒体的载体,语音图象在网络上越来越多,在这种情况下,不同的用户和业务需要有差别的服务,怎么样实现这个有差别的服务?我们需要对网络进行评估。从性能和要求上来说,我们也需要进行综合的管理。怎么样提高效率这也是非常重要的。网络平时不出问题我们也无法预计,而网络一旦出问题,这是在预想之外的,等出了问题再解决,往往会影响我们的速度,比如说有病毒,如果在早期发现就可以防范与未然,03年冲击波病毒发作,如果你有合理的工具在网络上发现它,就不会造成很多的损失,而我国的电力企业、能源企业因为没有事先管理机制,而处理冲击波的影响花了两三周的时间,这就是没有进行及时的故障发现。第四就是降低管理成本,这也是非常重要的。早期我们的硬件平台花费非常多,可能业务系统没有跟上,现在跑应用了,每年还需要大量的投入。企业就会考虑了,硬件已经做完了,为什么每年还要投入呢?因为我们的IT管理部门承载的网络是提供服务的服务器部门,效果不像企业的生产部门那么易于显现,我们必须要有综合管理系统来量化IT管理的成本的问题,让企业看到的提供的好处。否则往往IT部门会成为一个非常不重要的部门,或者很难引起企业的重视。很多领导会提出一种概念,最近我们在电力系统中听到的,信息化是以后指导生产的发展方向的比较重要的部门,但是目前来说在生产系统中影响非常小。我们如何提高自身的地位也是非常重要。还有就是新业务拓展,提高服务水平也是非常关键的。既然IT管理部门是一个为业务系统提供服务的服务部门,怎么提高我们自身的服务水平呢?这对于我们来说非常非常重要。如果我们没有服务水平和服务质量的话,你这个事情对用户来说影响非常大。很多用户都考虑到我是需要管理的,而且迫切性也非常大。我们看一下是不是有管理手段呢?是不是说在网络之初没有管理手段,其实管理一直伴随着网络的进行。早期的管理是和系统集成商的选择来提供的。我在系统集成的时候根据厂商来选择系统,我买了哪个厂商的管理我就买哪个厂商的管理软件,把硬件配置软件和网络管理混为一谈,他们认为这就是网管。但是实际上很多用户在具体工作中发现,采用这些管理系统不能解决它的问题。因为硬件厂商提供的管理平台解决的是简化配置的工具,从早期开始的目的就是每个硬件平台都是一个专用的系统,为了简化不用执行这么多的命令。还有就是可以上去察看一下设备的性能状态。但是我们的运维管理过程中关心的是什么?业务系统在上面跑的好不好?有没有病毒等。这些是我们关注的。而硬件厂商不关心这个问题,因为这个和硬件平台没有关系。而对于我们来说,如果跑不起来,你的硬件再好有什么意义呢?
很多的用户包括国有大企业发现这些问题之后,开始改成了工具类的东西。它的目的是什么呢?解决某一类简单的问题。在早期的网络管理中,我要有个工具,这类工具的管理软件是解决一些简单的问题的。这些产品给用户造成了什么概念呢?就是深度管理。你首先告诉我什么地方有问题,然后我再解决。因为我们的网络越来越重要了,不要有中断和延误等,我不能预期问题在什么地方,这就造成了事后管理的概念。
也有一些大型企业,比如一些医保、社保、电力、石油石化,他们后来发现有这样的问题,而到国外考察,发现了一些大而全的系统,投资很多资金去构筑平台,后来发现效果不好。用户不仅要问了,在国外买的产品回来用得不好。这里也有一些实际情况,因为这些大而全的产品立足什么?国外的软件提倡的是一种概念,我们的服务部门应该怎么管理的?忽视了基础设施的关系。我们举个简单的例子,我们在前年在北京碰到大型的保险企业上管理系统招标,结果也是上了IT/ISM的系统,用户问了怎么发现问题?他说我用的网络里都是思科的设备,我们就用这个系统来发现问题,而用户就问了,这个对路由器的影响很重,平时是不打开的,怎么知道呢?结果他们说你看到有问题就打开好了。这是悖论,我们就是要系统来告诉我们问题,而我看到问题时打开,这有什么意义呢?没有意义。最后还是用不起来的。后来电力部门到国外考察,发现为什么国外这些系统用得很好而在国内不好呢?国外这些部门为什么会强调IT服务管理,实际上这些系统卖给用户而不是自己用的,而是卖服务的,这些系统卖给你了,是我代你管理网络的而不是你自己管理。国外的一些中型企业网络不养专人来管,而是外包的。他重视服务,因为他每年都要向人家收钱的。而在国内没有问题发现机制我们要这个管理有什么意义呢?连房子都没有,装修有什么意义呢?传统的方法的缺陷是且少有效的管理手段和方法,使得来电响应式的管理成为企业信息网络管理的实质。企业信息管理员成为救火队员,在早期搭建没有什么用的时候没有人知道信息部门的存在,认为信息部门就是一个可有可无的部门,但是当我们的应用系统上得多了,大量的系统在上面走了,网络出问题,天天有人找你,天天有人埋怨你。我们说我们考虑网络管理应该考虑哪些层面呢?有两个,一个是IT基础设施运维管理,这是早期做的事情,就是及时的进行事件的发现和处理,既然我们不能预期网络在什么地方什么时候可能出问题,我们是实现基础设施的透明化管理,把原来是黑箱子的网络透明化管理。我们的考虑是预防为主、事先管理,这是非常重要的。它的概念就在这里,在这个基础上还有一部分,是发展方向体现价值的问题。当一些企业比较大,管理人员比较多,这时候我为了实现管理的标准化和流程化,保证流程质量,我需要考虑IT服务管理,这是非常重要的,是分两部分的,IT基础设施和运维管理是基础,是确保服务质量的管理,如果我们没有发现问题怎么保证呢?在中国IT管理处在建设性阶段,这是我们优先考虑的目标。
基础设施运维管理我们实现透明化是四个层面,网络、流量、服务器和应用来实现透明化的管理。怎么样实现透明化的管理,我们下面阐述一下。
我们说运维管理的特点是什么?我们不能预期网络在何时何地可能出现问题。我们通过透明化管理就可以及时发现问题。我们说事前管理是怎么体现的?这里有一张图,是电网的,我们是通过颜色主动告知用户要关注什么地方,比如说这里,超高压的部分,这里为什么值得关注呢?这里走的数据量是非常小的,但是CPU的负载大概是50%几,在没有流量的情况下负载很重,所以要检测路由器,因为有IP地址扫描就消耗掉了,后来我们发现下面有一个机器有病毒,所以我们不能预期在何时何地出故障,就用颜色来反映网络的情况。黄色的地方表示应该关注,红色要马上关注,因为已经处于临界状态了,蓝色的是不需要关注。因为任何应用对网络元素都有影响,而这种影响我们的网络是很强壮的,不会因为一个地方有病毒或者结构不合理就造成瘫痪,我们通过颜色来告知大家应该关注什么地方,这非常重要。难道仅仅是设备上吗?网络设备不合理也是非常清楚的,这个线路也是有问题的,就在这里。他有什么问题呢?他们设计的路由是负载均衡的,但是这里是不均衡的,这是结构上的问题,后面查是路由设计不合理,这里有一条静态路由没有擦掉,这就是把网络透明化就能够看出来的。还有就是在这张图上实现了信息关联,很清楚。我们可以看一下,互联网出口有一个负载均衡器,这里有两个出口,一个是网通的一个是电信的,这两个联路上实现了负载均衡,这些都是红色的,证明流量很高,这是从哪里来的?我们可以看一下,是从湖州局来的。我们就可以点到湖州局里去看,是哪个交换机和端口,下面是谁,我们可以看到这个人在干什么事情。我们实现透明化的管理就可以防范于未然。这对于我们来说管理起来难度小很多。所以说我们用颜色告诉你,通过一些手段去看,到底是正常的访问还是非正常的,是因为什么原因引起的。
我们也不可能天天在这里看,我们有报警手段,出了问题以后主动告诉你,通过短信或者语音告诉你,你发现了问题以后也不需要到机房去,我们有远程广泛,是Web方式的,只要可以和网管联通就可以看到网上的情况,就可以实现无人支持减轻管理负担。还有启发思路的管理表现,这也是非常重要的。很多网络问题不能说用一个管理系统马上告诉你什么原因引起的,是很多的东西纠葛在一起的。
这个图是从浙江国税局拿来的,有一次我们到那里去显示,发现所有的链路都是红色的。我们就看了一下核心交换机的流量分布,每个端口有一个4M的流量,这里有效的数据包并不多,而广播包的数据有1000多,这就显示广播包超标了,这是从哪个端口上来的?当时发现有大量广播包,这是怎么组成的?都是1048的端口对1427的端口。我们可以发现他来自哪个地址?我们就找了一下,都是同一个地址的,马上就找到了这个机器,后来发现这是一个税务征集系统,用了好几年了,后来发现不正常,后来来了新的康柏的服务器,就把机器拆下来换上它了,那个机器作为冷备,但就是这个机器出了问题。如果我们不能及时发现,很多机器感染上病毒了之后就非常麻烦。信息关联是很重要的,我们有很多的管理系统和工具,比如说我看到哪个IP地址在扫描呢?怎么找呢?如果不能实现信息关联管理起来是非常累的。我们这里有一张图在实现信息关联,在反映设备的信息状况,我们点一下就关掉了,蓝色的端口就表示和信息联着,我们看到每个端口下的信息是谁呢?非常清楚。这样对我们来说,通过信息关联我们就可以把网络透明掌握在我们的手上,这是非常重要的。跨厂商的统一平台管理对我们来说也是非常关键的。网络是不断发展的,服务器和网络设备不可能是同一厂商的,我们要对全网进行综合监控必须要有跨厂商的综合管理,这是为了总体上看而不是局部。跨厂商的统一平台管理并不是空话,为什么很多的国外软件不行,及时像思科这样的厂商也不是很完整,这就需要有大量的经验和知识,每个厂商都有自己的需要,需要深入到厂商的产品中去,进行了解才能形成综合管理平台。很多网管说,很简单,花两个月就可以对网络进行管理,不是这么回事,必须要对它进行整体的分析。跨厂商的平台好处就在于换个角度看问题。关键在什么?我们说很多网络上的问题从网络应用角度出发总是滞后的,总是先有病毒然后又杀毒软件的,总是先有黑客攻击才有防范的。病毒是通过广播传播的,很多的垃圾会在交换机上,交换机的内存占用比例会很高,这就会引起警觉啊,黑客供给是通过跨网端的扫描来进行的,我们及时注意通过监控来掌握态势,这就是事前管理,而不是出了问题再管理,这是非常重要的。
网络平台的组成有很多的东西,这里列举的太少了,直接的业务保障也是很重要的,我们的管理人员始终关注的是什么呢?应用系统在上面走的好不好,我们是为业务系统提供支撑的,我们必须关注业务系统的好坏,业务系统怎么关注呢?很多人有个误区,这就意味着关注服务器的情况。我们在上海市政供电局碰到了收费系统跨掉了,主任很惊讶,为什么?不可能的,系统有监控系统,跨掉会告警的,我们去看了,他们用了我们的系统,但是最近发了ARP的行为,有一个人找到了这个数据库,把自己的系统做成了这个数据库,发了大量的ARP包。我们进行了监视,如果IP地址不是从这里上来的,就把它关掉,后来系统好了,我们就不用找他,他上不了网了打电话过来,我们一查就是他干的。网络位置是不能有移动的,第二是利用仿真。模拟员工的行为去访问它。这样通过仿真模仿用户的访问去访问保证业务系统是好的。第三才是监控服务器内部的进程是不是好的,通过全面的监控才能保证整个业务系统是好的。我们的服务目的是保证业务的顺利进行,所以我们要进行全方位的监控。管理不是一个人的事情,各个管理员都有自己的权限和区域,整个大网络不可能用一套系统管理,跨得太多了,层次化的管理是非常重要的,目的是保证有问题的时候上级可以管到下级,在物理上分平台但是逻辑上是整体。我发现某一个地方的IP地址有病毒,层次化管理就是我查的区域不是我的网管平台,我一查可以定位到下边某个县、市的交换机平台端口上,否则我们无法实现综合管理。
支持新业务拓展也是非常关键的,在没有问题的时候,我们并不去干涉网络,主要的目的是为了今后进一步的改造提供依据。主要是为了这样的目的。我们最后要考虑的问题是实施管理的代价。这个系统要花多少代价,并不是指购买产品多少代价,你还要考虑设备和人力的投资,这些都是非常重要的。我买了一个管理产品来,必须要请一个高管的人,必须要基础设施改过,这也是非常大的。必须要考虑管理代价,规则的制定也是非常重要的,我上了管理系统必须根据管理工具把整个企业的管理思路和规则重新制定一下,这是不行的。我们碰到过这方面的事情。PC桌面管理,2000年的时候国内还没有人上,有一套美国的系统,是PC行为管理和产品监控,是台湾的公司实施的,施工了两个月,结果用了多长时间呢?两个礼拜,结果没有办法用了,他试图去改管理规则和控制人的行为,监控人家的桌面。上面的生产部门不愿意了,你凭什么看我的桌面和控制我的行为,我想炒股和玩游戏是正常的,最后有的人就把机器搞坏了,最后只能放弃。现在的PC桌面管理用户用的更多的是资产统计等,而不再强调控制人的行为,这不是信息部门做的事情,是企业整个规章制度制订了,总经理办公室下命令了才能做,不下命令是不能做的。不要试图改变游戏规则,否则是很难的。
减少对环境的依赖,不要对完成有太大的依赖,这个管理很好,要在服务器上加一点东西,没有人敢,因为业务系统很重要,万一出了问题说不清楚。对国内的产品来说,你要用户把一本说明书读懂是不太可能的,兴趣就是15分钟上去看到的功能是有的,没有看到的就不能。另外不能依赖上门服务,你要养多少人上门呢?要提供远程技术支持,你在任何地方碰到问题了,不能用,你只要能够上互联网,就可以在你的机器上操作,就可以看到了,你一年获得一百次服务都是没有问题的。优势简单说一下,就是易用性、主动性、实用性、扩展性、便捷性,这些东西不仔细讲了。
BT-NM的发展思想都是按照用户的需求来做的。我们讲一个广交会的案例,哪里有16000个布线点,每次开会的时候有13000台电脑接入,在03年前是无法用的,上网下订单、发传真,而03年1万多电脑接入不能保证是否有病毒,造成了网络瘫痪。每次开会传真排队非常长。03年的时候他们改造成线速交换机,三层架构。04年初开广交会,网络不瘫了,但是互联网端口堵塞,大家还是没有办法上。我们正好去介绍我们的产品,他们说让我们解决。我们在端口放了一个探针,只要有异常的马上告诉我,通过我们定位看在哪里交换机里,把那个端口关掉,然后像管理员报警,管理员再去杀毒。通过病毒和异常访问屏蔽在这之外,广交会用了我们的系统可以非常正常的使用了。以前的那种加带宽,增加硬件来扩充带宽来防止问题的方式是不正确的,管理是预防为主,有几千台机器有问题根本无法管,要把问题屏蔽在网络之外,达到我们服务的目的。
这次因为时间关系就讲一个案例。大家如果感兴趣的话,会后可以和我们的交流,也可以到门口和我们的销售拿资料。谢谢大家。
|