当前位置:硬件测评 > 为什么说云计算拼的是运维

为什么说云计算拼的是运维

  • 发布:2023-10-10 17:40

为什么说云计算就是运维呢?

如今,云计算的产业实施并不困难。现在有开源软件KVM和Xen,基本上都是处理虚拟化的;而OpenStack处理管理和控制系统,也非常成熟。 PaaS也有相应的开源,比如OpenShift,Java的中间件框架和技术也有很多。另外,分布式文件系统GFS/TFS、分布式计算系统Hadoop/Hbase等,分布式的东西不再神秘。技术的实施以前可能是一个问题,但现在不是了。

对于云计算工程来说,现在最困难的就是运维。无论是100台机器、10000台机器还是100万台机器,都是完全不同的。如果机器少了,可以用人来管理,但是如果机器多了,就不可能靠人了。运维系统不是一个功能性的东西,对用户来说是看不见的,所以是一个被大家严重低估的东西。只要做大了,就必须在运维体系上做文章。数据中心/云计算追求的是运维能力。

为什么说云计算就是运维

运维复杂的原因有多种。

一方面,云计算用廉价的设备取代了那些昂贵的解决方案。互联网就是用廉价的东西来打造高质量的东西。硬件和资源一定不能是高端的——比如EMC、IBM小型机、SGI超级计算机等,如果用它来构建云计算,成本就太贵了。用廉价的解决方案取代昂贵的解决方案是迄今为止整个计算历史上唯一不变的事情。所以如果你想让你的夏利像奔驰一样跑起来,你需要自己做很多事情,建立一个智能系统。用廉价的东西制造高质量的东西,并运营和维护好廉价的设备,实际上是云计算项目中最大的挑战。

另一方面,由于机器较多,所使用的硬件也不贵,故障已成为常态,硬盘、主板、网络每天都会出现故障。所以,没什么好想的,运​​维一定要跟上。云计算的目标是在故障成为常态时确保高可用性——即我们所说的服务可用性,无论是3个9、4个9还是5个9。

最后,当大量机器和设备放在一起时,安全问题是一个挑战。一方面是安全,另一方面是安全。确保数十、数百台设备的安全很容易,但对于数万台设备、10万台设备的设计就没那么简单了。

面对这样的问题,人类无法解决,只能依靠技术来管理和运营整个平台。例如,必须有一个监控系统。这与操作系统相同。对于资源管理,必须收集网络流量、CPU利用率、进程、内存等状态。收集整个集群各个节点的状态对于每一个云计算来说都是不可避免的,而且都是相似的。

然后,我们需要寻找可用性较好的节点,这就需要一些故障自检功能。比如阿里云就遇到过磁盘使用一段时间后会莫名不稳定,部分磁盘I/O变慢的情况。速度变慢的原因是硬盘没有工作,因此硬盘控制器可能由于CRC校验错误而需要多次读取。这就像TCP数据包正在传输时,数据出错了,需要重传。当硬盘处于半死状态时,你肯定需要一个自动检测或自动发现程序来监控这种事情。当磁盘可能无法工作时,将其标记为坏磁盘。不要使用它。在另一张磁盘上读取它。获取一份副本。我们要有自动故障检测和预测的措施来驱动故障,而不是被动地响应故障,这样用户体验才会好。换句话说,我们需要自动化、主动的操作和维护。

为了数据的高可用性,只能采用数据冗余的方式,将多份写入不同的节点——行业标准是写三份以保证安全。但是,您会产生冗余并存在数据一致性问题。为了解决冗余带来的一致性问题,引入了paxos的投票方法。每个人都投票决定这是否可以改变,所以你需要一个强大的控制系统来控制这些事情。

另外,人们在公有云中来来去去,公有云中的资源和服务是今天用的,明天就不用了。它们被分配、释放和冻结。你需要开发一个资源管理系统来管理这些资源的生命状态。还有权限管理,就像AWS的IAM一样。如果没有像AWS这样的IAM权限管理系统,AWS可能不会像今天这样被那么多大公司使用。对于企业级云平台来说,需要企业级的运维和管理能力。

为什么云计算开源的东西那么多,但不是每个人都能做得到?

一方面,这就像建造一座建筑物。盖楼的技术不难(当然,盖高层建筑难),但是没有土地怎么盖呢?云计算也是如此。带宽的价格和土地的价格一样昂贵。事实上,云计算和房地产一样,需要土地、机房、带宽。如果你能买下中国所有的机房、机柜、带宽资源,你就不需要做云计算了。你只需要出售土地——因为这些土地是有限的。在最简单的示例中,IP 地址是有限的。你有带宽,你有空间,但如果你没有IP,那就没什么乐趣了。尤其是如果你要提供CDN服务,这一点就更明显了,因为物理节点的数量直接决定了你CDN服务的质量。

另一方面,前面也说了,运维是一件困难的事情,运维不是一般人能做到的。如果没有足够的场景、经验和时间,这种能力是很难显现出来的。从用户的角度来看,云计算是一种服务。您需要对用户企业内部的解决方案有很好的了解,这样您才能改进良好的服务。能够提供“良好服务”的企业通常将自己视为用户企业。

卖汽车也是卖服务。仅仅因为你制造了一辆汽车并不意味着你已经完成了它。如果没有道路、没有加油站、没有4S店、没有交通管理、规则等,你要么用不了,要么就乱七八糟。你不能只让用户看看你的车有多酷,但用户却不知道如何使用它。所以云计算的旁边最终一定要有一套服务设施,而这套服务设施在今天也是被低估的。

云计算有两点我个人感觉被低估了,一是运维,二是服务。提供服务的人需要一个生态环境,需要有人帮你做。因此,云计算的实施并不容易。再次强调,云是一种服务。只要提供好的服务,无论是公立还是私立,都是有价值的。

相关文章