admin管理员组

文章数量:1530842

一、背景


中国移动有很多云,IT云、网络云、移动云,还有和彩云。本文主要记录移动云相关理解和工作记录,以供参考及回顾。

2017年,中国移动正式发布大云4.0,“大云4.0”融合云计算、大数据等技术,覆盖I/Re/S/M/A五层架构,实现大规模实例、多场景服务、跨行业应用,为各行业提供公有云、私有云、混合云、专有云、行业云总体解决方案,大云4.0主要包含云计算、大数据技术和平台产品,包括Hadoop系统、搜索引擎、Pass平台、大云数据中心操作系统等26项核心产品,实现在大IT技术架构下的全新平台、服务和生态构建能力。

移动公有云采用一云多池“5+X”两级架构体系。中国移动集团五大资源池构成核心层,省公司资源池作为边缘计算节点构成接入层。2016年,移动云完成南北资源池布局,Openstack集群规模超3000节点;2017年移动云新增湖南资源池节点,扩容北京节点,统一纳管云南等省级资源池节点,提供39项产品和7个支撑系统,已获得多项认证,可提供安全、可信的云服务。

对内方面,通过总部大规模集中新建一级平台(IT云),省公司开展多域、异地、异构资源池整合改造并纳管到一级平台,形成“一级平台、两级管理”的统一架构,逐步实现中国移动云计算资源的统一管理、统一运维和集中运营,有效支撑中国移动IT架构转型、业务创新和降本增效。

中国移动已完成构建“三环一体”云计算产业生态。已初步构建了“三环一体”的云计算产业生态系统:与内环单位合作重点开展预研和核心技术研发、社区合作;中环重点开展产品和解决方案集成领域合作;外环重点开展售后服务类合作。

移动云已完成N+31+X布局全面完成,中心节点覆盖13省份16节点,边缘节点超300个的资源布局;着力打造包括硬件、IaaS、PaaS、SaaS、安全、管理平台在内的六大产品线和“四融”能力产品;自研产品数量超210款,IaaS产品数量跻身国内第一阵营,操作系统、弹性计算、存储、云管平台已初步实现了软硬一体可控,引入合作SaaS产品超2500款,核心产品可用性高达99.98%,;已通过可信云评估服务30余项。业务形态包含:公有云、私有云、专属云、混合云、边缘云;已为14个省级政府、100多个地市级政府提供政务云平台服务;获得自主研发知识产权700+项,在全球云社区Ceph、Apache、Linux、OpenStack等社区排名靠前。另外,据中国移动通信研究院云计算系统部总经理孙少陵表示,中国移动与很多合作伙伴,包括华为、亚联等建立了一个大云的开源联盟。据悉,现在中国移动大云实验室已经搭建了一个开源站点,针对国内目前还没有一个比较成熟的开源系统的托管的网站,中国移动选择在国内自己搭建一个开源站点,同时把国际上最主要的开源网站系统作为中国移动的进场站点,会同时在两个站点进行系统的开源。

二、移动云产品认识总结

1、移动云全家桶






改版后的控制中心;


2、云主机

云主机是一种按需获取的云端服务器,为您提供高可靠、弹性扩展的计算资源服务,您可以根据需求选择不同规格的CPU、内存、操作系统、硬盘和网络来创建您的云主机。云主机从订购到开通使用仅需数分钟时间。云主机服务可用性达到99.95%,云主机备份数据以多副本形式保存,数据可靠性可达99.9999999%。

规格: vCPU / 内存比为1:1、1:2、1:4、1:8,从“1核2G”到“80核1280G”;采用2.3GHz主频的Intel Xeon Silver 5118处理器M2型和2.4GHz主频的 Intel Xeon Silver 6148处理器S2ni型和2.5GHz主频的Intel Xeon Gold 6248处理器S3ni型,2.5GHz主频的Intel Xeon Gold 6248处理器M3型,基于X86架构下其他各厂商的云主机类型:S2型和基于2.5GHz主频的Intel Xeon Gold 6248处理器S3型;基于2.35GHz主频的AMD EPYC 7452处理器S3a型;基于3.0GHz主频的Intel Xeon Gold 6248R处理器C3型;2.5GHz主频的Intel Xeon Gold 6248处理器D3型;3.0GHz主频的Intel Xeon Gold 6248R处理器EM3型;3.4GHz主频的Intel Xeon Gold 6246R处理器EF3型;5GHz主频的Intel Xeon Gold 6248处理器fp3型;






显示:NVIDIA T4/V100 GPU计算加速器;支持分片虚拟化后的虚拟GPU,计算能力支持NVIDIA Tesla T4/V100的1/4和1/2;T4单GPU 16GB显存,V100单GPU 32 GB显存、2560个CUDA Cores和多达320个Turing Tensor Cores;

网络类型:其中VPC是可以自定义的专有隔离网络,支持自定义网络拓扑和IP地址,可连接专线和VPN,具有较强的可控性。支持多个虚拟网卡,一台云主机可以同时绑定一个弹性公网IP以及多个内网IP,增强云主机的复用性。云主机最大内网带宽9Gbps,最大网络包转发率为2.8Mpps;云主机在不绑定公网地址和带宽的情况下,默认提供了从云主机到互联网的访问能力,用于进行互联网的简单访问。默认的提供的公网带宽只有512K,为保证您的业务网络畅通,建议按需绑定公网IP和带宽。

监控:免费提供云主机监控服务,包括CPU、内存、存储、带宽等多项指标的使用情况,并提供自定义告警服务。


云硬盘支持:移动云支持四种云硬盘,分别是容量型云硬盘、性能优化型云硬盘、高性能型云硬盘和性能型云硬盘。

注意事项

1>删除云主机会把系统自带的系统盘数据删除,删除前应把重要数据备份,谨慎操作。存储在云硬盘和云存储的数据不受影响。

2>云主机器可以搭建Oracle数据库,但是Oracle数据库对硬件要求较高,不推荐在云主机上搭建Oracle数据库作为生产环境。如果确实需要使用Oracle,建议上线之前做充分测试。

3>云主机不支持安装keepalived配置虚拟vip进行负载均衡,限制了只能使用用户在移动云上订购的IP。用户可以通过订购弹性负载均衡服务实现负载均衡功能。

4>云主机用户不能指定IP地址,IP地址由系统随机分配。

5>公网IP:目前一台云主机可以绑定三张虚机网卡,虚机网卡能绑定一个公网IP,所以一台云主机最多可以绑定三个公网IP。

6>公有云环境下Windows虚拟机使用多网卡时,有可能存在默认路由冲突的问题,导致虚机无法访问外网,这时可通过更改网卡的接口跃点数,在对话框中不勾选“自动跃点(U)”,在“接口跃点数(N)”中填入数值(范围是1~9999),数值越小,路由选择越优先,用户预期想使用的那个路由的接口跃点数值必须是最小的。可执行:pathping -n 8.8.8.8进行路由确认,查看当前使用的GW;当云主机新增网卡后,这时会发现使用的是新增网卡的路由,已不再使用初始网卡的路由。我们就需要配置这两个网卡的接口跃点数,使新增网卡的接口跃点数大于初始网卡的接口跃点数,从而走初始网卡。

7>公有云环境下ubuntu虚拟机使用多网卡时有可能存在默认路由冲突的问题导致虚机无法访问外网,可按如下处理,配置路由跃点数:

ubuntu12.04/14.04/16.04* 默认未安装NetworkManager,使用DHCP方式,可以在/etc/network/interfaces配置文件中添加METRIC=xx参数,并重启网络即可生效,默认值越小路由选择越优先,用户预期想使用的那个路由METRIC值必须是最小的。ubuntu 64bit 或32bit,对上层用户来说,在网卡设置方面没有区别,所以不区分处理。

新增网卡后,比如是第2块,则eth1默认是没有获取到ip的,这时需要手动配置网络文件:vim /etc/network/interfaces

# The loopback network interface
auto lo
iface lo inet loopback
# The primary network interface
auto eth0
iface eth0 inet dhcp
auto eth1
iface eth1 inet dhcp

ifup eth1 //重启网络,就可以获取到地址,并且自动生成对应路由信息,默认不会修改当前默认路由,需编辑/etc/network/interfaces,添加metric参数,如下所示:

# The loopback network interface
auto lo
iface lo inet loopback

# The primary network interface
auto eth0
iface eth0 inet dhcp
metric 10   #增加此行,值越小,路由优先级越高,即此处默认走eth0,保持原默认路由不变
auto eth1
iface eth1 inet dhcp
metric 100   #增加此行,如想路由走eth1,该值比上面小即可

ifdown eth0 && ifup eth0 //重启网络
ifdown eth1 && ifup eth1
验证: ip route get 8.8.8.8 //测试访问8.8.8.8所走的默认路由

同理对于RHEL、CentOS也存在类似问题,手动编辑网卡,添加:

A: RHEL6 默认未安装NetworkManager,使用DHCP方式,可以在if-eth*配置文件中添加METRIC=xx参数(注意:每个if-eth配置文件均需添加此参数),并重启网络即可生效,默认值越小,路由选择越优先,用户预期想使用的那个路由的METRIC值必须是最小的。

B: RHEL7 安装NetworkManager,使用DHCP方式,可以在if-eth*配置文件中添加IPV4_ROUTE_METRIC=xx参数(注意:每个if-eth配置文件均需添加此参数),并重启网络即可生效,默认值越小,路由选择越优先,用户预期想使用的那个路由的IPV4_ROUTE_METRIC值必须是最小的。

DEVICE=eth0

TYPE=Ethernet

ONBOOT=yes

BOOTPROTO=dhcp

METRIC=10       #增加此行如左,linux6
ifcfg-eth0

TYPE="Ethernet"

BOOTPROTO="dhcp"

DEVICE="eth0"

ONBOOT="yes"

IPV4_ROUTE_METRIC=20#添加内容linux7,metric值越大,路由优先级越低

8>延长SSH默认退出时长,按如下操作:
用户登录云主机执行vi /etc/profile,找到相应的TMOUT参数位置,更新TMOUT配置时长,输入ESC,输入 :wq!保存退出。验证:cat /etc/profile|grep TMOUT。

9>非GPU型云主机默认显存为16MB。

10>云主机中长时间不活动的TCP长连接,系统会自动中断。这是基于云主机在有状态安全组情况下,SDN虚拟交换机支持的最大连接数是有限的,为了优化网络利用率,目前对不活跃的长连接,设置老化时间3600秒,即如果云主机的TCP长连接在3600秒内没有任何活动,则系统会自动中断该长连接。

对于有长连接长期静置不中断需求的客户(如连接数据库),可针对连接使用的端口开启无状态安全组,无状态下,系统不会自动中断长连接。

11>当前云主机系统盘可通过订购页默认订购最大500G空间,如有更大需求,可提交工单申请,最高可至2T。

2.1 云主机启动自定义脚本

云主机创建完成后通过在定义数据处,写入一些初始化的脚本,就可以随云主机启动完成os环境的配置或者应用的初始化,诸如系统更新,软件部署,用户创建,服务启停等等脚本定义的个性化功能,而且这些都可自动化完成;
Linux支持支持user-data(shell脚本)模式。Windows支持批处理Bat脚本模式。




等主机启动后,会发现su cmsscloud 可以切换到cmsscloud用户;windows同类;

2.2、云主机底层软件的比较







3、云节点架构

中国移动基于OpenStack的云平台选择:


  2016年,中国移动云能力中心基于OpenStack Kilo版本的BigCloud 4.0的版本(基于OpenStack做BigCloud 3.0版本的开发)为基础建设移动云资源池,目前已经有非常大规模的应用。中国移动其实开始IaaS的研发工作开始于2009年,当时比对了业界比较主流的几个开源项目,最开始用的是OpenNebula,对OpenNebula的开发历时两年,有1.0、2.0两个版本,到了2013年,中国移动才决定转向OpenStack阵营。中国移动公有云和私有云目前采用的解决方案都是基于OpenStack。整个私有云不仅要支持虚拟化的资源,同时要向用户分配物理机,能够灵活管理物理机,利用了Ironic技术。用Manila去对接中国移动的文件系统,用了OpenStack的senlin系统提供私有云的弹性伸缩。整体规模也逐渐从 500 节点提升至 4000 节点以上。但随着时间的推移,单 OpenStack 集群的管理架构已无法支持后续大规模建设。后基于openstack集群规模的研究论证,云能力中心决定采用openstack Pike版来定制主机的弹性计算,并进一步提出了移动云大规模场景下的 IaaS 新架构设计方案。

  在全新的架构设计中,移动云基于 OpenStack 的多 Region 架构实现了多地域-多可用区计算、存储、网络资源的统一调度管理,以应对在超大规模云平台 IaaS 层资源管理中,复杂度急剧提升所带来的挑战,最终强化对上层业务(PaaS 层、SaaS 层)的支撑能力。受益于架构优化,移动云单可用区已支持管理 2000 台计算节点,并通过全面引入分布式块存储大幅度提升性能。目前,该架构设计已在移动云现网 6 大区域共计 13 个资源池中落地,总计纳管数万节点,提供计算及存储资源,为移动云大规模建设奠定了坚实可靠的基础。

4、主流虚拟化API接口比较

5、移动云组网结构

6、移动云管理平台架构图

7、移动云新资源池部署图


8、云计算提供商对比分析

9、接入网+承载网+核心网


上述案例,拓扑图中,右边为无线侧网络架构,左边为固定侧网络架构。其中,AR(access)接入路由器,BR(broadband route)汇聚(骨干)路由器,CR(Core Router)核心路由器,SR(Service Router)业务路由器;P(Provider 运营商骨干路由器,位于骨干网络);CE(customer edge用户边缘设备,包括交换机,路由器,设备本身,是站点接入设备);PE(Provider Edge服务商/运营商边缘路由器,是P和CE间的分界,与AR是一个概念,移动称为AR,联通称为PE);其中,PE\CE\P是MPLS VPN里的概念,AR\BR\CR\SR都可以做PE\CE\P设备;P (CR)-PE (AR)-CE(BR);

PE充当IP VPN接入路由器,即Provide的边缘设备,服务提供商骨干网的边缘路由器,它相当于标签边缘路由器(LER)。PE路由器连接CE路由器和P路由器,是最重要的网络节点,通常要求具备封装与解封装能力。用户的流量通过PE路由器流入用户网。,PE设备是汇聚层设备,接入的是经过CE设备处理过之后的数据,所以重点能力就不是接入了,而是汇聚、封装/解封装。PE设备和PE设备之间的路径根据起始点不同,可以是伪线PW,也可以是隧道。Pe设备中设备是核心层,重点能力就是强大的交换能力,接口种类比较简单,Pe设备和PE设备之间通过隧道通信。

CE为服务提供商所连接的用户端路由器,CE路由器通过连接一个或多个PE路由器,为用户提供服务接入,一般用来与PTN网络的边缘设备对接。CE路由器通常是一台IP路由器,它与连接的PE路由器建立邻接关系,(若)需要建立BGP邻居,则为EBGP;若需建立OSPF邻居,则为VPN-instance的OSPF邻居)。边缘设备的特点是接口种类非常多,数据量并不大。这就要求CE设备具备丰富的接口,能够接入各种设备,但是数据处理能力不需要特别强。

一般CR\BR是不会做PE设备的,只做P设备,AR作为PE设备;除非网络完全建设开,CR\BR在做P设备时兼做PE设备,SR为业务路由器,一般做PE设备。







本文标签: 工作产品