目前,OpenStack 私有云应用在经过了长时间的技术累积和市场培养之后,产品的成熟度和客户的认可度都已迈入成熟。虽然基于OpenStack的云环境部署量越来越多,但是很多OpenStack云环境并不提供大数据服务,比如类似AWS的Elastic MapReduce,再比如面向大数据的SQL,支持OLAP等等。与此同时,随着用户业务逐步实现了云迁移,在云上部署大数据系统的需求已经日益常见和迫切。
2018年5月18-19日,由51CTO主办的全球软件与运维技术峰会在北京召开。在第二日上午举行的“OpenStack创新实战”分论坛中,OStorage (奥思数据)创始人兼CTO李明宇为大家带来题为《在OpenStack云上运行大数据系统:问题、方法与实践》的精彩演讲,针对如何在OpenStack云环境上运行大数据系统,在实际运行过程中常见的问题,以及如何利用对象存储解决这些问题展开了阐述。会后,51CTO记者根据李明宇在WOT2018全球软件与运维技术峰会的演讲内容进行了整理。
在OpenStack环境上运行大数据系统的两种方法
李明宇之前在中科院软件所工作,除了科学研究外,他着重解决实际工程问题,带领团队承担分布式和云计算系统的相关研发工作。离开中科院后,李明宇一直致力于OpenStack等云计算和大数据相关开源技术的研究和传播,为企业提供咨询、评测等技术服务。
他演讲中谈到,OpenStack是一个大体系里包含很多的小的开源项目,其中有六个核心项目人们最为熟知:管理虚机的Nova、管理网络的Neutron、云硬盘的Cinder、认证的Keystone以及镜像和模板管理的Glance、Swift对象存储。
李明宇表示,在OpenStack环境上运行大数据系统有两种方法:***种方法是基于OpenStack服务组件Sahara实现。他通过现场演示DEMO的方式,让大家看到如何使用Sahara。Sahara实际上就是OpenStack专门为运行Hadoop来打造的一个项目。如果用户使用的OpenStack云环境没有部署Sahara怎么办?这时可以采用第二种方法,第二种是通过Heat和Hadoop社区的部署工具实现,用户直接管理Hadoop/大数据系统节点。OpenStack云平台上的除了依赖OpenStack Sahara外,还可以在裸机上安装Hadoop。
那么,这两种方法孰优孰劣呢?李明宇分析道,Sahara是云计算厂商视角,使用Sahara的好处在于服务商基于此提供大数据服务,用户使用更方便,总体来说还算稳定。但Sahara其实并不是那么***,服务种类受限,灵活性不高。而不使用Sahara直接管理的好处在于从用户视角出发,灵活性好,用户可控,但是劣势在于需要由用户管理大数据集群,并且难以感知云基础设施底层特性。“用户可以根据自己的需求,选择最适合自己的方法。”
四大存储问题
目前,OpenStack已被很多单位使用,在使用的过程中也会提出很多问题。而在OpenStack云上运行大数据系统最容易遇到的问题就是存储的问题。
李明宇表示,在存储方面***个面临的问题,就是块存储的冗余问题,虚机块存储/Volume底层冗余与HDFS本身的冗余。如果虚拟底层是采用Ceph支持虚机块存储,实际上虚机的块设备/Volume在Ceph上有三个副本,HDFS上又有三个副本,从而造成块存储的过度冗余。
第二个问题是数据移动开销比计算任务的移动开销大。Hadoop集群并不是时刻都承载相同的负载压力,我们希望在虚拟化环境中,Hadoop集群能够具有弹性。从5个节点扩展到10个节点,再扩展到50个节点,再缩到5个节点,如果数据存储在这些节点的HDFS中,那么这时需要重新平衡数据,数据移动开销较大,需要时间、耗费网络和I/O资源。
第三个问题,很多数据处理/分析任务是临时性的。为了实现在使用Hadoop集群或者利用大数据处理集群时,创建一个集群运行数据分析或者数据仓库,完成作业之后这个集群就可以销毁。但是使用HDFS,是无法销毁存有数据的虚机的,并且还会带来额外开销。相比这些开销,网络的开销在降低,整体网络成本在降低。针对上面这些问题,如果不再使用HDFS,可以用对象存储替换。也就是在云环境里运行大数据系统时,虚机只是进行计算,而数据放到对象存储。
第四个问题是跨多个地域的系统构建存储集群。这个问题可以通过OpenStack Swift对象存储来解决,OpenStack Swift可支持跨多个数据中心、多个地域构建存储集群,这就给用户构建跨数据中心的大数据系统带来了便利,用户在提交数据处理作业时,不用关心数据到底是存放在哪个数据中心,而且可以一批任务处理多个数据中心的数据,甚至多个地域的数据。
以上内容是51CTO记者根据OStorage (奥思数据)创始人兼CTO李明宇在WOT2018全球软件与运维技术峰会的采访内容整理,更多关于WOT的内容请关注51cto.com。
评论时间:2024-04-09 04:30:02
1.下载本程序并安装虚拟主机的申请流程 云主机vps .下载本程序并安装
评论时间:2023-09-05 22:30:02
11.易扩家庭云主机云游戏 展虚拟主机免费试用3天 易扩展
2023-04-21 20:38:07 admin
置顶通知!发帖请务必遵守法律法规2023-04-21 20:28:29 admin
活动发布区版规2023-04-11 19:07:00 沐浴阳光
2020年Kubernetes即...2023-04-11 18:35:03 门吉木易
云计算:为什么金融市场的未来在云...2023-04-11 16:51:21 cnleung
云计算:为什么多云应该是单云的首...2023-04-11 16:01:08 兵棕
为什么AIOps工具最终可以为云...2022-02-26 05:23:03 冷雨点枫
DNS服务器配置之添加正向查找区...2022-02-11 05:23:03 chense
Windows下Apache安装2022-07-27 18:23:02 sy_901
微软开发ARM版WindowsS...2021-08-09 01:35:43 瑟琳娜
企业网站建设根本是向客户营销运营...2021-10-26 05:30:02 jiess
跑分订单匹配互助抢单系统开发2021-08-23 05:30:03 ook
提高网站排名就要提升网站页面价值2021-08-24 05:30:02 云didigk
营销网站建设公司:百度权重源之于...2022-01-06 05:30:04 han890926
河南联通核心机房设备维保公开招标2022-02-14 05:23:03 goophy
DNS客户机设置2022-02-19 05:23:03 ghh
根域名服务器配置2022-02-23 05:23:03 hillajun12
linux服务器配置和启动2022-03-27 05:23:04 5900352
如何创建FTP服务器2022-02-19 05:23:03 ghh
根域名服务器配置2022-07-30 20:23:02 heiren
宝德多子星服务器家族蓄势而发,打...2022-07-31 06:23:02 randywong
浪潮服务器“全面接盘”IBM中国...2022-08-11 04:46:02 pizi
浪潮多节点云服务器入选单项冠军产...2021-11-01 05:30:02 fdfjdlkfjslkj
全球看点系统APP模式开发2022-07-19 06:46:01 yuhaonan
服务器CPU市场上的“斗士”