今天这篇文章主要介绍数据湖(data lake)的定义,其次介绍各大云厂商的解决方案以及目前的开源解决方案。
定义
看下维基百科的定义:数据湖是一个以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储。用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。定义中的重点内容我用红色字体标注出来,简单说明一下这几点。
原始格式:
数据不做预处理,保存数据的原始状态
单一存储:
存储库中会汇总多种数据源,是一个单一库
用于机器学习:
除了 BI 、报表分析,数据湖更适用于机器学习
数据湖并不是新概念,最早 2015 年就被提出来了,可以看到数据湖经常被拿来跟目前的数据仓库作比较。下面是谷歌搜到的一篇比较早的数据湖和数据仓库对比的文章

至于为什么数据湖慢慢走近大家的视野,并且越来越多的跟仓库作比较。我认为主要是跟机器学习的广泛应用有很大关系。
数据湖和数据仓库的对比
大数据刚兴起的时候,数据主要用途是 BI 、报表、可视化。因此数据需要是结构化的,并且需要 ETL 对数据进行预处理。这个阶段数据仓库更适合完成这样的需求,所以企业大部分需要分析的数据都集中到数据仓库中。而机器学习的兴起对数据的需求更加灵活,如果从数据仓库中提数会有一些问题。比如:数据都是结构化的;数据是经过处理的可能并不是算法想要的结果;算法同学与数仓开发同学沟通成本较大等。我在工作中就遇到这种情况,做算法的同学需要经常理解我们的数仓模型,甚至要深入到做了什么业务处理,并且我们的处理可能并不是他们的想要的。基于上面遇到的各种问题,数据湖的概念应运而生。下面的表格对比一下数据湖和数据仓库的区别,主要来自 AWS 。

从以上表格的区别上我们可以看到数据湖的应用场景主要在于机器学习,并且在用的时候再建 Schema 更加灵活。虽然数据湖能够解决企业中机器学习应用方面的数据诉求,可以与数据仓库团队解耦。但并不意味着数据湖可以取代数据仓库,数据仓库在高效的报表和可视化分析中仍有优势。
云厂商的解决方案
近几年云计算的概念也是非常火,各大云厂商自然不会错失数据湖的解决方案。下面简单介绍阿里云、AWS 和 Azure 分别的数据产品。
阿里云:
Data Lake Analytics,通过标准JDBC直接对阿里云OSS,TableStore,RDS,MongoDB等不同数据源中存储的数据进行查询和分析。DLA 无缝集成各类商业分析工具,提供便捷的数据可视化。阿里云OSS 可以存储各种结构化、半结构化、非结构化的数据,可以当做一个数据湖的存储库。DLA 使用前需要创建 Schema 、定义表,再进行后续分析。
AWS:
Lake Formation,可以识别 S3 或关系数据库和 NoSQL 数据库中存储的现有数据,并将数据移动到 S3 数据湖中。使用 EMR for Apache Spark(测试版)、Redshift 或 Athena 进行分析。支持的数据源跟阿里云差不多。
Azure:
Azure Data Lake Storage,基于 Azure Blob 存储构建的高度可缩放的安全 Data Lake 功能,通过 Azure Databricks 对数据湖中的数据进行处理、分析。但文档中并没有看到支持其他数据源的说明
开源解决方案
除了云厂商提供的方案外, 还有一个开源解决方案——kylo 。这个框架的关注度并不高,社区不是很活跃。大概看了下官网的介绍视频,基本上与云厂商的解决方案一致。支持多种数据源,分析时创建 Schema。另外,Databricks 团队(开源 Spark 框架)年初开源了 Delta lake 框架, Delta lake 是存储层,为数据湖带来了可靠性。Delta Lake 提供 ACID 事务、可伸缩的元数据处理,并统一流和批数据处理。Delta Lake运行在现有数据湖之上,与Apache Spark api完全兼容。架构图如下:

小结
今天这篇文章主要介绍了数据湖的概念,以及数据湖与数据仓库的区别,然后简单了解了目前数据湖在云厂商和开源软件中的解决方案。作为数仓建设和数据开发人员要密切关注这种新的概念,如果我们的工作中遇到这种问题我们也可以思考是否可以推动数据湖的建设。另外,作为中小企业上云的方案可能是一个比较好的选择,毕竟开源解决方案目前不是很成熟,社区还不是很强大。
评论时间:2023-11-01 00:30:02
服务器租用哪一家好呢?目前市场上主要国内外免费虚拟主机 有两种服务器类型:1.x86服务器2.ARM服务器mc服务器推荐手机版 器2.ARM服务器
评论时间:2023-07-27 08:30:01
其中,企业IT开支是重要组成部分,占全社会信息化总预算比例接近4bgp虚拟主机代理 0%,成为拉动信息化投资的主要动力之一服务器主机推荐 动力之一
评论时间:2023-04-04 00:30:02
它具有很强的性能,可以满足多种应用需求,如数据处理、存储、备份等,但由于成dayz自建服务器修改 本较高,所以价格也比较昂贵永久免费虚拟主机无限空间 ,但由于成本较高,所以价格也比较昂贵
2023-04-21 20:38:07 admin
置顶通知!发帖请务必遵守法律法规2023-04-21 20:28:29 admin
活动发布区版规2023-04-11 19:07:00 沐浴阳光
2020年Kubernetes即...2023-04-11 18:35:03 门吉木易
云计算:为什么金融市场的未来在云...2023-04-11 16:51:21 cnleung
云计算:为什么多云应该是单云的首...2023-04-11 16:01:08 兵棕
为什么AIOps工具最终可以为云...2022-02-26 05:23:03 冷雨点枫
DNS服务器配置之添加正向查找区...2022-02-11 05:23:03 chense
Windows下Apache安装2022-07-27 18:23:02 sy_901
微软开发ARM版WindowsS...2021-08-09 01:35:43 瑟琳娜
企业网站建设根本是向客户营销运营...2021-10-26 05:30:02 jiess
跑分订单匹配互助抢单系统开发2021-08-23 05:30:03 ook
提高网站排名就要提升网站页面价值2022-01-31 05:30:04 gt2571
云服务器和物理服务器有哪些区别?2022-03-10 05:23:03 qwerr
设置登录服务器允许的连接数2022-07-18 10:23:02 mankeung123
惠普官网惊现E5平台Gen8系列...2022-07-19 02:00:05 illlusion
富士通服务器采用InfiniBa...2022-07-19 10:46:02 wanglinbo
英特尔三季度全球微处理器市场份额...2022-07-19 12:46:02 halfmoon
曙光成功研制出“龙芯”服务器2022-02-19 05:23:03 ghh
根域名服务器配置2022-07-30 20:23:02 heiren
宝德多子星服务器家族蓄势而发,打...2022-07-31 06:23:02 randywong
浪潮服务器“全面接盘”IBM中国...2022-08-11 04:46:02 pizi
浪潮多节点云服务器入选单项冠军产...2021-11-01 05:30:02 fdfjdlkfjslkj
全球看点系统APP模式开发2022-07-19 06:46:01 yuhaonan
服务器CPU市场上的“斗士”