首页
正文
2019/04/02

IoT前沿|潜入深海,探寻流数据存储Pravega的优势与特点

戴尔官方企采中心

Pravega为什么很重要?

你看看人家阿强,

差点就把后半辈子规划想好了

▼

阿强:鉴于对未来一片迷茫,我已经想好了后半辈子的人生规划...

李小男:哇,受什么刺激了?

阿强:公司在规划5G战略,可我一想到Lambda应对流数据的能力就开始发愁。佛了,X烟、喝酒、植发,这大概就是我今后的人生三件大事......

李小男:听过那个“蓝鸟”没有?

阿强:姐,就别拿我开玩笑了...还蓝鸟?下辈子的房贷都在愁呢

李小男:Pravega去了解一下,你会回来感谢我的~

30分钟后...

阿强:姐,我复活了,未来,充满信心!

李小男:先别急着激动,还没谢谢我呐


然鹅

仅仅拯救这个阿强还不够

因为,还有无数个阿强在等待

看完这篇文章

救救你身边的阿强!

▼

上一期内容我们讲到:5G时代到来,无处不在的物联网、自动驾驶汽车等在边缘产生的数据源源不断,就像开着的水管,数据源一直流出,由此诞生了新的数据类型即“流数据”。然而,无论Hadoop还是Lambda,都无法胜任新数据环境下的要求,因为计算是原生的流计算,而存储却不是原生的流存储。(上一期文章)

针对流数据的应用场景,流数据存储需要满足低延时、仅处理一次、顺序保证、检查点这四点要求。

因此戴尔科技集团IoT部门的团队重新思考了流式数据处理和存储规则,为流数据场景设计了新的存储类型,即原生的流存储,并由此诞生了“Pravega”。

于是今天我们把目光聚焦Pravega,来一次Deep Dive,潜入深海,重点介绍Pravega的特点与优势,看它是如何解决新数据环境下的流数据问题。

▼▼▼

作者简介

1.jpg

滕昱

滕昱:就职于Dell EMC中国研发集团,非结构化数据存储部门团队并担任软件开发总监。2007年加入Dell EMC以后一直专注于分布式存储领域。参加并领导了中国研发团队参与两代Dell EMC对象存储产品的研发工作并取得商业上成功。从2017年开始,兼任Streaming存储和实时计算系统的设计开发与领导工作。

2.jpg

周煜敏

周煜敏:复旦大学计算机专业研究生,从本科起就参与Dell EMC分布式对象存储的实习工作。现参与Flink相关领域研发工作。

3.jpg

吴长平

吴长平:现就职于Dell EMC,10年+存储、分布式、云计算开发以及架构设计经验,现从事流存储和实时计算系统的设计与开发工作。

Pravega,取梵语中“Good Speed”之意,其设计宗旨是成为流的实时存储解决方案。它属于戴尔科技集团IoT战略下的一个子项目。该项目是从0开始构建,用于存储和分析来自各种物联网终端的大量数据,旨在实现实时决策。其结合了戴尔易安信PowerEdge服务器,并无缝集成到非结构化数据产品组合Isilon和Elastic Cloud Storage(ECS)中,同时拥抱Flink生态,以此为用户提供IoT所需的关键平台。

针对上面说到的四点要求,从访问模式角度来说,Pravega统一了传统批数据和流数据,因此不仅可以实时到达数据的低延时 (low latency) 读和写,还可以满足对于历史数据的高吞吐 (high throughput) 的读。

4.jpg

技术在某种程度上一定是来自此前已有技术的新的组合。

——《技术的本质》,布莱恩•阿瑟

当然,Pravega 也不是凭空发明出来的,它也是以前的成熟技术与新技术的组合。Pravega团队拥有基于日志存储的设计经验,也拥有Apache ZooKeeper/BookKeeper的项目历史,加之大量实时系统同样也采用日志存储的方式来完成实时应用的消息队列,想要满足尾读、尾读和追赶读这三种据访问模式,自然想到了使用仅附加 (Append Only) 的日志作为存储原语。

5.jpg

图 1. 日志结构的三种数据访问机制

如图1所示:在Pravega里,日志是作为共享存储原语而存在的,数据以事件 (event) 的形式以仅附加的方式写入日志当中。

所有写入操作以及大部分读取操作都发生在日志的尾部 (tail read/write)。写操作将事件附加到日志中,而大量读客户端希望以到达日志的速度读取数据。这两种数据访问机制主要是需要低延迟。

对于历史数据的处理,读客户端不从日志的尾部读取,而是从日志中的任意位置开始读。这些读取称为追赶读 (catch-up read)。我们可以采用和尾部数据一样的高性能存储(例如SSD)来存储历史数据,但这会非常昂贵并迫使用户通过删除历史数据来节省成本。这就需要 Pravega 架构提供一种机制,允许客户在日志的历史部分使用经济高效,高度可扩展的高吞吐量存储,这样他们就能够保留所有的历史数据,来完成对一个完整数据集的读取。

Pravega 支持仅一次处理 (exactly-once),可在Kappa架构上实现链接应用需求,以便将计算拆分为多个独立的应用程序,这就是流式系统的微服务架构。我们所设想的架构是由事件驱动、连续和有状态的数据处理的流式存储 - 计算的模式(如图 2)。

6.jpg

图 2.流处理的简单生命周期

通过将Pravega流存储与Apache Flink有状态流处理器相结合,上图中的所有写、处理、读和存储都是独立的、弹性的,并可以根据到达数据量进行实时动态扩展。这使我们所有人都能构建以前无法构建的流式应用,并将其从测试原型无缝扩展到生产环境。拥有了Pravega,Kappa架构得以凑齐了最后的拼图,形成了统一存储、统一计算的闭环。

Pravega 逻辑架构

7.jpg

图 3. Pravega 架构

为了实现上述的三种访问模式的性能需求,Pravega采用了如图3所示的分层存储架构。事件可以存储在低延迟/高 IOPS的存储(第一层存储)和更高吞吐量的存储(第二层存储)中。通过这种方式,冷热数据分离有效降低了数据存储成本。上层使用Apache ZooKeeper作为分布式协调器,并提供统一的Stream抽象。

第一层存储

第一层存储用于快速持久地将数据写入Stream,并确保从Stream的尾读尽可能快。第一层存储基于开源Apache BookKeeper项目。BookKeeper是一种底层的日志服务,具有高扩展、强容错、低延迟等特性。许多Apache开源项目,例如Apache Pulsar,Apache DistributedLog都是基于这一项目实现。BookKeeper对于复制、持久性、一致性、可用性、低延时的承诺也正是Pravega所需要的第一层存储的需求。为达到高性能的读写延迟需求,我们建议第一层存储通常在更快的 SSD 或甚至非易失性存储 (non-volatile RAM) 上实现。

第二层存储

第二层存储考虑到经济效益,选用高度可扩展,高吞吐量的云存储,目前Pravega支持HDFS,NFS和S3协议的二级存储,用户可以选用支持这些协议的大规模存储进行扩展。Pravega提供了两种数据降层 (retention) 的模式,一种基于数据在Stream中保留的时间,另一种基于数据在Stream中存储的容量大小。Pravega会异步将事件从第一层迁移到第二层,而读写客户端将不会感知到数据存储层级的变化,依然使用同样的Stream抽象操作数据的读写。

正是基于这样的分层模型,大数据处理的降低开发成本、减少存储成本与减少运维成本这三大问题被Pravega一次性解决了。

❶ 对开发者而言,只需要关心Stream抽象的读写客户端的操作。实时处理和批处理不再区分对数据访问方式,由此提升了效率,带来开发成本的降低。

❷ 数据仅在第一层存储有三份拷贝,在第二层存储则可以通过商业分布式 / 云存储自身拥有的高可用、分布式数据恢复机制(如 Erasure Coding)进一步降低存储系数,达到比公有云存储更便宜的总体拥有成本 (TCO)。

❸ 所有的存储组件归结为统一的Pravega,组件仅包括Apache ZooKeeper,Apache BookKeeper以及可托管的第二层存储,运维复杂程度大大降低。Pravega还提供了额外的“零运维”自动弹性伸缩特性,进一步减轻了数据高峰期的运维压力。

 Pravega 产品定位和与 kafka 的对比 

让我们以当今业界应用最广的分布式消息系统Apache Kafka作为对比,看看Pravega如何实现了今天存储无法实现的方式。

Pravega是从 存储的视角 来看待流数据,而Kafka本身的定位是消息系统而不是存储系统,它是从 消息的视角 来看待流数据。消息系统与存储系统的定位是不同的,简单来说,消息系统是消息的传输系统,关注的是数据传输与生产消费的过程。Pravega的定位是企业级的分布式流存储产品,除了满足流的属性之外,还需要满足数据存储的持久化、安全、可靠性、一致性、隔离等属性,关注数据的生产、传输、存放、访问等整个数据的生命周期。作为企业级的产品,一些额外的特性也有支持,例如:数据安全、多租户、自动扩缩容、状态同步器、事务支持等,部分特性将在后续文章详述。

这里我们把Pravega与Kafka做了对比,大体在功能上的差异如下表所示。功能上的差异也只是说明各个产品针对的业务场景不同,看待数据的视角不同,并不是说明这个产品不好,另外每个产品自身也在演进,因此本对比仅供参考。

8.jpg

总结:

本期内容我们主要介绍了重点介绍了Pravega的关键架构以及关键特性,以及它能给开发人员和公司带来的优势,并与Kafka做了简要对比。下一期的“IoT前沿”中,我们将重点介绍Pravega的伸缩性,并通过相关案例来辅助说明,欢迎大家持续关注,如何你有疑问,可以在下方进行留言或在知乎号上找到我们(见下方二维码)我们将为你答疑解惑。下一期见~

9.jpg

扫码关注知乎号

你和戴尔易安信专家只有一条网线的距离~

往期回顾

5G时代下,大数据存储面临的三大挑战

轻装前行,戴尔易安信亮相GTC大会

PowerEdge MX搭个SAN网络?So easy

在线咨询
项目咨询
采购咨询专线400-884-6610
订阅偏好享优先通知
0元试用图片
热门评论
暂无相关评论
删除回复
回复
删除回复
更多回复
查看全部条评论
{{dataFromApi ? '您是否在找' : '其他企业都在看'}}
{{item.slogan}}
{{item.slogan}}
{{item.title}}
咨询客服获取特惠价{{item.sale}}{{item.price}}{{item.sale}} {{item.price}}
项目咨询
发表评论...
  • 在线客服
    联系客服
    (工作日 08:30-17:30)
  • 项目咨询
  • 采购咨询专线
    400-884-6610
    (工作日 08:30-17:30)
  • 售后咨询专线
    7*24小时客户支持
    400-886-8616
    400-886-8618
取消发送
取消发送
热门评论
删除回复
回复
删除回复
更多回复
暂无相关评论
发表评论...
发送
戴尔官方企采中心
删除该评论,是否确认操作?
取消
确认

参与问卷提交即有机会成为幸运用户,

赢取精彩礼品一份,寻找幸运的你,快来参与吧!

立即参与>>
5秒后自动关闭
取消
最近搜索
    热门搜索
    • AI PC
    • 2025新品
    • Dell Pro 笔记本
    • Dell Pro 台式机
    • Dell Pro Max 工作站
    • Dell Pro 显示器
    • 17G 服务器
    • 数据存储
    • 数据保护

    如果您对当前页面内容感兴趣,

    可填写“项目咨询单”,

    进行专业咨询及帮助。

    戴尔企采中心
    戴尔专线客服
    您好,我们的在线客服人工咨询时间为工作日的 8:30-17:30,感谢您的咨询! 请留下您的联系方式,我们会在下个工作日第一时间与您取得联系,祝您生活愉快,工作顺利~
    管理您的Cookie
    戴尔使用不同类型的 Cookie 来优化您的体验并启用某些网站功能,改善您的整体网页浏览体验。请注意,如果阻止 Cookie,则可能会影响您的网站体验,并可能对我们可提供的服务或功能造成影响。
    基本

    允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。

    营销

    用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。

    统计

    通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。

    * 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。

    拒绝
    确认
    取消
    确认
    请确认您的邮箱地址,
    我们会发送下载链接至您的邮箱。
    请填写正确邮箱
    您的企业近期是否有采购 IT 产品的计划?
    请选择
    提交并获取下载链接
    提交成功,下载链接已发送到您的邮箱,
    请查收!

    戴尔发布针对AI领域服务器产品

    还剩2页未读

    图片标题

    戴尔发布针对AI领域服务器产品

    批量议价
    填写您的感兴趣的产品及个人信息,提交成功后会有专人与您沟通,为您提供专属底价。
    OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020OptiPlex 3050微塔式机和小型机Tower249020
    为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠为通用型商务应用程序设计的可靠
    型号

    8G 1TB SAS H330 DVDRW 495W

    参考价格
    6499.006499.00咨询客服获取特惠价
    意向购买数量
    1
    * 公司名称
    请输入公司名称
    * 姓名
    请输入姓名
    * 手机
    请输入手机
    * 邮箱
    请输入邮箱
    * 需求描述
    请选择
    采购专线
    联系客服
    提交
    *验证码无效
    确认
    全新PowerEdge DSS8840
    DSS8440是一款2路4U服务器,旨在为机器学习应用提供极高的性能,配备多达10个加速器
    PowerEdge DSS840 型号1
    PowerEdge DSS840 型号2

    恭喜您,秒杀成功!

    后续工作人员会与您进行联系

    抱歉,您没有抢到!

    您还可以参与其他产品的秒杀活动哦

    请输入兑换码

    PowerVault ME4012
    限时免费升级 / 提速不加价 / 性能秒提7倍
    限时促销
    5秒后自动关闭

    感谢您的报名

    返回首页
    请输入验证口令
    复制以下链接观看视频
    复制
    Toast 内容
    补全信息
    请补全您的身份信息
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请准确填写您的邮箱
    完整报告即时发送到您的邮箱
    * 姓名
    请输入姓名
    * 企业邮箱
    请输入企业邮箱
    * 公司全称
    请输入公司全称
    提交
    请选择标签,将有助于提供精准服务
    您对哪类产品感兴趣?
    • 云
    您将应用于哪个领域?
    • 大数据
    • 软件定义
    请输入您的企业邮箱与手机号,方便后续发送资料
    企业邮箱

    请输入企业邮箱

    手机号

    请输入手机号

    订阅成功

    我们将每月通过邮箱发送资料报告发给您

    成功图片
    关闭
    文章标题
    文章标题
    文章标题
    文章标题
    订阅您感兴趣的内容,我们将每月通过邮箱发送资料报告发给您
    开启订阅
    长按扫码关注戴尔企采网
    了解更多企采会员福利
    长按识别跳转小程序
    手机号绑定
    手机icon图标

    请输入手机号

    验证码icon图标
    获取验证码

    请输入验证码

    绑定手机号
    绑定手机号的三大理由
    1.网信办规定,互联网注册用户要提供基于移动电话号码等的真实身份。
    2.微信授权登录出现故障时,仍用手机号顺利登录,会员各项权益及活动不受影响。
    3.绑定手机号即可享受免费抽奖、0元试用、积分兑换好礼等会员权益。
    loading请稍后...
    订阅弹层
    订阅表单弹层
    邮箱:
    姓名:
    订阅成功弹层
    {{form.textBtnText}}
    {{form.textBtnText}}
    {{form.subBtnText}}
    去注册
    {{form.textBtnText}}
    获取“戴尔资产报告”
    请提供设备使用方的相关信息,以免影响后续保修
    立即获取
    获取“戴尔资产报告”
    您已提交成功,请您注意查收邮件,“戴尔资产报告”将在2个工作日以邮件的形式发送给您
    查看设备保修情况
    注册有礼
    去认证