
“鹦鹉螺号”(Nautilus)
一艘能够无限航行的潜艇
来自儒勒·凡尔纳的《海底两万里》
它可以不断地从海水中提取钠
转化成电能后存储在自身电池中
从而获取源源不绝的动力
戴尔易安信家族中
也有一个鹦鹉螺号:
(DESDP)
它可以处理无界的流数据
并提供近乎无限制的流式数据存储
而这一产品特点
与鹦鹉螺号无限航行的特质十分契合
由此获得了Nautilus的内部开发代号
当前,现代企业对成熟的流式数据处理解决方案提出了越来越多的需求,例如:无界数据流的分析与存储能力,历史数据与实时数据的统一,自动扩展机制,高度的数据一致性与事务支持,统一的数据API,企业级平台,等等。
一方面,传统的批处理数据引擎已经完全无法满足现代企业对实时性的要求;另一方面,现有的流式数据系统大都基于消息模型,例如Kafka,Spark等,这些系统从本质上看,仅仅只是一些高速消息系统,因此很难适应当今物联网趋势下的各种复杂数据处理需求——例如无人机的实时视频流分析,制造业的缺陷探测,自主侦察监视等等。
因此,业界迫切需要一款“真正意义上的字节流”解决方案,而DESDP就是我们交出的答卷。
如前所述,DESDP是戴尔易安信从头构建的一套实时流式数据分析与存储解决方案,旨在为编写可靠的流式应用程序提供基础。它结合了开源的流式数据存储引擎Pravega和流式数据计算引擎Flink,以及戴尔易安信的PowerEdge系列服务器,并且可以与非结构化存储的代表性产品ECS(ElasticCloud Storage)和Isilon无缝对接。
Isilon
Pravega
ECS
著名咨询公司Gartner的分析报告显示,目前的企业数据约有80%都是非结构化数据。根据数据自身性质的不同,一般可以将非结构化数据分为三类:文件,对象和流。
针对文件型的非结构化数据,戴尔易安信拥有占据市场领先地位长达10年的存储产品——Isilon;针对对象型的非结构化数据,则有新兴的优秀对象存储产品——ECS。然而,在流式数据领域却迟迟没有一款针对性的产品投入市场,而DESDP的出现正好填补了流式数据领域的空缺。
DESDP第一次进入公众视野应该是在2017年美国拉斯维加斯举办的Dell EMC World大会上,官方首次公开DESDP项目的早期预览。
尤其是在纽约出租车交通数据流上做的实时分析演示(如下图),给人留下了深刻印象:不仅用热力图实时可视化地展现出租车上下客的地理位置,还清晰地展现运营流量的峰值变化(可重现的演示数据和环境可从GitHub下载https://github.com/claudiofahey/taxidemo)。
DESDP在纽约出租车交通数据流上的实时分析演示
DESDP的整体技术栈包括了平台软件本身以及一整套标准硬件,如下图所示。
DESDP的整体架构示意图
紧随当前的业界标准,DESDP从设计之初就是一个运行在容器环境下的分布式应用程序,并依靠Kubernetes进行编排。DESDP的运行环境毫无疑问地是基于一套被称作“戴尔科技的标准参考架构”的组合配置,即:戴尔易安信的裸硬件,VMware的虚拟化支持,以及Pivotal扩展的Kubernetes环境(Pivotal Container Service,PKS)。
DESDP平台最基础的组件是它的流式数据存储引擎——Pravega。作为平台内的自研开源组件,Pravega承担着为所有其它组件提供流式数据存取服务的重任,因为在流原生的环境下,数据只有唯一的表现形式:流。
为了对海量流式历史数据提供容量扩展,Pravega需要连接二级持久化存储设备,ECS和Isilon都是推荐的选择。同时,为了满足实时数据处理所要求的低延迟,Pravega还拥有自己的基于固态存储的一级持久化存储支持,目的在于进一步降低写入延迟。
作为DESDP平台的上层建筑,对外提供数据分析能力是流式处理引擎的主要职责。通过不同的Connector组件,DESDP可以借助Flink,Spark等各种现有的流式计算引擎完成数据的分析与处理,以便将单独的数据流组合成更加灵活的流水线,完成更加复杂的操作。
DESDP的定位首先是一个企业级平台,因此企业级的特性必不可少,例如:安全性、隔离性、可扩展性、可管理性、易用性等等。我们将从企业的视角出发,逐一介绍DESDP的这些特性。
DESDP 的 特 性
为跨团队的数据流提供企业级安全保障
DESDP平台基于Kubernetes进行部署,除了具备基础的Kubernetes安全隔离特性外,还额外提供了一套扩展的数据隔离与保护机制。
简单来说,每一个业务部门可以在DESDP平台上创建自己独立的应用,而每一个应用之间都是相互隔离的。DESDP还将引入用户角色机制,进一步细化每一个用户的权限控制。下图展示的是为应用设置隔离的界面。
DESDP的应用隔离设置界面
为数据注入提供自动扩展机制
自动扩展机制是DESDP提供的另一个吸引人的企业级特性。具体来说,当数据注入流量发生变化时,DESDP能够实时自动进行水平扩展/收缩,以便达到最佳性能和吞吐量。
这个过程是自动进行的,无需人工干预,该特性使得企业内部的硬件资源时刻保持最佳利用率:既不闲置浪费也不过度占用。这对一向以成本敏感著称的企业应用来说,一定是一个福音。下图用一个示例展示了DESDP平台内部处于活动状态的segment数量随时间的变化过程。
从图中可以很清楚地观察到,在某些时间点上发生了segment的分裂动作(水平扩展,吞吐量上升),而在另一些时间点上则发生了segment的合并动作(水平收缩,吞吐量下降)。
提供便捷的IT管理
便捷高效的管理功能一向被认为是企业级应用所必备的特性,DESDP也毫不例外地具备这一特性。下图展示的是DESDP仪表板的一部分,包括当前系统的各种性能指标以及资源使用情况。
DESDP仪表板的局部界面
根据当前的实时指标,系统管理员可以提前收到可能的异常预警。当发生系统故障时,也能够帮助迅速定位故障位置。
提供简化的开发流程
DESDP对开发者是非常友好的。在DESDP平台内运行的每一个应用都同时支持实时数据和历史数据的访问,并且有统一的API支持——这意味着开发者无需花费精力使用两套系统或者学习两套API规范,仅编写一套统一的代码,就可以同时适用于实时数据和历史数据。
任何一款产品,任其设计如何完美,技术如何先进,如果不能解决实际问题,也只能停留在纸上谈兵的阶段,最终沦为“屠龙之术”。
幸运的是,DESDP从研发之初就明确了自身的定位:努力成为物联网趋势下的数据枢纽。以下是一些DESDP在现实世界中的真实使用场景。
DESDP的使用场景
▊ 工业传感器数据的异常检测
随着物联网技术的逐渐普及,各式各样的传感器设备已经随处可见,尤其是在制造业的工业流水线上(如下图)。
用DESDP实现工业传感器数据的异常检测
数量庞大的传感器监测着流水线上的每一道工序,并实时传输回多种格式的数据:可能是视频流,可能是日志文本,也可能是其它非结构化数据。
工厂不仅需要对这些源源不断的海量传感器数据进行存储,还需要对它们进行实时分析,以便在第一时间发现流水线上出现的异常情况,尽力避免可能发生的生产事故——而这正是DESDP绝佳的应用场景:
一方面,DESDP基于Pravega的流式存储引擎允许按需将数据推送到二级存储,或者从二级存储拉取数据。得益于二级存储设备(例如ECS或者Isilon)优秀的可扩展性,DESDP平台具有了近乎无限的存储能力(历史数据),同时还保持着对热点数据(流末端的实时数据)的高效读写能力;
另一方面,DESDP统一的流概念允许无缝处理和分析各种类型的传感器数据。
▊ 统一处理流数据与批数据的处理
近些年来,随着无人驾驶和无线传输技术的飞速发展,获取实时视频数据变得前所未有的便捷,但同时也对传统的流式处理解决方案提出了新的挑战,例如实时视频的引入,使得传统的基于消息的流式处理引擎很难自然地处理此类真正意义上的无界字节流。
如下图所示,无人驾驶汽车不间断地传输回视频流数据和对应的地理遥测数据,这两种类型的数据都需要直接注入流式数据引擎。
用DESDP统一流数据与批数据的处理
而DESDP则可以在这一场景下发挥重要作用:
一方面,DESDP可以实现对流式数据的实时分析,从而能够第一时间对遥测现场的突发情况做出响应;另一方面,DESDP同时支持对历史数据进行处理,例如用机器学习的方法从海量历史数据中训练出新的自动驾驶模型,从而持续调整无人驾驶汽车下一步的行为模式。
开发人员甚至可以把DESDP当作一台存有海量历史视觉数据的“数字放映机”,直接在上面测试新编写的自动驾驶模型。不要忘了,所有的这些实时数据分析和历史数据处理都是在同一个平台上完成。这也正是DESDP吸引人的地方:允许你用统一的方式处理实时数据和历史数据,大大减轻了研发负担。
如果要问,除了功能本身,DESDP与其它戴尔易安信产品相比还有什么特质,那我想答案一定是:DESDP第一次如此紧密地拥抱开源,与开源社区密切协作。
DESDP的核心组件——自研流式数据存储引擎Pravega,是作为一个独立的开源产品(Apache2.0许可)发布的。其官方项目主页可在GitHub上找到(https://github.com/pravega/pravega),目前已有近800星标,190个fork和超过50位贡献者。这响亮地回应了某些陈腐的论调,所谓的“企业级产品与开源产品水火不容”。
相反,我们希望Pravega能够成为流式世界里的一艘开放的大船,任何人都可以基于它搭建自己的数据处理流水线,甚至是开发自己的流式数据处理引擎,组建自己的流式解决方案。这也表达了我们希望建立开源生态,回馈开源社区的美好愿景。
不仅如此,如果仔细翻看Pravega项目的贡献者列表,你会发现Flavio P.Junqueira的名字赫然在列。
Flavio是大名鼎鼎的开源分布式协调组件ZooKeeper最早的三位作者之一。相信很多工程师都是读着他那篇著名的论文《Zab:High-performance broadcast for primary-backupsystems》,才慢慢步入分布式系统与共识问题的神秘殿堂的。
事实上,Flavio不仅是Pravega项目的主要贡献者之一,同时也是该项目的主要负责人之一。你经常可以见到Flavio与其他同事在频道里激烈讨论的场景。可能这种与开源社区的密切协作,也是DESDP保持活力的秘诀之一吧!
除了本文所讲内容,我们也会在10月25日戴尔科技峰会的UDS session详细介绍DESDP具体情况,欢迎来2019戴尔科技峰会一探究竟!
面对5G、AI、AR/VR、物联网、云计算,
新兴科技与传统应用同台打擂,
一轮又一轮技术大潮中,
如何避免被颠覆的命运,
如何在风云变幻的未来稳稳立足?
拓界·成真
2019戴尔科技峰会
共赴
相关阅读推荐:你的颜值里藏着什么答案?
如果您对当前页面内容感兴趣,
可填写“项目咨询单”,
进行专业咨询及帮助。
允许用户在我们的网站上移动以及提供访问诸如您的个人资料和购买、登录凭据以及网站其他区域等功能的访问权限。
用于了解我们网站上的用户行为,并展示与您的兴趣更相关的广告。
通过收集和报告信息,帮助我们了解访问者如何与我们的网站互动。
* 点击确认按钮或关闭Cookie弹窗代表您已同意以上内容。
8G 1TB SAS H330 DVDRW 495W
恭喜您,秒杀成功!
后续工作人员会与您进行联系
抱歉,您没有抢到!
您还可以参与其他产品的秒杀活动哦
请输入兑换码
请输入企业邮箱
请输入手机号
订阅成功
我们将每月通过邮箱发送资料报告发给您
请输入手机号
请输入验证码