首页 - 我们的头条 - 惹爱成瘾,春光乍泄,电视家-口渴足球,渴望胜利,足球训练俱乐部,欧洲足球联赛分析

惹爱成瘾,春光乍泄,电视家-口渴足球,渴望胜利,足球训练俱乐部,欧洲足球联赛分析

发布时间:2019-09-12  分类:我们的头条  作者:admin  浏览:299

作者:Alex Woodie是IT外媒Datanami的履行总编

尽管近年来咱们在数据科学和高档剖析范畴已取得了前进,但许多项目依然有赖于源自上世纪80年代的一项技能:提取、转化和加载(ETL)。难以想象的是,不管这三个字母怎么让数据架构师毛骨悚然,但咱们好像无力逾越它。有没有什么办法或技能能够让咱们脱节ETL的坏处?

在考虑有或许顶替ETL的技能之前,无妨看看这项技能的来历。因为上世纪八九十年代许多公司在出产数据库中积累了越来越多的事务型数据,它们意识到需求专门的商业智能(BI)体系用于剖析和陈述。从许多方面来看,BI正是企业资源规划(ERP)的根底。

数据库房有多个用处。首要,除了中心出产体系外,它还为结合和剖析来自多个来历的数据供给了一个多功能的场所。它还防止了影响暗地支撑ERP体系及底层联系数据库的服务器。数据库房还充当了剖析员研读数据和测验新主意的环境。

因为BI项目的数据来自多个来历,包含联机事务处理(OLTP)体系、营销及客户联系办理体系,或甚至从第三方数据代理商购买而来,公司企业需求更多量身定制的数据库软件,这类软件是为处理数据类型和作业负载而专门规划的。从Arbor Software的Essbase开端,出现出了一类新的多维数据库,以支撑联机剖析处理(OLAP)作业负载。

可是,将这种丰厚的OLTP和客户数据迁移到OLAP体系并非简略的使命。出产数据库以不同的办法存储数据,关于有必要精心映射到数据库房的列有特别的命名约好(特别要着重的是,映射起来“很苦楚”)。一些源体系甚至不是联系数据库,而是专有的大型机文件体系或平面文件存储办法,它们更是提高了要求。而除了事务数据外,还有时刻序列数据和地舆数据,一切这些数据都有必要加以处理(整形和改动),才干契合所挑选的形式(schema)。

将一切这些数据转化成数据库房中一起可用的格局依然是一项深重的作业。许多公司招聘大批专家和顾问来编写和保护自界说ETL脚本,这些脚本能够将数据处理成数据库房中运用的特定形式。每逢源数据库表或文件有所改动,下流ETL脚本都需求调整,以确保数据库房持续供给相同的成果。首席财政官们(CFO)睡觉都会梦到大把花钱,但没有人听到他们无声的尖叫。

除了ETL的保护噩梦外,它的批处理特性是另一个大缺陷,在重视实时性的当下特别如此。更新数据库房中数千甚至数百万个表的ETL作业通常在夜间运转,出产在夜间处于暂停状况。其他时分,公司每天运转多个ETL作业,希望能够为不断针对数据库房履行各种SQL查询的剖析员供给更新颖、更名贵的洞察力。

尽管许多公司在ETL上花了很多的时刻和金钱,仍遇到大问题。为确保只要洁净精确的数据经过ETL管道传输施行了精心规划的流程,但这些流程不尽善尽美、不精确,脏数据淹没了数据库房。许多人快速完结大使命,可是在数据界说方面让不同的利益相关者定见一起导致了“本相的多个版别”综合症。数据还会跟着时刻的推移而漂移,导致剖析查询的成果发作误差,并使与较早时期的比较不太精确。

ETL苦楚、烧钱还简单失利,那么咱们对此该怎么是好?事实上,许多公司已采取了各种办法来处理这一难题。下面是有望绕过ETL的四个办法。

兼并OLTP和OLAP

假如ETL是贵公司赖以生存的根底,能够开端修正它的一个办法是,在同一个体系上运转一切东西。这种办法的最佳比方是SAP的HANA,它起初是一种超快速的内存剖析数据库,尔后开展成为ERP Business Suite方面的中心事务数据库。听说这家德国软件巨头在一个相对微乎其微的体系上运转其整个事务:OTP和OLAP。尽管它没有彻底杜肯定ETL的需求,但最大极限地缩小了或许犯错的规模。

两个数据库兼并为一个(图片来历:Dima Zel / Shutterstock)

今日许多新的横向扩展型联系数据库也发起以一种“集事务和剖析功能于一体”(translytical)的办法兼并运营操作和剖析操作,以缩短获取洞察力的时刻。Aersospike、MemSQL、Splice Machine和VoltDB等供货商结合集群架构和内存处理,完结十分快速的SQL查询处理,快得足以支撑Web和移动应用程序,并对它们进行实时剖析(但不一定是针对EPR之类的中心事务应用程序)。

商场研讨公司Forrester的两位剖析师Noel Yuhanna和Mike Gualtieri早在2015年就写道:“传统的[ETL]流程无法支撑实时改变。集事务和剖析功能于一体的流程克服了这个应战,它针对要害事务数据供给了实时可信的视图,确保信息源精确,然后确保数据在整个安排的一起性。”

另一家商场研讨公司Gartner支撑一种名为混合事务剖析(HTAP)的相似办法,HTAP完结了同一项使命的大部分作业。NoSQL数据库供货商Couchbase凭仗用于查询JSON数据的嵌入式SQL++引擎支撑这种办法,亚马逊现在也萧规曹随。

测验一下ELT

ETL的一个盛行变种是换一下处理次序。不是在ETL进程的傍边进行一切重要的数据转化,而是在数据加载到数据库房之后进行转化,ELT由此而来。这种办法在较现代的数据湖傍边大受欢迎;在现代数据湖中,数据语义和形式的履行不如在传统数据库房中那么严厉(假如它们履行的话)。

ELT在Hadoop傍边颇受欢迎,客户能够快速存储很多原始数据,然后在今后运转很多批量转化作业,准备好数据供下流处理所用,包含SQL剖析和机器学习。

假如你的数据工程师在运用Apache Spark为下流数据科学和剖析作业负载开发数据转化管道,你会感到惊奇!他实际上在编写ELT作业,这是Spark最主要的运用场景之一。2017年,Spark背面的公司Databricks推出了Delta,这基本上是ELT和数据转化即服务。ELT办法还与一些NoSQL数据库结合运用。

实时数据流ETL

Lambda架构由速度层和批处理层组成

一些公司不是以批处理办法过后转化数据,而是采用了数据流ETL办法,即数据抵达时不断加以处理和改善。这种办法或许不适用于传统的ERP类型数据,但它关于处理来自Web和移动应用程序的不断增加的数据量(基本上是时刻序列数据)而言却变得肯定必不可少。

经过数据抵达时直接处理数据,开发人员能够防止需求独自的ETL阶段来处理数据。这实际上是Apache Storm的开发者Nathan Marz早在2011年从理论上阐明的Lambda架构,其间速度层(Storm)快速处理数据,但或许不是百分之百精确,而批处理层(Hadoop)会在今后修正任何过错。

Apache Kafka的一起开发者Jay Kreps在酝酿Kappa架构时想到了相似的处理方案,Kappa架构是一种简化版别的Lambda,不包含独自的速度层和批处理层。相反,Kafka在处理实时生成的流式事情数据方面起到了要害作用。

直接数据映射

尽量防止ETL的另一个办法名为直接数据映射,即源数据直接在其地点的方位查询,而不是将其移动到数据库房。这是Incorta力挺的办法,几年前Oracle前高管Osama Elkady创办了这家公司。

Incorta的直接数据映射办法依然要求用户将数据移动到数据湖,比方HDFS、S3或Azure Data Lake,数据在数据湖中作为高度紧缩的Parquet文件存储起来。但经过在“提取”过程和“加载”过程之间注入元数据标签,该办法能够让客户越过“转化”过程。

Elkady告知IT外媒Datanami:“Incorta仅仅想说,假如咱们将数据按原状加载到另一个仅用于剖析的数据库,会怎样?假如咱们按原状获取数据,而不用对数据进行扁平处理,又会怎样。查询时刻从几小时缩短至几秒。”

Incorta的办法大有希望,最近完结3000万美元的C轮融资足以阐明这一点。这家硅谷公司招引了多个大客户,包含苹果、博通和星巴克,星巴克运用其软件来加速店内出售剖析。Elkady说:“假如他们无法实时检查运营数据,不管是出产事务、仍是零售事务仍是库房办理,都会给客户带来数百万美元的丢失。”

对ETL而言没有灵丹妙药,也无法彻底避开ETL带来的苦楚。除非咱们具有彻底交融的体系都运用相同的一起数据格局,不然将来仍需求获取来自某个当地的数据,针对目的地准备好数据,然后加载数据。不过凭借一番创造力,代替办法标明:新的数据转化办法有助于消除ETL带来的一些苦楚。

英文原文链接:https://www.datanami.com/2019/09/03/can-we-stop-doing-etl-yet/

下一篇
快捷导航
最新发布
标签列表