"IT有得聊”是机械工业出版社旗下IT专业资讯和效劳平台,努力于辅佐读者在广义的IT范畴里,控制更专业、适用的学问与技艺,快速提升职场竞争力。 点击蓝色微信名可快速关注我们。 前文回想: 数据湖火了,数据仓库位置不保? 内存计算,让数据飞起来 新技术如何改动数据平台设计的未来 不写代码,也能开发数据仓库? 数据从哪里来?构建数据仓库的源头死水 如何用好数据湖里的海量数据? 数据仓库有丰厚的业务应用场景,和成熟的开发体系,是用好大数据的一个很好的平台。借助数据源技术,扩展数据仓库处置才干,需求完成数据仓库与数据湖之间双向集成。一方面,数据仓库能够方便地从数据湖中获取数据,中止各种应用场景的开发。另一方面,能够将数据仓库模型中的数据推送到数据湖,或者将模型中的冷数据迁移到数据湖中中止存储并提供统一的管理伎俩。 在采集外部数据的场景中,数据湖能够作为原料数据仓库,存储大量未经加工的原始原始数据。HANA 提供了直接访问数据湖的伎俩,能够从数据湖中获取需求的数据。BW/4HANA 运用这一技术,将其归入数据仓库开发体系,丰厚数据仓库中应用场景。 01 “HA-HA”组合 哈哈! HANA和Hadoop,这是一个Happy的组合。 SAPHANA具有强大的内存计算才干,设计用于高速的数据与剖析场景。但是,把一切数据都存储在内存里成本太高。Hadoop能扩展至数千个节点,适用于大型散布式集群,处置大数据。将SAPHANA与Hadoop相分离,能够将SAPHANA的内存计算才干与Hadoop的海量数据存储才干相分离,能够同时应用SAPHANA的内存计算才干与高度结构化的数据规范和Hadoop较低的存储成本与数据类型的多样性。 并不是一切数据湖中的数据都需求加载到数据仓库中。 数据仓库和数据湖各自有不同的定位。 首先,数据仓库和数据湖采集的数据在内容与类型上也不尽相同。 数据仓库主要存储来自于企业管理系统的结构化数据,如ERP、CRM、HR等。它将数据存储在规范化数据模型中,统一数据规范和业务语义,用于支持业务决策等应用。数据湖存储的数据通常是大量的“原始”数据,这些数据常常是非结构化或者非关系型数据。数据湖的中数据有很多“新”的数据类型。例如传感器数据、网络数据、社交媒体数据和各种设备产生的等。数据湖也常常用于中止历史归档数据的存储。 其次,数据仓库和数据湖在架构上是互补的。 数据仓库和数据湖的不同定位,使它们能更好地扬长避短。下图展示两者在架构上的不同定位和相互弥补。 “HA-HA ”组合 在数据仓库架构中,数据分层或者逻辑分区是从数据采集层开端的。但是放眼整个企业的大数据架构,数据的第一道入口常常是在数据湖。在大数据背景下,很多数据的第一道采集工作是在Hadoop或者S3这样的数据湖平台中中止的。海量的原始数据经过数据湖的数据整合、数据转换,统一数据结构,进步数据参考完好性。 最后,将提炼后的大数据与数据仓库中的企业管理数据和主数据分离起来,构成更全面的业务视图。数据是在这个时点上经过数据加载方式或者数据联邦的方式兼并到数据仓库中的。也就是说,在更完好的大数据处置架构中,数据仓库的数据采集层之前,还有一层厚厚的“数据湖”层。数据湖扩展了数据仓库分层架构。 并不是一切数据湖的数据都要传输到数据仓库中。只需提炼后的数据,需求和企业管理数据和主数据分离起来一同剖析的数据,才是我们要从数据湖中钓走的鱼。 02 HANA对Hadoop的访问 HANA提供了对Hadoop系统中止访问的措施,还是运用HANA平台中的运用智能数据访问组件。 树立访问途径的方式,是在HANAStudio管理控制台中创建到Hadoop的远程衔接,即创建一个远程源。 首先,要运用BW/4HANA后台HANA数据库用户登录HANA数据库,在HANA管理控制台创建远程源。远程源的编辑界面,如下图所示。 编辑远程源 SAP HANA智能数据访问为衔接Hadoop系统提供了多种衔接措施。BW/4HANA的“大数据源系统”是经过运用SAP HANA Spark 控制器和SPARK SQL (DESTINATION)适配器中止衔接的。 在远程源编辑界面上,从适配器称号列表当选择“SPARKSQL(DESTINATION)”适配器,并输入远程源系统称号、效劳器、端口、衔接用户及密码等信息。 检查并激活远程源,完成远程源的创建。 完成远程源的创建后,在HANA管理控制台左边的导航窗口里,展开这一远程源节点,能够查看其包含的Schema及数据库表等内容。 03 以“大数据”命名的源系统类型 后续的步骤是在BW/4HANA中完成的。与数据湖衔接是BW/4HANA扩展功用的一个重要方向。BW/4HANA提供了“大数据源系统”类型,用于衔接Hadoop等数据湖平台,对这一类型的数据源中止集中、统一的管理。 首先,登录BW/4HANA建模工具界面,创建“大数据源系统”。 在导航窗口,BW项目下的数据源节点上单击右键,翻开新建数据源导游对话框。依据导游对话框的提示,完成以下5个步骤。 1)维护源系统称号、描画及衔接类型:选择衔接类型“大数据(BigData)”。 2)选择远程源:选择上一小节新建的远程源。 3)选择一个远程数据库:选择远程源下的需求衔接的一个数据库。 4)选择一个数据库对象Schema:选择上述数据库下的一个Schema。 5)确认并完成创建新系统 系统显现源系统编辑界面,如下图所示。 查看源系统 在完成HANA部分的配置工作后,就能够进入BW/4HANA建模界面中止后续配置工作。 第二步,创建数据源。 在完成源系统的创建后,依照BW/4HANA的一向套路,接下来就是创建数据源了。源系统指向一个数据库对象Schema,数据源则是指向更明细的一个数据库表或者视图。 在BW/4HANA新建数据源导游中,在“选择模板或源对象(Select a Template or Source object)”窗口选择“从SAP HANA表或者视图生成倡议(Proposal from SAP HANA Table or View)”,并在后续步骤当选择一个当前源系统中已有的数据库表。 数据源创建完成后进入编辑界面,如下图所示。 编辑数据源-常规 依据需求对数据源中止编辑后,检查并激活数据源。翻开数据源数据预览窗口,能够查看数据源的数据,如下图所示。 预览数据源 至此,大数据源系统及其数据源就创建完成了。当然,同一个源系统中还能够创建更多的数据源。和其他源系统的数据源一样,用户能够中止后续的数据提取操作,或者运用开放ODS视图或者复合提供者虚拟访问大数据源系统中的数据。 -End- 本文作者:陈永杰 著有《SAP大数据完整处置计划》等多本有影响力的SAP图书 引荐阅读 SAP中国公司高级认证顾问扛鼎之作 为SAP大数据项目提供全面指南 (点击封面可进入详情页面) 作者:陈永杰 编著 关键词:企事业单位从事大数据规划、大数据应用设计人员 数据湖、数据仓库、大数据平台开发设计人员 SAP HANA、BW/4HANA、数据智能相关项目实施顾问、项目组成员 本书以企业传统数据仓库的改造和全新的大数据平台树立为动身点,讨 论了内存计算技术带来的基天性改造及其对企业传统数据仓库架构设计的改动,并细致引见了在应用Hadoop 等数据湖技术条件下的数据获取、数据建模、数据效劳应用及管理措施。全新的大数据平台架构超越单个系统的物理界线,更多地采用虚拟建模与逻辑建模的措施,对企业内外、本地云端的全体数据中止统一的管理和应用调度,并运用机器学习技术中止各类创新应用的开发。 我们的抖音号正式上线啦! 有趣、有料的前沿学问 等着你! |