防御器材

DataLakehouseinA

发布时间:2022/6/4 17:39:22   
以下文章来源于登峰大数据,作者bigdata_work

本章将从描述datalakehouse的系统上下文开始。然后,研究与datalakehouse交互的参与者和系统。

我们将讨论由7层组成的datalakehouse的逻辑架构。然后,本章将深入研究datalakehouse架构的各个组件,并对每个组件进行详细阐述。本章的最后一节将重点讨论为实现datalakehouse提供框架的五个神圣的架构原则。

总而言之,本章涵盖以下主题:

datalakehouse系统上下文

datalakehouse逻辑架构

架构原则

DataLakeHouse系统上下文

系统上下文关系图显示了与系统交互的不同实体。在下图中是一个datalakehouse的系统上下文:

图2.1datalakehouse系统上下文图

上图显示了与DataLakeHouse交互的关键实体(系统或参与者)。与DataLakeHouse的交互有两个部分,如下所示:

数据提供者:向DataLakeHouse提供数据的系统或参与者

数据使用者:使用来自DataLakeHouse的数据的系统或参与者

让我们详细检查这些实体。

数据提供者数据提供者是将数据接入到DataLakeHouse的任何系统或参与者。任何生成数据的系统都是潜在的数据提供者。这里列出了一些典型的数据提供者:

软件操作系统:任何生成数据的系统都是潜在的数据提供者。通常,在线事务处理(OLTP)系统生成和存储事务性数据。这些系统中的数据以高度规范化的方式存储在关系数据库中。由于数据是高度规范化的,因此该设计被优化以有效地捕获和更新事务。这样的系统不适合分析。OLTP系统在所有组织中都很普遍,并构成了大多数结构化数据存储。然而,并不是所有的操作数据都是关系型的。另一种形式的操作性数据存储包括Not-OnlySQL(NoSQL)数据库。NoSQL数据库中的数据不是表格式的。它的设计目的是将数据存储在一个灵活的模式中,其结构可以根据输入数据类型快速调整。这些数据库以各种格式存储数据,包括键值对、图和JSON。

文本数据:对于非结构化数据/文档,文本数据是最主要的非结构化数据类型。这类数据包括文档和纯文本,比如手写的笔记。**自然语言处理(NLP)是人工智能(AI)**的一个已建立的分支,我们可以从文本数据中提取宝贵的见解。人工智能算法分析文本的能力正变得越来越复杂。

流数据:数据不只是静止的。有一类处于运动中的数据。流数据是指在固定时间内从系统中不断传输的数据。流数据包括来自**物联网(IoT)设备的遥测数据,来自社交媒体平台(Twitter、Facebook(Meta)、YouTube、点击流、游戏等)的持续反馈,来自金融交易平台的连续数据,以及传输位置信息的地理空间服务。如果进行实时分析,这类数据将满足一系列用例,如复杂事件处理(CEP)、情感分析、关键字检测等。

媒体数据:媒体数据包括与语音、视频和图像相关的各种数据结构。我们可以使用音频数据来实现语音识别、语音到文本翻译和实时语音翻译等用例。媒体数据还包括视频和图片,我们可以使用它们来执行广泛的用例。卷积神经网络(CNN)等人工智能算法已经发展到比人类更能识别图像中的物体。随着大量视频和图像数据的出现,人工智能技术正被用于实现从目标检测到自动驾驶汽车的高级用例。

我们已经看到了典型的数据提供者和这些类型的数据可以实现的用例场景。现在,让我们

转载请注明:http://www.aideyishus.com/lkcf/473.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章