百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

什么是仓湖一体架构?如何搭建仓湖一体大数据中心

ccwgpt 2024-12-05 12:06 26 浏览 0 评论

伴随5G、大数据、AI、物联网的飞速发展,数据呈现大规模、多样性的极速增长,为了应对多变的业务诉求,企业对数据处理分析的实时性和融合性提出了更高的要求,“仓湖一体(Lake House)”的概念应运而生。无论在技术圈还是资本圈,仓湖一体都受到了前所未有的关注度。那么什么是仓湖一体,仓湖一体架构是否会成为企业的必选项?又如何进行仓湖一体架构设计呢?

湖仓对比,各有千秋

一直以来,我们都在使用两种数据存储方式来架构数据:

1、数据仓库:主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。

2、数据湖:存储任何类型的数据,包括像图片、文档这样的非结构化数据。数据湖通常更大,其存储成本也更为廉价。存储其中的数据不需要满足特定的schema,数据湖也不会尝试去将特定的schema施行其上。相反的是,数据的拥有者通常会在读取数据的时候解析schema,当处理相应的数据时,将转换施加其上。

纵观数据湖与数据仓库的技术发展,不难发现两者有着各自的优劣,具体表现如下:

而今企业在进行系统架构设计选型时,需要从具体的分析场景出发,单一的模式已经无法满足企业发展的业务诉求,集中表现在以下两个痛点:

  • 数据湖主要以离线批量计算为主,因为不支持数据仓库的数据管理能力,难以提高数据质量;数据入湖时效差不支持实时更新,数据无法强一致性;主题建模不友好,无法直接历史拉链建模;同时交互分析通常将数据搬迁到数据仓库平台,造成分析链路长,数据冗余存储;批&流等场景融合不够,无法满足企业的海量数据处理诉求。
  • 数据仓库满足不了非结构化数据的分析需求,性价比不高;同时仓&湖间难以互联互通,数据协同效率较低,无法支持跨平台透明访问,形成了事实上的数据孤岛,找数困难;缺乏全局数据视图,不同平台接口差异和不同开发管理工具,造成用户开发使用复杂,数据分别管理维护代价高体验差。


数据湖和数据仓库在企业数据分析场景分别承担一湖一仓的重要角色,形成了完整的数据分析生态系统,上述企业场景面临的2个关键痛点也在驱动数据湖和数据仓库在技术演进上走向融合。


下一代演进方向:仓湖一体



现在许多公司往往会同时搭建数仓、数据湖这两种存储架构,如一个大的数仓和多个小的数据湖,但这样数据在这两种存储中就会有一定的冗余。而“仓湖一体”这一概念的出现试图去融合数仓和数据湖这两者之间的差异,通过将数仓构建在数据湖上,使得存储变得更为廉价和具有弹性,同时能有效地提升数据质量,减小数据冗余。

可以说,仓湖一体是一种结合了数据湖和数据仓库优势的新范式,解决了数据湖的局限性。其最重要的一点,是实现"湖里"和"仓里"的数据、元数据能够无缝打通,并且“自由”流动。仓湖一体使用新的系统设计:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。

有人把“仓湖一体”做了形象的比喻,就好像湖边搭建了很多小房子,有的可以负责数据分析,有的来运转机器学习,有的来检索音视频等等,而这些数据源流,都可以从数据湖里轻松取得

仓湖一体具有以下特点:

统一的数据管理:仓湖一体提供完善的数据管理能力。数据湖中会存在两类数据:原始数据和处理后的数据。数据湖中的数据会不断地积累、演化,因此包含以下数据管理能力:数据源、数据连接、数据格式、数据schema(库/表/列/行)。同时,数据湖是单个企业中统一的数据存放场所,因此,还具有一定的权限管理能力。

多模态的存储引擎: 仓湖一体本身内置多模态的存储引擎,以满足不同的应用对于数据访问需求(综合考虑响应时间/并发/访问频次/成本等因素)。但是,在实际的使用过程中,为了达到可接受的性价比,仓湖一体解决方案提供可插拔式存储框架,支持的类型有HDFS/S3等, 并且在必要时还可以与外置存储引擎协同工作,满足多样化的应用需求。

丰富的计算引擎:提供从批处理、流式计算、交互式分析到机器学习等各类计算引擎。一般情况下,数据的加载、转换、处理会使用批处理计算引擎;需要实时计算的部分,会使用流式计算引擎;对于一些探索式的分析场景,可能又需要引入交互式分析引擎。因此,仓湖一体解决方案提供计算引擎的可扩展/可插拔。

数据全生命周期管理:仓湖一体提供一个企业中全量数据的存储场所,需要对数据的全生命周期进行管理,包括数据的定义、接入、存储、处理、分析、应用的全过程。一个强大的数据湖实现,需要能做到对其间的任意一条数据的接入、存储、处理、消费过程是可追溯的,能够清楚的重现数据完整的产生过程和流动过程。

亿信华辰仓湖一体解决方案

亿信华辰结合多年的BI和数仓实施经验,综合传统数据仓库和现代数据湖两种技术特点,推出了仓湖一体解决方案。该建设方案涵盖数据存储、数据集成、数据交换、数据共享等多个方面,综合数据湖、数据仓库两种技术演进方向,为企业用户提供云原生仓湖一体解决方案,构建企业数字化新基座。



  • 采集层:从数据源接入数据后,仓湖一体平台支持oracle/sqlserver/mysql等主流RDBMS迁库,进行跨平台的文件实时交换,以及实时捕获各类应用系统日志内容的变化。同时支持基于业务数据库日志的增量同步,完成IOT实时采集;
  • 存储层:平台支持HDFS文件存储和S3/OSS对象存储,支持结构化/时序/文档/图像数据存储,可按需冷热分级存储,数据在湖和仓之间可自由流动;
  • 计算层:内置Hive/Spark/Flink/Impala引擎,为数据集成和开发提供多种计算环境,可按需自由选择;
  • 服务层:提供存储、查询、访问、共享、开发等数据服务功能和通用接口,第三方应用可无缝对接。

亿信华辰仓湖一体数据中心定位于为企业提供易于部署、开发、运维的数据底座平台,平台提供的能力包括:数据的统一分类存储,数据采集加工的流程自动化,可视化的数据开发,提供多样化的数据共享访问标准接口等等。建设内容包括数据采集、数据处理、数据建模、数据交换四大方面。


方案优势

01批流一体

提供批&流、交互分析、机器学习等多种计算引擎,一份数据可同时应用于各类分析场景,湖&仓数据协同计算,数据免搬迁

02混合存储

内置多模态、多级混合存储引擎,支持HDFS/S3/OSS存储系统的可插拔式管理,结构化/非结构化数据可在湖&仓中统一存储,满足集中式管理和可扩展的双向需求

03快速集成

支持数据以批/流/实时等多种方式接入,基于“批&流” 双计算引擎的数据交换,从传统数据迁移到工业物联设备、日志、事件流实时捕获,多源异构数据皆可高效入湖

04敏捷开发

提供可视化数据开发平台,丰富的输入、输出、加工、清洗、转换等开发组件,自动化的作业调度和运维监控,支持多人在线协同开发,帮助用户快速实现湖仓集成


从发展趋势来看,仓湖一体必将在数字经济建设中发挥非常重要的作用。亿信华辰将基于客户需求和技术演进趋势持续创新,为企业客户提供仓湖一体解决方案,致力于构建企业数据资源共享池,让企业业务的创新更敏捷,业务洞察更准确,加速释放数据价值。

相关推荐

NestJS入门教程系列一

介绍Nest(NestJS)是用于构建高效,可扩展的Node.js服务器端应用程序的框架。它使用渐进式JavaScript,内置并完全支持TypeScript(但开发人员仍然能够使用JavaScrip...

【推荐】一个网盘资源搜索与转存工具,支持移动端与PC端!

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍CloudSaver是一个基于Vue3和Express的网盘资源搜索与转存开源实用工具。它支持...

Appium原理精讲

目前使用Appium新版本和旧版本的企业数目都很多,而两个版本的安装过程和api的使用又有较大的区别。但是无论表面上的东东如何变化,内部原理都是一样的。在这里我给大家介绍一下appium的核心,增进大...

Kubernetes最小部署单元Pod

一、Kubernetes与Pod简介在当今云计算和容器化技术盛行的时代,Kubernetes已然成为容器编排领域的中流砥柱。它是一个开源的容器编排平台,由Google基于其内部使用的Bo...

最常用的四种跨域解决方案

前置知识什么是跨域?浏览器发送的请求地址(URL)与所在页面的地址不同(端口/协议/域名其一不同)。简言之,浏览器发出的请求url,与其所在页面的url不一样。此时,同源策略会让浏览器拒收服务器...

Bolt.New —— 全栈AI Web自动编程

Bolt.New是由StackBlitz公司推出的,全栈AI工具,代码编辑、运行、部署,通通一站式搞定。它使用WebContainers技术,无需任何本地安装或配置,在浏览器中,就可以运行完整的No...

Nodejs Express新手教程&高手进阶

NodejsExpress新手教程&高手进阶Express是一个NodeJS平台的框架,主要用于构于Web服务器项目。本文将通过示例介绍适合新手入门的Express基础使用,以及高手进阶知识,如:c...

Express.js 创建Node.js Web应用

Express.js是一个基于Node.js的Web应用框架,框架的设计目的是构建应用的架构和简化应用的开发。框架会解决一些通用的问题,在Express.js中,Express框架会处理如:中间件、代...

JavaScript 的 Express.js 功能及应用场景详解

Express.js是一个基于Node.js的轻量级Web应用框架,主要用于快速构建服务器端应用和API。它的核心功能包括以下关键点:1.路由管理URL路径与HTTP方法映射:通过...

nodejs的express4文件下载

在nodejs的express框架中,下载变得非常简单,就一个方法,res.download()首先express命令行生成项目基本框架:不会的看这里:http://blog.csdn.net/zz...

Express 系列:快速生成一个项目

系列预告本系列将以一个项目入手结合相关技术细节来带领大家一起学习Express这个基于Node.js的后端框架。本文首先将介绍:如何快速的生成一个具有一定结构的Express项目。Express项目结...

nodejs的express自动生成项目框架

nodejs版本为:4.X,express版本为4.X1.全局安装2个模块express、express-generator在命令行输入:npminstall-gexpressnpminsta...

express开发(一)简介与搭建

上周末去了趟上海书城,不愧是上海数得上号的书城,流行的科技书应有尽有,话不多说直接上图。最经典的C语言O(∩_∩)O最流行的java(づ ̄3 ̄)づ超酷的R语言/(ㄒoㄒ)/~~然而,身为一个坚定的前...

Vue+Echarts可视化大屏系统后端框架搭建(附代码)

各位同学,大家好。上节课,前面我们讲解了Vue+Echarts前端部分的设计方法。这节课程,我们开始讲解使用Express进行后端设计的方法。01项目相关理论介绍什么是expressExpress是...

Shopify电商API接口开发

Shopify电商API接口开发上线流程主要包括以下步骤。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎洽谈合作。前期准备-注册Shopify账号:在Shopify官网注册,用于后续开发测试...

取消回复欢迎 发表评论: