大数据实时处理框架 条理清晰易掌握
ccwgpt 2024-10-26 08:43 35 浏览 0 评论
欢迎来到BigData的世界
现如今,我们来到了数据时代,数据信息化与我们的生活与工作息息相关。此篇文章简述利用大数据框架,实时处理数据的流程与相关框架的介绍,主要包括:
- 数据实时处理的概念和意义
- 数据实时处理能做什么
- 数据实时处理架构简介
- 数据实时处理代码演示
数据实时处理的概念和意义
什么是数据实时处理呢?我个人对数据实时处理的理解为:
数据从生成->实时采集->实时缓存存储->(准)实时计算->实时落地->实时展示->实时分析
这一个流程线下来,处理数据的速度在秒级甚至毫秒级。
- 数据实时处理有什么意义呢?我们得到数据可以进行数据分析,利用数据统计方法,从错综复杂的数据关系中梳理出事物的联系,比如发展趋势、影响因素、因果关系等。甚至建立一些BI,对一些数据的有用信息进行可视化呈现,并形成数据故事。
数据实时处理能做什么
数据的实时计算
何为数据的实时计算?我们从数据源端拿到数据,可能不尽如人意,我们想对得到的数据进行 ETL 操作、或者进行关联等等,那么我们就会用到数据的实时计算。目前主流的实时计算框架有 spark,storm,flink 等。
数据的实时落地
数据的实时落地,意思是将我们的源数据或者计算好的数据进行实时的存储。在大数据领域,推荐使用 HDFS,ES 等进行存储。
数据的实时展示与分析
我们拿到了数据,要会用数据的价值。数据的价值体现在数据中相互关联关系,或与历史关联,或能预测未来。我们实时得到数据,不仅能够利用前端框架进行实时展示,还可以对其中的一些数据进行算法训练,预测未来走势等。
example:
淘宝双 11 大屏,每年的双 11 是淘宝粉丝疯狂的日子。马云会在双 11 的当天在阿里总部竖起一面大的电子屏幕,展示淘宝这一天的成绩。例如成交额,访问人数,订单量,下单量,成交量等等。这个电子大屏的背后,就是用到的我们所说的数据的实时处理。首先,阿里的服务器遍布全国各地,这些服务器收集PC端、手机端等日志,上报到服务器,在服务上部署数据采集工具。接下来,由于数据量庞大,需要做数据的缓存缓冲处理。下一步,对原始日志进行实时的计算,比如筛选出上面所述的各个指标。最后,通过接口或者其他形式,进行前端屏幕的实时展示。
数据实时处理架构简介
接下来是我们介绍的重点,先放一张数据流程图:
- 数据采集端,选用目前采集数据的主流控件 flume。
- 数据缓冲缓存,选用分布式消息队列 kafka。
- 数据实时计算,选用 spark 计算引擎。
- 数据存储位置,选用分布式数据存储 ES
- 其他,指从 ES 中拿到数据后进行可视化展示,数据分析等。
下面将分别简单的介绍下各个组件:flume
flume
是一个分布式的数据收集系统,具有高可靠、高可用、事务管理、失败重启、聚合和传输等功能。数据处理速度快,完全可以用于生产环境。
flume 的核心概念有:event,agent,source,channel,sink
event
flume 的数据流由事件 (event) 贯穿始终。event 是 flume 的基本数据单位,它携带日志数据并且携带数据的头信息,这些 event 由 agent 外部的 source 生成,当 source 捕获事件后会进行特定的格式化,然后 source 会把事件推入 channel 中。可以把 channel 看作是一个缓冲区,它将保存事件直到 sink 处理完该事件。sink 负责持久化日志或者把事件推向另一个 source。
agent
flume 的核心是 agent。agent 是一个 java 进程,运行在日志收集端,通过 agent 接收日志,然后暂存起来,再发送到目的地。 每台机器运行一个 agent。 agent 里面可以包含多个 source,channel,sink。
source
source 是数据的收集端,负责将数据捕获后进行特殊的格式化,将数据封装到 event 里,然后将事件推入 channel 中。flume 提供了很多内置的 source,支持 avro,log4j,syslog 等等。如果内置的 source 无法满足环境的需求,flume 还支持自定义 source。
channel
channel 是连接 source 和 sink 的组件,大家可以将它看做一个数据的缓冲区(数据队列),它可以将事件暂存到内存中也可以持久化到本地磁盘上, 直到 sink 处理完该事件。两个较为常用的 channel,MemoryChannel 和 FileChannel。
sink
sink 从 channel 中取出事件,然后将数据发到别处,可以向文件系统、数据库、hadoop、kafka,也可以是其他 agent 的 source。
flume 的可靠性与可恢复性
- flume 的可靠性:当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume 提供了可靠性保障,收到数据首先写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。
- flume 的可恢复性:可恢复性是靠 channel。
口述抽象,上两张官网贴图:
单个 agent 收集数据流程图
多个 agent 协作处理数据流程图
kafka
Kafka 是一个高吞吐量的分布式发布-订阅消息系统。企业中一般使用 kafka 做消息中间件,做缓冲缓存处理。需要 zookeeper 分布式协调组件管理。
kafka 的设计目标:
- 提供优秀的消息持久化能力,对 TB 级以上数据也能保证常数时间的访问性能。高吞吐率。即使在非常廉价的机器上也能做到每台机每秒 100000 条消息的传输。支持 kafka server 间的消息分区,及分布式消费,同时保证每个 partition 内的消息顺序传输。同时支持离线数据处理和实时数据处理。
kafka 核心概念
- broker:消息中间件处理结点,一个 kafka 节点就是一个 broker,多个 broker 可以组成一个 kafka 集群。topic:主题,kafka 集群能够同时负责多个 topic 的分发。partition:topic 物理上的分组,一个 topic 可以分为多个 partition,每个 partition 是一个有序的队列。offset:每个 partition 都由一系列有序的、不可变的消息组成,这些消息被连续的追加到 partition 中。partition 中的每个消息都有一个连续的序列号叫做 offset,用于 partition 唯一标识一条消息。producer:负责发布消息到 kafka broker。consumer:消息消费者,向 kafka broker读取消息的客户端。consumer group:每个 consumer 属于一个特定的 consumer group。
贴两张官网图
prodecer-broker-consumer
分区图
spark
spark 是一个分布式的计算框架,是我目前认为最火的计算框架。
spark,是一种"one stack to rulethem all"的大数据计算框架,期望使用一个技术栈就完美地解决大数据领域的各种计算任务。apache 官方,对 spark 的定义是:通用的大数据快速处理引擎(一“栈”式)。
spark组成
- spark core 用于离线计算
- spark sql 用于交互式查询
- spark streaming,structed streaming 用于实时流式计算
- spark MLlib 用于机器学习
- spark GraphX 用于图计算
spark 特点
- 速度快:spar k基于内存进行计算(当然也有部分计算基于磁盘,比如 shuffle)。
- 容易上手开发:spark 的基于 rdd 的计算模型,比 hadoop 的基于 map-reduce 的计算模型要更加易于理解,更加易于上手开发,实现各种复杂功能。
- 通用性:spark 提供的技术组件,可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。
与其他技术的完美集成:例如 hadoop,hdfs、hive、hbase 负责存储,yarn 负责资源调度,spark 负责大数据计算。极高的活跃度:spark 目前是 apache 的顶级项目,全世界有大量的优秀工程师是 spark 的 committer,并且世界上很多顶级的 IT 公司都在大规模地使用 spark。
相关推荐
- 盲盒小程序背后的技术揭秘:如何打造个性化购物体验
-
在2025年的今天,盲盒小程序作为一种新兴的购物方式,正以其独特的魅力和个性化体验吸引着越来越多的消费者。这种将线上购物与盲盒概念相结合的应用,不仅为消费者带来了未知的惊喜,还通过一系列技术手段实现了...
- 小程序·云开发已支持单日亿级调用量,接口可用率高达99.99%
-
2019-10-1914:1210月19日,由腾讯云与微信小程序团队联合举办的“小程序·云开发”技术峰会在北京召开。会上,微信小程序团队相关负责人表示“小程序·云开发”系统架构已经支持每天亿级别的...
- 程序员副业开启模式:8个GitHub上可以赚钱的小程序
-
前言开源项目作者:JackonYang今天推荐的这个项目是「list-of-wechat-mini-program-list」,开源微信小程序列表的列表、有赚钱能力的小程序开源代码。这个项目分为两部分...
- 深度科普:盲盒小程序开发的底层逻辑
-
在当下的数字化浪潮中,盲盒小程序以其独特的趣味性和互动性,吸引着众多消费者的目光。无论是热衷于收集玩偶的年轻人,还是享受拆盒惊喜的上班族,都对盲盒小程序情有独钟。那么,这种备受欢迎的盲盒小程序,其开发...
- 微信小程序的制作步骤
-
SaaS小程序制作平台,作为数字化转型时代下的创新产物,不仅将易用性置于设计的核心位置,让非技术背景的用户也能轻松上手,快速制作出功能丰富、界面精美的小程序,更在性能和稳定性方面投入了大量精力,以确保...
- 携程开源--小程序构建工具,三分钟搞定
-
前言今天推荐的这个项目是「wean」,一个小程序构建打包工具。在wean之前,大量小程序工具使用webpack进行打包,各种loader、plugin导致整个开发链路变长。wean旨在解...
- 校园小程序的搭建以及营收模式校园外卖程序校园跑腿校园圈子系统
-
校园小程序的架构设计主要包括云端架构和本地架构两部分。云端架构方面,采用Serverless架构可以降低技术门槛,通过阿里云、腾讯云等平台提供的云服务,可以实现弹性扩容和快速部署。例如,使用云数据库、...
- 盲盒小程序开发揭秘:技术架构与实现原理全解析
-
在2025年的今天,盲盒小程序作为一种结合了线上购物与趣味性的创新应用,正受到越来越多用户的喜爱。其背后的技术架构与实现原理,对于想要了解或涉足这一领域的人来说,无疑充满了神秘与吸引力。本文将为大家科...
- 月活百万的小程序架构设计:流量暴增秘籍
-
从小程序到"大"程序的蜕变之路当你的小程序用户量从几千跃升至百万级别时,原有的架构就像一件不合身的衣服,处处紧绷。这个阶段最常遇到的噩梦就是服务器崩溃、接口超时、数据丢失。想象一下,在...
- 认知智能如何与产业结合?专家学者共探理论框架与落地实践
-
当前,以大模型为代表的生成式人工智能等前沿技术加速迭代,如何将认知智能与产业结合,成为摆在各行各业面前的一个问题。论坛现场。主办方供图7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议在...
- 现代中医理论框架
-
...
- 认知行为(CBT)中的ABC情绪理论
-
情绪ABC理论是由美国心理学家阿尔伯特·艾利斯(AlbertEllis1913-2007)创建的理论,A表示诱发性事件(Activatingevent),B表示个体针对此诱发性事件产生的一些信...
- 说说卡伦霍妮的理论框架,对你调整性格和人际关系,价值很大
-
01自在今天我主要想说下霍妮的理论框架。主要说三本书,第一本是《我们时代的神经症人格》,第二本是《我们内心的冲突》,第三本是《神经症与人的成长》。根据我的经验,三本书价值巨大,但并不是每个人都能读进去...
- 供应链管理-理论框架
-
一个最佳价值的供应链,应该是一个具有敏捷性、适应性和联盟功能(3A)的供应链,其基本要素包括战略资源、物流管理、关系管理以及信息系统,目标是实现速度、质量、成本、柔性的竞争优势。篇幅有...
- 微信WeUI设计规范文件下载及使用方法
-
来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。WeUI是一套同微信原生视觉体验一致的基础样式库,由微信官方设计团队为微信Web开发量身设计,可以令用户的使用感知...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- MVC框架 (46)
- spring框架 (46)
- 框架图 (58)
- bootstrap框架 (43)
- flask框架 (53)
- quartz框架 (51)
- abp框架 (47)
- jpa框架 (47)
- laravel框架 (46)
- express框架 (43)
- scrapy框架 (52)
- beego框架 (42)
- java框架spring (43)
- grpc框架 (55)
- 前端框架bootstrap (42)
- orm框架有哪些 (43)
- ppt框架 (48)
- 内联框架 (52)
- winform框架 (46)
- gui框架 (44)
- cad怎么画框架 (58)
- ps怎么画框架 (47)
- ssm框架实现登录注册 (49)
- oracle字符串长度 (48)
- oracle提交事务 (47)