百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

性能优化技巧:有序分组

ccwgpt 2024-12-31 09:50 30 浏览 0 评论

一、问题背景与适用场景

通常分组计算都采用 hash 方案,即先计算分组字段的 hash 值,hash 值相同的记录被分拣到一个小集合里,然后在这个小集合中遍历找分组字段值相同的聚合成一组。分组的复杂度 (比较次数),取决于 hash 函数的重码率。在 hash 空间比较小时,重码率就高,比较次数就会多,性能会受较大影响。为了提高性能,就需要分配较大的内存来存放 hash 表。另外,有些数据类型(长字串)的 hash 计算也比较慢,这也会影响性能。

如果分组字段是有序的,在分组的时候,每条记录只与上一条记录比较,发现有不同时则新建一个分组,相同则聚合到当前组中。这样的分组运算的复杂度为 n(被分组集合的长度),而且没有 hash 计算和重码率的问题,可以获得比 hash 分组更快的性能,而且并不需要太多内存用于存放 hash 表。

SPL 提供了这种分组方法,我们实例测试一下,并且与使用 hash 分组算法的 Oracle 对比。

二、测试环境

测试机有两个 Intel2670 CPU,主频 2.6G,共 16 核,内存 64G,SSD 固态硬盘。在此机上安装虚拟机来测试,设置虚拟机为 16 核、8G 内存。

三、小数据量小结果集测试

在虚拟机上创建数据表 orderdetail_1,共三个字段:orderid(整数)、detailid(整数)、amount(实数),前两个字段是主键,生成数据记录 8 千万行。将此表数据导入 Oracle 数据库,同时用它生成集算器 SPL 组表来进行测试。

orderid 字段数据升序排列,按 orderid 进行分组,共有 50 组,统计每张订单的总金额和明细条数。

1.Oracle 测试

编写查询测试 SQL 如下:

select /*+ parallel(n) */

orderid, sum(amount) as amount, count(detailid) as details

from orderdetail_1

group by orderid;

其中 /*+ parallel(n) */ 用于并行测试,n 为并行数。

2.SPL 测试

编写 SPL 脚本如下:

groups 分组时加选项 @o 就适用分组字段有序时,只比较相邻行的值进行有序分组。

3. 测试结果

测试结果如下,单位 (秒):

在 8 千万行数据的情况下,SPL 有序分组的性能提高了一倍左右,并且并行的效果非常好,性能呈线性上升。而使用 hash 分组的 Oracle 并行提速效果并不明显。

性能提高程序与数据量有关,当数据量很小时,分组时间占整个查询时间的比例很小,对整体性能的提高也就不明显。但随着数据量的增加,提升效果就会越来越显著。

下面我们再来看看大数据量测试的情况。

四、大数据量大结果集测试

在虚拟机上创建数据表 orderdetail_2,共三个字段:orderid(字符串)、detailid(整数)、amount(实数),前两个字段是主键,生成数据记录 24 亿行。将此表数据导入 Oracle 数据库,同时用它生成集算器 SPL 组表来进行测试。

orderid 字段数据升序排列,按 orderid 进行分组,共有 8 亿组,统计每张订单的总金额和明细条数。由于查询出的大结果集在 Oracle 输出需要很长的时间,所以对分组结果再进行一次过滤,只输出订单总金额小于 35 元的订单,结果只有 12 条,输出就几乎不占时间了。

1.Oracle 测试

编写查询测试 SQL 如下:

select * from (

select /*+ parallel(n) */

orderid, sum(amount) sum_amount, count(detailid) as details

from orderdetail_2

group by orderid

)

where sum_amount<35;

其中 /*+ parallel(n) */ 用于并行测试,n 为并行数。

2.SPL 测试

编写 SPL 脚本如下:

由于分组结果集很大,无法全部装载到内存,所以使用 group 函数进行有序分组,返回分组结果集对应的游标,再对游标过滤后取得需要的查询结果。

3. 测试结果

测试结果如下,单位 (秒):

在不并行的情况下,SPL 有序分组比 Oracle 性能提升了近 6 倍左右。因 SPL 有序分组方法很适合并行,随着并行数的增加,性能提升的效果就越好。

相关推荐

盲盒小程序背后的技术揭秘:如何打造个性化购物体验

在2025年的今天,盲盒小程序作为一种新兴的购物方式,正以其独特的魅力和个性化体验吸引着越来越多的消费者。这种将线上购物与盲盒概念相结合的应用,不仅为消费者带来了未知的惊喜,还通过一系列技术手段实现了...

小程序·云开发已支持单日亿级调用量,接口可用率高达99.99%

2019-10-1914:1210月19日,由腾讯云与微信小程序团队联合举办的“小程序·云开发”技术峰会在北京召开。会上,微信小程序团队相关负责人表示“小程序·云开发”系统架构已经支持每天亿级别的...

程序员副业开启模式:8个GitHub上可以赚钱的小程序

前言开源项目作者:JackonYang今天推荐的这个项目是「list-of-wechat-mini-program-list」,开源微信小程序列表的列表、有赚钱能力的小程序开源代码。这个项目分为两部分...

深度科普:盲盒小程序开发的底层逻辑

在当下的数字化浪潮中,盲盒小程序以其独特的趣味性和互动性,吸引着众多消费者的目光。无论是热衷于收集玩偶的年轻人,还是享受拆盒惊喜的上班族,都对盲盒小程序情有独钟。那么,这种备受欢迎的盲盒小程序,其开发...

微信小程序的制作步骤

SaaS小程序制作平台,作为数字化转型时代下的创新产物,不仅将易用性置于设计的核心位置,让非技术背景的用户也能轻松上手,快速制作出功能丰富、界面精美的小程序,更在性能和稳定性方面投入了大量精力,以确保...

携程开源--小程序构建工具,三分钟搞定

前言今天推荐的这个项目是「wean」,一个小程序构建打包工具。在wean之前,大量小程序工具使用webpack进行打包,各种loader、plugin导致整个开发链路变长。wean旨在解...

校园小程序的搭建以及营收模式校园外卖程序校园跑腿校园圈子系统

校园小程序的架构设计主要包括云端架构和本地架构两部分。云端架构方面,采用Serverless架构可以降低技术门槛,通过阿里云、腾讯云等平台提供的云服务,可以实现弹性扩容和快速部署。例如,使用云数据库、...

盲盒小程序开发揭秘:技术架构与实现原理全解析

在2025年的今天,盲盒小程序作为一种结合了线上购物与趣味性的创新应用,正受到越来越多用户的喜爱。其背后的技术架构与实现原理,对于想要了解或涉足这一领域的人来说,无疑充满了神秘与吸引力。本文将为大家科...

月活百万的小程序架构设计:流量暴增秘籍

从小程序到"大"程序的蜕变之路当你的小程序用户量从几千跃升至百万级别时,原有的架构就像一件不合身的衣服,处处紧绷。这个阶段最常遇到的噩梦就是服务器崩溃、接口超时、数据丢失。想象一下,在...

认知智能如何与产业结合?专家学者共探理论框架与落地实践

当前,以大模型为代表的生成式人工智能等前沿技术加速迭代,如何将认知智能与产业结合,成为摆在各行各业面前的一个问题。论坛现场。主办方供图7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议在...

现代中医理论框架

...

认知行为(CBT)中的ABC情绪理论

情绪ABC理论是由美国心理学家阿尔伯特·艾利斯(AlbertEllis1913-2007)创建的理论,A表示诱发性事件(Activatingevent),B表示个体针对此诱发性事件产生的一些信...

说说卡伦霍妮的理论框架,对你调整性格和人际关系,价值很大

01自在今天我主要想说下霍妮的理论框架。主要说三本书,第一本是《我们时代的神经症人格》,第二本是《我们内心的冲突》,第三本是《神经症与人的成长》。根据我的经验,三本书价值巨大,但并不是每个人都能读进去...

供应链管理-理论框架

一个最佳价值的供应链,应该是一个具有敏捷性、适应性和联盟功能(3A)的供应链,其基本要素包括战略资源、物流管理、关系管理以及信息系统,目标是实现速度、质量、成本、柔性的竞争优势。篇幅有...

微信WeUI设计规范文件下载及使用方法

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。WeUI是一套同微信原生视觉体验一致的基础样式库,由微信官方设计团队为微信Web开发量身设计,可以令用户的使用感知...

取消回复欢迎 发表评论: