百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

数据服务体系建设-4种常见的数据服务

ccwgpt 2024-12-31 09:51 71 浏览 0 评论

数据服务类型是对数据使用场景的抽象提炼,可以根据不同的数据使用场景,抽象出查询服务、分析服务、检索服务、圈人服务、推荐服务、风控服务等多种数据服务类型。这些最小化的数据服务可以按需组合在一起,构成一个复杂的数据服务体系,并通过交互界面的封装,形成一个数据应用产品。

查询服务

1.定义

查询服务通过一个标识(key)查询其所对应的内容,可以附加一些条件过滤选项来满足检索要求。如常见的根据账号查询其相关的档案信息、根据商品查询其销售信息等,都属于查询服务的应用场景。

2.典型特征

查询服务具备3个特征,下面来一一介绍。

(1)支持配置查询标识

查询服务一般会有一个查询标识,会根据该标识去定位具体内容,底层数据组织一般会对该标识建立索引,以加快查询速度。

(2)支持配置过滤项

过滤项配置是指用户在进行标识查询时,配置一些过滤条件,以满足个性化的数据查询需求。该场景在应用层随处可见,比如查询一个人的账单流水数据,一般会配置一个时间区间,查询该时间区间的账单流水数据。

(3)支持查询结果配置

查询服务支持查询结果配置。常见的配置包括数据排序规则以及分页规则。数据排序就是对查询的结果数据做排序处理,包括升序、降序、自定义排序和组合排序。分页规则通常只需要设置每页要展示多少条数据即可。

3.构建过程

查询服务的构建包含4个过程

(1)数据接入

可以通过数据库、文件或API等形式把数据连接进来,也可以通过数据平台对接数据资产库数据,实现资产服务化的过程。

(2)数据查询

可以通过传参或图形化界面进行查询配置。一般会配置查询标识和过滤条件。

(3)结果规则配置

对于查询好的数据,可以设置排序规则和分页规则。排序规则规定按哪个字段进行排序,排序方式包括升序、降序和自定义。用户可以设置多个排序规则,按排序规则的前后顺序生效。用户可以设置结果数据的分页规则。

(4)能力开放

所有配置完成后,查询组件最终会生成一个服务API,供上层应用调用。该服务API中包含按查询规则生成的结果数据。

分析服务

1.定义

分析服务通过各种数据统计分析的方法,对数据做任意维度的数据分析挖掘,让数据分析人员快速了解数据集的特点,以支持数据化运营、分析决策等场景。常见的如BI工具、数据化运营中的路径分析、漏斗模型等,大部分是基于这种能力来构建的。

2.典型特征

分析服务通常具备4大特征


(1)支持多源数据接入

企业的数据经过清洗加工转化成数据资产后,最终通过服务作用于业务系统。基于企业异构存储的现状,要求分析服务能够支持与Hive、Elasticsearch、Greenplum、MySQL、Oracle、本地文件等多种数据源进行连接。此外,它应该还支持公有云和私有云等形式的数据接入,从而帮助企业实现业务数据的无缝对接。

(2)高性能即席查询

随着企业数据爆发式增长,每天产生的数据量由之前的千级别、万级别,转变成现在的百万级别、千万级别,甚至亿级别。这就导致传统的数据分析工具遇到分析能力的瓶颈,也就是对大数据量的分析越来越乏力。因此,这就要求分析服务内置高速计算引擎,以对数据进行高性能的即席计算,实现亿级数据毫秒级(至多秒级)分析和计算,减少用户等待时间。

(3)多维数据分析

在数据驱动决策深入人心的今天,越来越多的企业开始意识到数据的价值,从而对数据分析也提出了更高的挑战和要求。分析服务除了支持常规的数据分析、上卷下钻、切片切块之外,还应该支持多维的数据分析以及深层次的数据挖掘,发现数据背后的关联关系。

(4)灵活对接业务系统

最终的分析结果会以接口的形式输出给业务系统,供业务系统调用。为了适配企业多样的业务系统,服务接口允许用户自定义构建。分析服务应提供包括接口URL、后端服务类型、接口请求模式等在内的多个配置项,以最大程度地满足业务需求。

3.构建过程

分析服务的构建包含3个过程。

(1)数据接入

“巧妇难为无米之炊”,如果没有原始的数据接入,也就没办法向上层应用提供服务。而且,接入的数据必须具备分析的价值,否则,即使通过分析服务分析之后,也不会给企业带来价值信息。了解了这两点之后,可以把业务所需的数据通过各种数据库、API或文件等形式与分析组件进行对接。

(2)在线建模

在线建模本质上就是构建SQL语句的过程,把用户要分析的条件变为SQL语句来将数据查询出来。在这个过程中,业界通常会提供两种方式:一种是SQL代码编辑器,另一种是图形化界面。

SQL代码编辑器方式就是让用户通过代码编辑器直接编写SQL代码,查询要分析的数据。通过SQL代码编辑器,用户可以实现较复杂的数据分析。但对于业务人员来说,SQL代码编辑器非常不友好,由于不了解SQL,他们不能正常分析数据。

图形化界面则是专门为了方便业务人员使用而设计的。业务人员通过简单的“拖曳”完成数据分析操作,再由分析组件把用户的操作转化成系统能理解的SQL语句,从而实现数据的分析和查询。这种方式对于业务人员来说非常方便,简单易上手,但是通过这种方式不能实现复杂的数据分析。

(3)能力开放

完成建模后,分析组件会自动生成一个API对外透出,当然用户也可以对API进行自定义调整。对于生成的API,需要控制其使用权限,并不是所有的应用都可以调用它,只有经过审核的应用才能调用,这样可以避免数据资产泄露。

推荐服务

1.定义

推荐服务即所谓的千人千面,对不同的人对物的行为进行数据挖掘,构建每个人与物之间的关系程度,来推荐人、物以满足用户的兴趣偏好,以提升用户对业务的黏性。大家听过最多的啤酒与尿布的案例就是其中一种,只不过它是从物与物的关联性来找到相关的人群,以提高用户的消费力。每个人打开手机淘宝看到的内容都不一样,这就是一种基于人的兴趣偏好的推荐服务能力。

2.典型特征

推荐服务具备以下3大特征。



(1)支持不同行业的推荐

推荐服务是具备行业属性的,不同行业背后的推荐逻辑是有区别的。比如电商领域和内容资讯领域,同样都是浏览行为,但是在推荐模型进行计算的过程中,两者所占的比重完全不一样。所以在电商、内容资讯、视频直播、音乐媒体、社交等不同领域中,推荐服务都应该具备和该领域适配的推荐能力。

(2)支持不同场景的推荐

即使在同一个行业中,对于推荐的使用也会存在不同的场景。还是以内容资讯类为例,在用户冷启动场景下,应该为其推荐哪些资讯?在用户已经有浏览行为的场景下,又应该为其推荐哪些资讯?在资讯冷启动场景下,应该为其推荐哪些用户群体?在资讯已经被浏览之后,又应该为其推荐哪些用户群体?

不难发现,在不同的场景下,同行业下的推荐逻辑也是完全不同的,所以推荐服务应该覆盖这些不同的推荐场景。

(3)支持推荐效果优化

推荐服务的终极目标是成为用户的贴心管家。不需要用户的任何思考,推荐服务就能向用户推荐他想要查看的物品或资讯。这就要求推荐服务能够自我迭代,自我更新。从导入的原始数据开始,经过推荐组件生成推荐数据,再根据用户的浏览数据不断修正推荐模型,从而使推荐效果不断优化。

3.构建过程

推荐服务的构建包含5个过程



(1)选择行业和场景模板

一般需要先选择推荐服务的应用行业,是电商类推荐还是新闻资讯类推荐,是视频直播类推荐还是社交类推荐,等等。此外,还要选择推荐服务的应用场景,是用户冷启动推荐还是用户热启动推荐,是商品冷启动推荐还是商品热启动推荐。不同行业、不同场景背后的推荐模型不同。

(2)原始数据接入

选择好要使用的推荐模型之后,就需要把相关的数据接入进来。通常要接入三类数据:一类是用户相关的数据,一类是物品相关的数据,最后一类是关系类数据(用户和物品发生关系的数据)。

以新闻资讯类为例,用户数据包括用户的基本信息、行为习惯、兴趣偏好、性格特征等内容;物品数据包括新闻资讯的基本信息、从属关系、功能特性、价值属性等内容;关系类数据是指浏览、分享、点赞、评论等内容。

(3)参数配置

数据导入后,通过服务参数设置可以便捷地配置推荐模型的模型结构、样本指向、目标设定、输入输出格式等参数,推荐模型即会在设定的参数下开始自动化训练运行,直至模型稳定下来后,产出推荐结果或稳定的推荐模型。

(4)能力开放

通过模型训练后最终会生成一个可供调用的推荐API,该API支持传入ID参数,实时或离线计算后,将适配该行业或场景下的推荐数据输出返回到相应的上层应用系统中。

(5)数据回流

上层应用使用推荐服务提供的推荐数据后,产生的效果数据还要回流到推荐模型中,也就是要把新一轮的用户数据、物品数据和关系数据导入推荐组件,设置一定的同步周期,通过数据不断修正推荐模型,从而大大提高推荐的准确性。


圈人服务

1.定义

各行各业都会涉及广告营销场景,而如何找到对的人推送广告就成了大数据场景要解决的问题。圈人服务应运而生,通过提供人群圈选服务,帮助服务使用者从全量用户数据中基于标签组合筛选出符合指定特征的人群,并以API的形式对接上层的营销系统,从而实现营销广告的精准触达,最终达到老客户召回、休眠客户激活等运营目的。

2.典型特征

圈人服务具备3大特征


(1)支持人群圈选

圈人服务的核心在于人群圈选,通过SQL代码或标签取值组合等多种方式,实现人群查找,帮用户找到对的人群。

(2)支持人群计量

营销部门或广告公司使用圈人服务圈选出目标人群后,往往还要考虑人群量是否符合预期,因为预算有限,不可能无限量或者不计成本地对人群进行营销。因此在通过条件圈选后,系统需要能快速计算出符合条件的人群量,如果数量多于预期,则建议继续追加条件圈选更精准的人群;如果数量少于预期,则建议放宽筛选条件,或者继续圈选其他合适人群。

(3)支持多渠道对接

人群圈选并计量测算,确认是业务方所需目标人群后,需要能够将人群名单导出到相应的下游系统。最简单的名单导出方式是先下载文件,再由业务人员导入相应的业务系统中。当人群名单量达到千万甚至上亿级,或人群圈选需要自动化对接时,需要将人群名单直接对接到短信系统、微信投放接口、营销活动系统等。

3.构建过程

圈人服务的构建包含3个过程



(1)数据接入

圈人服务的第一步是接入人群数据,用户可以通过文件、数据库、API等多种方式导入数据。

(2)人群圈选

圈人服务的本质其实是数据查询分析的过程,根据用户输入的条件,返回符合相应条件的人群数据。针对不同的使用场景,通常会提供多种圈人方式,以满足不同类型客户的需求。面向开发人员,可以提供SQL代码编辑器进行圈选。开发人员直接在代码编辑器中编写要查询的SQL语句,实现人群圈选。面向业务人员,可以提供图形化界面进行圈选。业务人员通常对代码了解不多,所以直接通过界面拖曳标签,勾选计算逻辑的方式,能大大降低他们的学习成本。

(3)能力开放

和所有其他服务一样,圈人服务最终也会以API的形式向上层应用透出。圈人服务通常会提供两方面的信息:一是圈选出的人群包名单,二是圈选的人群特征。下游的分发系统,例如短信系统、营销活动系统、广告系统等,会根据圈人服务提供的API,向这个人群发送符合该人群特征的文案内容或创意广告,从而实现精准触达,提升点击率和转化率。

--摘自《数据中台》

相关推荐

腾讯开源框架TarsCpp-rpc设计分析-server(二)

2Tars协议2.1是什么借用官方说法:TARS编码协议是一种数据编解码规则,它将整形、枚举值、字符串、序列、字典、自定义结构体等数据类型按照一定的规则编码到二进制数据流中。对端接收到二进制数据流...

微服务调用为什么用RPC框架,http不更简单吗?

简单点,HTTP是协议,RPC是概念!实现RPC可以基于HTTP协议(Feign),TCP协议(Netty),RMI协议(Soap),WebService(XML—RPC)框架。传输过程中,也因为序列...

go-zero:开箱即用的微服务框架(gin框架微服务)

go-zero是一个集成了各种工程实践的Web和rpc框架,它的弹性设计保障了大并发服务端的稳定性,并且已经经过了充分的实战检验。go-zero在设计时遵循了“工具大于约定和文档”的理...

SOFARPC :高性能、高扩展性、生产级的 Java RPC 框架

#暑期创作大赛#SOFARPC是一个高性能、高扩展性、生产级的JavaRPC框架。在蚂蚁金服,SOFARPC已经使用了十多年,已经发展了五代。SOFARPC致力于简化应用程序之间的RPC...

自研分布式高性能RPC框架及服务注册中心ApiRegistry实践笔记

痛点1.bsf底层依赖springcloud,影响bsf更新springboot新版本和整体最新技术版本升级。2.eureka已经闭源,且框架设计较重,同时引入eureka会自行引入较多sprin...

Rust语言从入门到精通系列 - Tonic RPC框架入门实战

Rust语言是一种系统级语言,被誉为“没有丧失性能的安全语言”。Rust语言的优势在于其内存安全机制,在编译时就能保证程序的内存安全。Tonic模块是Rust语言的一个RPC(RemoteProce...

腾讯开源框架TarsCpp-rpc设计分析-client(一)

前言Tars是腾讯开源的微服务平台,包含了一个高性能的rpc框架和服务治理平台,TarsCpp是其C++版本。对于以C++为主要开发语言,同时还想深入了解rpc和微服务框架具体实现的同学来说,Tars...

设计了一款TPS百万级别的分布式、高性能、可扩展的RPC框架

为啥要开发RPC框架事情是这样的,在开发这个RPC框架之前,我花费了不少时间算是对Dubbo框架彻底研究透彻了。冰河在撸透了Dubbo2.x和Dubbo3.x的源码之后,本来想给大家写一个Dubbo源...

rpc框架使用教程,超级稳定好用,大厂都在使用

rpc是什么远程调用协议如何使用导入依赖<dependency><groupId>org.apache.dubbo</groupId><art...

Layui 框架实战:动态加载 Select 与二级联动全解析

在现代Web开发中,下拉选择框(Select)是用户输入数据时不可或缺的组件。很多时候,我们需要的选项并非静态写死在HTML中,而是需要根据业务逻辑从后端动态获取。更有甚者,我们可能需要实现“...

15个能为你节省数百小时的前端设计神器,从UI库到文档生成

无论你是刚开始开发之旅的新手,还是疲于应付生产期限的资深程序员,有一个真理始终不变:正确的工具能彻底改变你的工作流程。多年来,我测试了数百个开发工具——有些实用,大多数平庸。但有一批免费网站经受住了时...

Layui与WinForm通用权限管理系统全解析

嘿,小伙伴们,今天咱们来聊聊Layui和WinForm这两个框架在通用权限管理系统中的应用。别担心,我会尽量用简单易懂的语言来讲解,保证让大家都能跟上节奏!首先说说Layui。Layui是一个前端UI...

纯Python构建精美UI!MonsterUI让前端开发效率飙升

“无需CSS知识,告别类名记忆,11行代码实现专业级卡片组件”在传统Web开发中,构建美观界面需要同时掌握HTML、CSS、JavaScript三剑客,开发者不得不在多种语言间频繁切换。即使使用Boo...

WebTUI:将终端用户界面(TUI)之美带到浏览器的CSS库

在当今Web技术飞速发展的时代,界面设计愈发复杂多样。然而,随着现代化工具的广泛使用,一些开发者开始回归极简风格,追求一种简洁而富有韵味的设计。WebTUI正是这样一款CSS库,它将经典的终...

人教版二年级下册生字描红汇总(拼音+笔顺+描红),可打印!

可定制内容,评论区留言。本次整理的为人教版二年级下册所有生字,共计300个;写字是小学阶段一项重要的基本功训练,把汉字写得正确、工整、美观,可以提高运用汉字这一交际工具的准确性和效率。对小学生进行写字...

取消回复欢迎 发表评论: