GeaFlow
GeaFlow是一款新一代流式计算引擎,以图模型为基础,专注于解决复杂Join运算的性能问题。它支持高可用、exactly once保障、图表一体化分析处理,并提供SQL + ISO/GQL开发语言。广泛应用于数仓加速、金融风控、知识图谱等场景。
• Copy the embed code to showcase this product on your website
• Share on X to spread the word about this amazing tool
# 主要特点* 以图为模型的分布式流式计算引擎* 高可用和exactly once保障* 图表一体化分析处理* 提供SQL + ISO/GQL开发语言* UDF/图算法/Connector插件支持* 高阶API开发支持* 一站式图研发平台支持* 云原生部署支持`和传统流计算引擎如Flink的异同点如下:| 特性 | GeaFlow | Flink || -------- | -------- | -------- || 数据模型 | 以图为基本数据模型的流式计算引擎,能同时处理表模型数据 | 以表模型为基础的流式计算引擎 || 状态管理 | 同时支持流式状态管理和图数据状态管理| 支持流状态管理|| Exactly once |支持 | 支持|| Join支持 | 支持复杂多度Join关联运算 | 不适合复杂Join || 图算法支持| 原生支持图算法 | Flink gelly模块支持(目前已移除)|| 查询语言| SQL + ISO/GQL| SQL |GeaFlow相关设计参考论文:
GeaFlow整体架构从上往下包含以下几层:* GeaFlow DSL GeaFlow对用户提供图表融合分析语言,采用SQL + ISO/GQL方式.用户可以通过类似SQL编程的方式编写实时图计算任务.* GraphView API GeaFlow以GraphView为核心定义的一套图计算的编程接口,包含图构建、图计算以及Stream API接口.* GeaFlow Runtime GeaFlow运行时,包含GeaFlow图表算子、task调度、failover以及shuffle等核心功能.* GeaFlow State GeaFlow的图状态存储,用于存储图的点边数据.同时流式计算的状态如聚合状态也存放在State中.* K8S Deployment GeaFlow支持K8S的方式进行部署运行.* GeaFlow Console GeaFlow的管控平台,包含作业管理、元数据管理等功能.# 应用场景## 实时数仓加速数仓场景存在大量Join运算,在DWD层往往需要将多张表展开成一张大宽表,以加速后续查询。当Join的表数量变多时,传统的实时计算引擎很难保证Join的时效性和性能,这也成为目前实时数仓领域一个棘手的问题。基于GeaFlow的实时图计算引擎,可以很好的解决这方面的问题。GeaFlow以图作为数据模型,替代DWD层的宽表,可以实现数据实时构图,同时在查询阶段利用图的点边物化特性,可以极大加速关系运算的查询。如下为GeaFlow实时数仓加速的流程图:
## 实时归因分析在信息化的大背景下,对用户行为进行渠道归因和路径分析是流量分析领域中的核心所在。通过实时计算用户的有效行为路径,构建出完整的转化路径,能够快速帮助业务看清楚产品的价值,帮助运营及时调整运营思路。实时归因分析的核心要点是准确性和实效性。准确性要求在成本可控下保证用户行为路径分析的准确性;实效性则要求计算的实时性足够高,才能快速帮助业务决策。基于GeaFlow流图计算引擎的能力可以很好的满足归因分析的准确性和时效性要求。如下图所示:
GeaFlow首先通过实时构图将用户行为日志转换成用户行为拓扑图,以用户作为图中的点,与其相关的每个行为构建成从该用户指向埋点页面的一条边.然后利用流图计算能力分析提前用户行为子图,在子图上基于归因路径匹配的规则进行匹配计算得出该成交行为相应用户的归因路径,并输出到下游系统。## 实时反套现在信贷风控的场景下,如何进行信用卡反套现是一个典型的风控诉求。基于现有的套现模式分析,可以看到套现是一个环路子图,如何快速,高效在大图中快速判定套现,将极大的增加风险的识别效率。以下图为例,通过将实时交易流、转账流等输入数据源转换成实时交易图,然后根据风控策略对用户交易行为做图特征分析,比如环路检查等特征计算,实时提供给决策和监控平台进行反套现行为判定。通过GeaFlow实时构图和实时图计算能力,可以快速发现套现等异常交易行为,极大降低平台风险。