知乎DMP平台架构详解与Apache Doris应用实践
2024.12.02 22:31浏览量:17简介:本文深入探讨了知乎基于Apache Doris构建的DMP平台架构,包括其业务背景、功能设计、技术实现以及优化策略,展现了Doris在提升查询效率、支持高并发和大规模数据处理方面的优势。
在数据驱动的时代,DMP(Data Management Platform)平台已成为企业精准营销的重要工具。知乎,作为一个拥有庞大用户群体的知识分享平台,也紧跟时代步伐,基于业务需求搭建了自己的DMP平台。本文将详细解读知乎DMP平台的架构建设实践,并重点探讨Apache Doris在其中的应用。
一、DMP业务背景与需求
DMP平台的核心目标是找到核心客户,并对其进行精准营销,以实现内容与用户的最佳匹配。知乎的DMP业务主要包含以下场景:
- 站外转站内:广告主通过Mapping将站外人群导入站内,并在站内系统承接这些用户包。
- 站内转站外:在知乎内找到定向用户后,再将这些用户在三方平台投放广告。
- 站内运营:包括内容运营、用户运营和活动运营,通过活动设计提升业务效果。
基于这些场景,DMP平台需要支持以下功能:
- 人群定向:包括导入/导出、标签圈选、人群泛化、用户量预估等。
- 画像洞察:用户的内部画像及不同人群包之间的对比分析。
- ID Mapping:将站内ID转换为三方投放平台ID,进行投放和效果回收。
二、DMP平台架构与实现
1. 架构设计
知乎的DMP平台架构设计注重可扩展性和高并发处理能力,采用前后端分离、分布式架构,主要包括Frontend(FE)和Backend(BE)两大部分。
2. 功能模块
DMP平台通过以下功能模块支持业务流程:
- 对外模块:定制设计DMP接口和前台,确保高稳定性和低运营成本。
- 业务模块:以可扩展性为第一要务,支持人群圈选、人群洞察和人群泛化等功能。
- 业务支持模块:包括特征生产、ID Mapping、计算任务运维和存储等,确保系统可扩展性和可持续性。
3. 特征数据链路及存储
特征数据链路分为离线和实时两部分:
- 离线链路:通过Spark从Hive抽取特征,进行离线标签生产,再映射到Doris/ES/HDFS。
- 实时链路:通过Flink从Kafka抽取特征,进行实时标签生产,再映射到Doris/ES/HDFS。
4. 人群定向流程
人群定向流程包括标签搜索、标签选择、人群预估、人群圈选等子流程。通过对标签和历史人群进行组合、泛化、限制条件再圈选、洞察等操作,最终确定目标人群。
三、Apache Doris的应用与实践
1. Doris的优势
Apache Doris是一款极速易用的OLAP数据库,具备以下优势:
- 高效查询性能:采用列式存储和向量化执行引擎,大幅提升查询效率。
- 高并发处理能力:支持数百到数千个并发查询请求,确保系统稳定性。
- 自动负载均衡:系统根据节点负载情况自动调整任务分配,保证高可用性和性能稳定性。
2. Doris在DMP平台的应用
在知乎的DMP平台中,Doris主要用于存储用户x标签数据、ID转化宽表以及标签枚举表等。通过Doris的高效查询性能和自动负载均衡机制,DMP平台能够支持大规模数据处理和高并发查询需求。
3. 优化策略
为了进一步提升DMP平台的性能,知乎采取了以下优化策略:
- 倒排、ID Mapping以及查询逻辑优化:通过优化查询逻辑和ID Mapping过程,提高人群预估和圈选的效率。
- 多线程模式:开启多线程模式,提升每组的计算效率。
- 派生特征:自动探测SQL复杂查询条件预先合并成一个派生特征的bitmap,预测和圈人时对复杂条件SQL重写为派生特征。
- Spark直接写Doris Tablet文件:针对大导入场景与Doris团队共建,提升写入效率。
四、未来展望
随着数据量的不断增长和营销需求的日益复杂化,知乎将继续优化DMP平台的架构和功能。未来,DMP平台将更加注重智能化和自动化,通过引入更多的机器学习和人工智能技术,实现更精准的营销和个性化推荐。
同时,知乎也将持续关注Apache Doris等新技术的发展动态,将其应用到DMP平台中,不断提升平台的性能和稳定性。通过持续的技术创新和优化实践,知乎将为用户提供更加优质的知识分享和营销服务。
通过本文的详细介绍,相信读者已经对知乎基于Apache Doris构建的DMP平台架构有了深入的了解。未来,随着技术的不断进步和应用场景的不断拓展,DMP平台将在企业精准营销中发挥更加重要的作用。
发表评论
登录后可评论,请前往 登录 或 注册