科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置: 科技 > 原创 >

2021腾讯数字生态大会举行 作业帮分享大数据平台架构演进之路

2021腾讯数字生态大会举行 作业帮分享大数据平台架构演进之路
2021-12-14 09:34:10 来源:中华网财经

近日,2021腾讯数字生态大会在武汉举行,大会以“数实融合·绽放新机”为主题,邀请了300多位产业领袖和专家,展示前沿技术成果、创新服务场景、细分行业数字化转型的实践案例。作为腾讯云最佳生态合作伙伴,作业帮受邀出席,作业帮大数据平台技术部负责人刘晋在“大数据”专场与参会者分享作业帮大数据平台架构的演进之路,系统地介绍了作业帮大数据平台概况、面临的问题和解决方法,以及在弹性、数据湖、数据安全的实践经历和取得的效果。

受邀出席腾讯数字生态大会 作业帮分享大数据平台架构演进之路

弹性能力持续丰富 算力利用率最大化

刘晋表示,作业帮从2015年开始就使用存算分离的架构来构建离线的数据体系,该系统架构让计算、存储资源具备极好的扩展性,降低运维成本、优化TCO。为了提升在线集群资源利用率、满足突发的资源使用需求,团队正在将计算层从自建CDH到EMR的迁移。

为了实现平滑的迁移,团队采用了渐进式的方案,首先对任务进行标准化测试,对一些不适合高版本Hive环境的任务进行了改造,之后进行数据准确性的检验,通过对任务在不同集群的结果对比来验证数据,这个过程中对发现的开源版本缺陷进行修复,最后进行分队列的迁移。

从迁移后的效果来看,基于EMR-EKS能快速的弹性扩容,今年上半年团队基于弹性在短时间内扩容了上万核,很好满足了计算需求。同时正在实施在线离线混布的方案,通过弹性网卡做了硬件层面的网络隔离,并且对Yarn的原生调度模式进行优化,缩短了节点回收的时间,避免慢节点影响任务执行效率。

受邀出席腾讯数字生态大会 作业帮分享大数据平台架构演进之路

数据湖技术加持 湖仓一体实践探索

在传统基于Hadoop的数仓应用里,存在着数据查询慢,数据模型更新成本过高、以及数据冗余等诸多的缺点,作业帮通过Iceberg的数据湖技术,结合实际的使用场景,在数仓和即席查询领域进行了积极的探索和实践。

首先通过Flink构建实时Pipeline,生成ODS层分钟级的IceBerg数仓表,再通过事件驱动来周期性的做流转批生成具有时间边界的分区,对分区内数据通过Zorder、DataSkipping技术来做查询加速,在流量域的用户行为查询中,使用Iceberg的查询相比传统模式有近10倍以上的提升。

刘晋表示,作业帮在批计算、实时、OLAP等领域有丰富的应用场景,未来作业帮技术团队将持续建设创新技术体系,在数据治理、数据湖、自动调度、离在线混布、OLAP、实时计算等领域不断的实践和突破,充分发挥数据价值,赋能教育创新。

责任编辑:kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com
关键词:

我国已经逐渐迈入千兆时代 上海移动5G用户数突破1200万

2021-12-13 09:17:25我国已经逐渐迈入千兆时代 上海移动5G用户数突破1200万

双喜临门!比亚迪喜摘“全球储能与新能源影响力” 峰会两项大奖

2021-12-10 14:56:49双喜临门!比亚迪喜摘“全球储能与新能源影响力” 峰会两项大奖

长征系列运载火箭完成第400次发射!实践六号05组卫星成功发射升空

2021-12-10 10:01:20长征系列运载火箭完成第400次发射!实践六号05组卫星成功发射升空

微众银行微众企业+致敬“这个时代的创新者”:追梦赤子“芯”

2021-12-09 16:53:03微众银行微众企业+致敬“这个时代的创新者”:追梦赤子“芯”

2022年数智化技术改变生活 未来十年人类与机器人协作更紧密

2021-12-08 08:54:062022年数智化技术改变生活 未来十年人类与机器人协作更紧密

伽利略导航第二代卫星将于2024年发射 可重构性最好

2021-12-07 11:13:11伽利略导航第二代卫星将于2024年发射 可重构性最好

相关新闻

最新资讯