admin管理员组

文章数量:1579638

🔥 通知:本次CommunityOverCode Asia 2024 大会,Apache Pulsar社区获赠有部分免费普通门票赠票(不含餐和伴手礼)和 8 折优惠码,可购买任意门票。赠票将在接下里的社区活动里发送,请大家关注社区最新活动。折扣优惠购票请需要的小伙伴联系 Pulsar Bot 获取,先到先得哦。


报名链接:

Pulsar 议题介绍

标题:Apache Pulsar 集群规模控制和稳定性实践

  • ROOM 2 Fri 2:00 pm - 2:30 pm

  • Messaging

  • 林琳

无论是服务云原生化还是 AI 模型训练,作为基础组件的消息队列的稳定性越来越重要。

上层业务的规模越来越大,对消息队列的性能和吞吐量的要求也越来越高。

集群的持续扩展将不断扩大集群的规模。大型集群容易出现热点和爆炸半径过大等问题,这些问题一直影响着上层服务的稳定性。

过小的集群无法承载不断增长的业务流量,自然会出现资源利用不足等问题。

华为终端云中间件团队多年来总结了一套在一线生产环境中的集群规模控制实践。将集群规模和业务隔离控制在合理范围内,对于高流量业务采用无服务器的消息队列,服务器跨集群调度资源。

在确保集群资源利用的前提下,不断提升消息队列的稳定性。

标题:腾讯云上基于云原生消息系统 Apache Pulsar 的大规模生产实践

  • ROOM 2 Sat 2:30 pm - 3:00 pm

  • Messaging

  • 韩明泽

Apache Pulsar 是一个云原生的分布式消息和流处理平台。Apache Pulsar 采用存储与计算分离的架构,支持大规模集群、多租户、百万级主题、跨区域数据复制、持久化存储、分层存储、高可扩展性以及企业级和金融服务等需求。Apache Pulsar 提供统一的消费模型,支持消息队列和流处理场景。它不仅为队列场景提供企业级的读写服务质量和强一致性保证,还为流处理场景提供高吞吐量和低延迟。

Apache Pulsar 已在关键的企业业务中得到应用,并具有丰富的应用场景。目前,腾讯云也在生产实践中大规模应用 Apache Pulsar。在生产实践中,腾讯云为Apache Pulsar进行了一系列性能优化和稳定性增强,以确保在不同场景下为用户提供稳定高效的系统运行。同时,面对复杂的网络环境和云上的业务需求,还支持更多的功能和特性,以支持业务向云端的迁移。

在本次演讲中,我们将重点介绍腾讯云在 Apache Pulsar 的稳定性、性能和功能特性方面的关键工作,为开发者提供参考。

标题:Apache Pulsar 在跨 Kubernetes 集群场景下的部署实践

  • ROOM 2 Sun 2:00 pm - 2:30 pm

  • Cloud Native

  • 方阗

Apache Pulsar 集群通常由 Apache Pulsar、Apache ZooKeeper、Apache BookKeeper 等组成,其中 Apache ZooKeeper、Apache BookKeeper 通常在 Kubernetes 中作为有状态服务。在跨 kubernetes 集群部署的情况下,这些组件经常面临诸如如何跨多个集群维护统一的顺序索引,以及如何维护最小数量的可用集群副本等问题。本主题探讨如何在跨 kubernetes 集群场景中部署 Apache Pulsar。

标题:使用 Apache StreamPipes 和 Apache Pulsar 进行物联网流处理

  • ROOM 6 Sun 2:30 pm - 3:00 pm

  • IoT

  • 杨子棵

Apache StreamPipes 是一个自助式(工业级)物联网工具箱,使非技术用户能够连接、分析和探索物联网数据流。在 Apache StreamPipes 0.93.0 版本中增加对 Pulsar 消息系统的支持后,我们可以将 StreamPipes 的用户友好界面与 Pulsar 强大的流式消息处理和存储能力相结合。这使得更容易构建更复杂且对性能要求较高的物联网流处理应用程序。

在本次演讲中,我们将讨论如何使用 StreamPipes 和 Pulsar 高效构建和运营物联网流服务。我们将重点利用 StreamPipes 基于 Pulsar 构建流式计算应用程序,利用 Pulsar 的各种订阅模型、精确的消息确认机制、数据模式、消息读写优化等现有功能,来丰富 StreamPipes 的流式计算能力。我们还将探讨使用 StreamPipes 和 Pulsar 开发物联网流服务的最佳实践。

专题介绍

本次 CommunityOverCode Asia 2024 的 OLAP & Data Analysis 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧!

专题介绍

CommunityOverCode Asia 2024

随着大数据时代的到来,数据分析和 OLAP 技术在企业中的应用也越来越广泛。为了促进业界在这一领域的交流和分享,我们设立了 OLAP 和数据分析专场。我们希望邀请业内的专家和学者分享他们在数据分析和 OLAP 技术方面的研究成果、实践经验和最新发展。

在 ASF,有各种关于 OLAP 和数据分析的项目,例如:Apache Doris, Apache Druid, Apache Kylin, Apache Pinot, Apache Hawq 等。

该主题可以涵盖数据分析和 OLAP 技术的研究进展、应用案例、最佳实践、性能优化等方面。我们相信,这将给与会者带来极大的好处。

出品人

CommunityOverCode Asia 2024

陈明雨

CommunityOverCode Asia 2024

Apache Doris PMC Chair,Apache 软件基金会成员,前百度资深研发工程师,7 年分布式系统研发经验,专注于分布式可扩展分析型数据库领域。

鲁志敬

CommunityOverCode Asia 2024

Apache Doris Committer、飞轮科技产品运营和市场负责人,长期致力于开源实时数据仓库 Apache Doris 的开源社区建设和项目推广,在大数据和数据库领域有多年的产品设计、运营、增长和 ToB 商业化经验。原百度高级产品经理,曾担任百度数据仓库 Palo 的产品和运营负责人,负责内核产品规划、ToB 商业化以及开源社区运营工作。

王殿进

CommunityOverCode Asia 2024

HashData 开源负责人,ALC Beijing member,开源爱好者,目前任职 HashData 负责新一代数据库的运营工作,拥有丰富的开发者市场与社区增长经验。

议程亮点

CommunityOverCode Asia 2024

7 月 26 日 14:00 - 17:45


演讲议题:基于 Apache Doris 打造新一代日志存储和分析平台

分享时间:7 月 26 日 14:00 - 14:30

议题介绍:

日志数据成为了企业洞察系统内部状态、监控网络安全以及分析业务动态的宝贵资源,构建高效的日志存储与分析平台至关重要。面向日志场景的挑战,Apache Doris 引入了多项创新性技术,使用户构建开放、高性能、低成本、统一的日志存储分析平台。

议题大纲:

  • 企业在日志存储与分析的应用场景与挑战

  • 如何突破传统方案局限性,构建新一代日志存储分析平台

  • Apache Doris 核心技术揭秘,深度解析倒排索引与 Variant 数据类型

  • 不同行业领域的真实案例

演讲嘉宾:

肖康|飞轮科技技术副总裁、Apache Doris PMC 成员

飞轮科技技术副总裁、Apache Doris PMC 成员,负责 Apache Doris 以及 SelectDB 在日志存储分析以及半结构化方向的研发工作,有超过 10 年的数据库内核和大数据领域的架构设计、研发和团队管理经验。在加入飞轮科技之前曾就职于奇安信、360 以及百度,担任奇安信 ToB 大数据平台高级总监,研发基于 MPP 架构的安全大数据引擎,构建全球最大的网络安全大数据。


演讲议题:Apache Gluten(孵化中):通过本地引擎提升 Apache Spark 的性能

分享时间:7 月 26 日 14:30 - 15:00

议题介绍:

在 2022 年初,Intel 和 Kyligence 推出了 Gluten,这是一个继承了 Gazelle 项目的开源项目。Gazelle 是由 Intel 开发的基于 Apache Arrow 的本地 SQL 引擎,旨在改善 Spark SQL 的处理性能。Gluten 取代了 Gazelle,将包括 Velox 和 ClickHouse 在内的多种本地引擎融合在一起,为 Apache Spark 用户提供性能增强。

通过将 Spark 与矢量化的 SQL 引擎连接起来,Gluten 解决了性能障碍,并利用了高级矢量扩展(AVX)技术。该项目提供了 Gluten 插件、计划转换、回退处理、内存管理、列式 Shuffle、Shim 层和指标等组件,与 Spark 和本地库无缝集成。

Intel 与 Meta 和 Velox 社区合作,在 Velox 后端集成中实现了高达 8 倍的加速。到 2024 年,Gluten 被贡献给 Apache,成为 Apache Gluten(孵化中)项目。Apache Gluten 是一个拥有活跃开发者社区的开源项目,计划支持事务基准测试,并扩展与 GPU 和 FPGA 等硬件加速器的兼容性。

演讲嘉宾:

Weiting Chen丨Intel, Senior Software Engineer

英特尔数据中心与人工智能集团的高级软件工程师。他拥有十年的经验,专注于大数据和云解决方案。他在 Spark、OpenStack 等项目中做出了重大贡献,最近还作为 Apache Gluten(孵化中)项目的初始贡献者之一参与其中。他的职责之一是利用硬件潜力来提升大数据工作负载的性能。

Lu Cao丨Kyligence, R&D Senior Manager

Kyligence 的高级研发经理,也是 Apache Carbondata 的贡献者。他目前负责领导 OLAP 团队的前瞻性研发工作,并专注于构建下一代 OLAP 分析平台。他对研究开源技术有浓厚兴趣,并在构建企业数据平台和实时数据处理系统方面拥有丰富经验。


演讲议题:Apache Kylin:5.0 新功能介绍

分享时间:7 月 26 日 15:00 - 15:30

议题介绍:

Kylin 5.0 的通用版本(GA 版本)将于 2024 年 7 月发布。本次分享会将介绍 Kylin 5.0 的一系列重要新功能,包括 Calcite 组件的升级、存储引擎的升级、智能建模能力、元数据重构、内部表函数与 Native 引擎的集成等。

演讲嘉宾:

Lu Cao丨Kyligence, R&D Senior Manager

Kyligence 的高级研发经理,也是 Apache Carbondata 的贡献者。他目前负责领导 OLAP 团队的前瞻性研发工作,并专注于构建下一代 OLAP 分析平台。他对研究开源技术有浓厚兴趣,并在构建企业数据平台和实时数据处理系统方面拥有丰富经验。

Pengfei Zhan丨Kyligence, Senior Software Engineer

目前在 OLAP 团队工作,专注于构建下一代 OLAP 分析平台。他对研究开源技术有浓厚兴趣,并拥有在 Kylin 的查询和建模方面的经验。


演讲议题:Apache Doris 在中国邮政储蓄银行(PSBC)的应用和探索

分享时间:7 月 26 日 15:45 - 16:15

议题介绍:

总结中国邮政储蓄银行(PSBC)中 Apache Doris 的应用现状和未来应用计划,并反映 Apache Doris 对金融系统带来的技术赋能和业务效率提升。

演讲嘉宾:

柳村丨中国邮政储蓄银行软件研发中心 - 数据工程师

就职于中国邮政储蓄银行软件研发中心,主要负责数据分析、数据挖掘和数据维护工作。


演讲议题:通过使用 Apache Calcite 对 Text2SQL 进行更好的评估

分享时间:7 月 26 日 16:15 - 16:45

议题介绍:

LLM 越来越多地应用在工作和生活,通过对话让 LLM 生成 SQL,有助于提升数据分析的效率。无论用什么 LLM 去生成 SQL,都会遇到对生成的 SQL 进行评价的问题:

- 不同的 SQL 方言,如何实现等价判断?

- 同语义但不同名的函数,如何实现等价判断?

- 中间逻辑不同,最终结果相同的 SQL,如何实现等价判断?

使用 Apache Calcite 进行“标准化”改写,能有效地解决上述问题。

演讲嘉宾:

Jiajun Xie丨火山引擎 LAS 高级研发工程师

2022、2023 年 ApacheCon Asia 讲师;Apache Calcite Committer。


演讲议题:从 Elasticsearch 到 Apache Doris:中国电信翼支付金融安全数据架构升级实践

分享时间:7 月 26 日 16:45 - 17:15

议题介绍:

从 Elasticsearch 到 Apache Doris:中国电信翼支付金融安全数据架构升级实践

演讲嘉宾:

刘剑群丨中国电信翼支付 - 技术总监

中国电信翼支付有限公司技术总监,中国电信高级安全专家,拥有 10 年以上的研发和架构经验。


演讲议题:Impala 4.4:一个更智能的查询引擎

分享时间:7 月 26 日 17:15 - 17:45

议题介绍:

Apache Impala 是一个基于 MPP 架构实现的原生查询引擎,用于开放数据和表格式。在本次演讲中,我们将分享过去一年在 Impala 社区中的更新内容,包括即将发布的 4.4 版本的核心功能,如适应工作负载的自动扩展、 Calcite 集成、JDBC 联邦查询、代码生成缓存、中间结果缓存、查询历史表等等。

演讲嘉宾:

Quanlong Huang丨Cloudera, Senior Staff Engineer

Cloudera 的软件工程师。在过去的 6 年多里,他一直为 Apache Impala 项目做出贡献。他是 Apache Impala 的提交者和项目管理委员会(PMC)成员,同时也是 Apache ORC 的提交者,并为 Apache Hive、Apache Hadoop、Apache Thrift 等其他开源项目做出了贡献。

Manish Maheshwari丨Product Manager at Cloudera

我是 Cloudera 的产品经理,负责 Impala 和 Kudu。在过去的十年中,我一直从事大数据领域的工作,并参与多个大数据产品的开发和交付给客户的工作。



7 月 27 日 14:00 - 17:45

演讲议题:Apache Doris 云原生存算分离架构设计的思考与实现

分享时间:7 月 27 日 14:00 - 14:30

议题介绍:

作为国内应用最为广泛的开源实时数仓之一,越来越多用户期待 Apache Doris 针对云上基础设施提供更加深度的适配,因此 Apache Doris 3.0 版本将会实现云原生架构的革新,在本次分享中将介绍 Apache Doris 云原生存算分离架构设计的思考与实践。

演讲嘉宾:

周飞丨飞轮科技 - 云原生技术负责人

飞轮科技云原生技术负责人、Apache Doris 内核贡献者,负责 Apache Doris 以及 SelectDB 在原生方向的研发工作,在分布式/云存储系统领域有近 10 年的架构设计、研发和团队管理经验。


演讲议题:在蚂蚁集团优化 Apache HoraeDB 以适应高基数指标

分享时间:7 月 27 日 14:30 - 15:00

议题介绍:

高基数对于时间序列数据库(TSDB)来说是一个重要的挑战。这种情况可能发生在指标跟踪大量实体时,或者指标本身具有高数量级的可能值时。

传统的时间序列数据库通常没有针对处理大量唯一值组合进行优化,导致在处理高基数度量指标时性能下降和效率低下。

本主题将探讨 Apache HoraeDB 如何解决这个问题。

演讲嘉宾:

Jiacai Liu丨Senior software engineer

Apache HoraeDB 的核心开发者,PPMC 成员 - 在蚂蚁集团将 HoraeDB 从零到生产实践的旅程中起到了开创性的作用。开源布道者,点燃技术启蒙的火花。

Chunshao Ren丨Senior software engineer

Apache HoraeDB 核心开发者,PPMC 成员 - 在蚂蚁集团,从零开始引领 HoraeDB 的发展,直至将其投入生产实践。

Ruixiang Tan丨open source lover

一个热爱开源的软件工程师。


演讲议题:在智能运维行业对 Apache Echart 的应用与挑战

分享时间:7 月 27 日 15:00 - 15:30

议题介绍:

在智能运维行业对 Apache Echart 的应用与挑战:

1、运维行业简介

2、日志分析场景 Echart 弊端展现

3、过程中尝试与挑战(SSR、SVG、Canvas)

4、最终方案敲定(数据聚合、与切分)

演讲嘉宾:

Haihu Wang丨智能运维专家

7 年多开发经验。目前就职于云智慧公司,在公司内部担任数据可视化 & 低代码专家,同时担任产品研发总监。外部担任中国信通院低代码专家、开源项目 FlyFish 的负责人、Cloudwise AIOps 社区专家、清华 Thulab 的 DWF 项目开发者,AntV 贡献者。主攻可视化、3D 引擎、低代码方向。参编了多篇行业低代码的标准规范建设,有着大型智能运维平台建设经验。一直以来在可视化及运维领域方向深耕。


演讲议题:Spark 优化的文件运行时统计信息

分享时间:7 月 27 日 15:45 - 16:15

议题介绍:

在本次会议中,我们将探讨基于 Parquet 文件的统计信息在 SparkSQL 优化器中的应用,重点关注如何使用这些统计信息实现基于成本的优化。

我们将讨论查询优化中的挑战,以及如何以低成本的方式收集统计信息。

此外,我们将分享一些基于成本的优化规则,包括交换消除、Bloom 过滤器下推、并行度估计等,并展示如何使用统计信息来避免这些优化规则中的不良情况。

我们还将分享在超大规模数据上验证的结果,以证明这些优化的有效性。

演讲嘉宾:

Zhengjie He丨ByteDance Data Engineer

毕业于中国科学院大学。目前,我在字节跳动从事大数据引擎的开发工作。我对 SQL 执行计划优化、计算引擎的成本降低以及其他 OLAP 技术非常感兴趣。


演讲议题:Apache Doris 在财通证券的应用实践

分享时间:7 月 27 日 16:15 - 16:45

议题介绍:

本次分享将会介绍财通证券基于 Apache Doris 的大数据架构升级与实践经验。

演讲嘉宾:

王幸丨财通证券大数据架构师

在数据仓库和大数据领域拥有超过 15 年的经验,目前在财通证券担任大数据架构师,负责大数据基础设施、数据集成、数据平台等方面的工作。


演讲议题:小米在 OLAP 系统中对 Apache Kyuubi 的深度实现

分享时间:7 月 27 日 16:45 - 17:15

议题介绍:

  • 针对大数据安全、SQL 流量管理和易用性的统一 SQL 网关

  • 利用自动路由机制提高 SQL 分发效率和资源利用率

  • 详细的任务级 SQL 指标,全面了解用户 SQL 执行细节,赋能治理、优化和诊断

  • 探索 Kyuubi 的 Notebook 能力

演讲嘉宾:

Yaodong Zhang丨Software R&D Engineer

负责小米 OLAP 系统的开发,Apache Kyuubi 的提交者。


演讲议题:Apache Linkis 在 Longbridge Securities 的应用和实践

分享时间:7 月 27 日 17:15 - 17:45

议题介绍:

在当今金融行业中,大数据已成为推动业务创新和提升竞争力的关键驱动因素。作为知名的金融服务企业,Longbridge Securities 致力于利用先进技术提升数据处理和分析能力,以更好地为客户服务和优化运营。Apache Linkis 作为一种软件解决方案,凭借其强大的数据处理能力、灵活的资源调度机制和严格的安全管理,已成为 Longbridge Securities 在大数据领域的重要合作伙伴。

Longbridge Securities 与 Apache Linkis 的整合使得能够通过集成多个计算引擎,快速处理和分析大量数据,同时满足各种复杂的业务需求。软件提供的实时数据分析和监控功能使得 Longbridge Securities 能够更加准确地了解市场动态,并及时调整业务策略。此外,Apache Linkis 的跨部门数据共享和协作功能显著提高了 Longbridge Securities 内部的数据利用效率,促进了业务创新。

此外,Longbridge Securities 充分利用 Apache Linkis 的优化和可扩展性,不断升级和完善其系统。通过整合新技术和功能,公司不断提升软件的性能和稳定性,确保高效的业务运营。此外,Longbridge Securities 根据不断变化的业务需求,采用弹性扩展和动态资源分配。

总之,Apache Linkis 在 Longbridge Securities 的应用和实践不仅提升了公司的数据处理和分析能力,还推动了业务创新和发展。随着大数据技术的不断进步和应用场景的扩展,Longbridge Securities 致力于进一步加深与 Apache Linkis 的合作,共同探索大数据在金融行业中的巨大潜力。

演讲嘉宾:

Hanmin Du丨Big Data Platform Developer

我积极参与了多个开源项目的代码贡献,包括 Linkis、Trino、WeBankFinTech、Dromara 和 Arrow。在这些社区中,我投入了大量的时间和精力来编写和优化代码,同时与社区成员合作,共同解决技术挑战并推动项目的发展。

通过参与开源代码贡献,我深刻地体会到了开源精神的力量和魅力。开源项目不仅让我学习到了最新的技术知识和实践经验,还让我结识了许多志同道合的开发者,我们一起成长和进步。

我相信开源技术是推动行业发展的重要动力,也是培养优秀工程师的摇篮。我将继续积极参与开源社区,为开源事业做出贡献,并努力成为更出色的软件工程师。



7 月 28 日 14:00 - 17:15

演讲议题:将 Apache Celeborn 和 Apache Gluten 集成以实现云原生 Shuffle

分享时间:7 月 28 日 14:00 - 14:30

议题介绍:

本次会议探讨了将 Apache Celeborn(孵化中)和 Apache Gluten(孵化中)进行集成的内容。Apache Celeborn 是一个新的孵化中的 Apache 项目,用于提供本地 SQL 引擎支持,而 Apache Gluten 则是一个用于处理 Shuffle 的孵化中的 Apache 项目。通过将这两个项目集成起来,可以增强 Apache Spark 在大数据计算环境中的性能。

Apache Gluten 通过利用 Velox 和 ClickHouse 等本地引擎来解决 CPU 计算瓶颈,并引入了列式 Shuffle 机制。将 Celeborn 作为远程 Shuffle 服务与 Gluten 进行集成,可以提升 Spark 的性能、稳定性和弹性。性能测试显示在不同环境下有改进的结果。

总体而言,Gluten 旨在为 Spark 用户提供无缝的体验,以利用本地引擎的优势而无需面对迁移挑战,而 Celeborn 则在云原生背景下增强了 Shuffle 操作。

演讲嘉宾:

Weiting Chen丨Intel, Senior Software Engineer

英特尔数据中心与人工智能集团的高级软件工程师。他拥有十年的经验,专注于大数据和云解决方案。他在 Spark、OpenStack 等项目中做出了重大贡献,最近还作为 Apache Gluten(孵化中)项目的初始贡献者之一参与其中。他的职责之一是利用硬件潜力来提升大数据工作负载的性能。

Kai Zhang丨Alibaba Cloud, Software Engineer

Celeborn PMC 成员,同时也是 Gluten 的贡献者,主要从事与 EMR Spark 相关的开发工作。

Keyong Zhou丨Alibaba Cloud, Software Engineer

阿里云软件工程师,专注于改进 EMR Spark 产品。


演讲议题:美团与 Apache Spark 和 Gluten 的旅程

分享时间:7 月 28 日 14:30 - 15:00

议题介绍:

美团的这场会议探讨了他们在生产环境中使用带有矢量化引擎的 Spark 的经验。

内容涵盖了当前瓶颈的识别、选择 Gluten 作为 Spark 插件的原因、矢量化引擎的必要性、该领域的持续研究,以及他们在现实操作中实现的切实成本节约和性能提升。本次演讲详细阐述了美团面临的挑战、决策过程,以及在其大规模数据处理流程中采用矢量化引擎所带来的变革性影响。会议将涵盖以下信息:

  • 美团的 Spark 使用案例

  • 美团在实现矢量化过程中遇到的挑战

  • 为什么选择 Gluten + Velox 作为最优解决方案

  • 真实案例中的成本和性能结果

  • 未来的矢量化计划

演讲嘉宾:

Weiting Chen丨Intel, Senior Software Engineer

英特尔数据中心与人工智能集团的高级软件工程师。他拥有十年的经验,专注于大数据和云解决方案。他在 Spark、OpenStack 等项目中做出了重大贡献,最近还作为 Apache Gluten(孵化中)项目的初始贡献者之一参与其中。他的职责之一是利用硬件潜力来提升大数据工作负载的性能。

Xianghao Lu丨Software Engineer

具有包括 Spark、Hadoop 在内的大数据经验的软件工程师。

Zhao Kuo丨Meituan, Senior Software Engineer

他是一位经验丰富的开发人员,目前专注于 Spark 矢量化加速。在加入美团之前,他在完美世界从事游戏开发,并在淘宝专注于搜索和推荐系统工程。拥有十多年的行业经验,他在高性能 C++ 服务器开发方面拥有深厚的专业知识。

Cheng Chen丨Software Engineer

美团大数据工程师,主要从事与大数据开发相关的工作,包括但不限于 Spark、Gluten、Velox 等。


演讲议题:基于 K8s 架构的 Apache Druid 多级高可用方案

分享时间:7 月 28 日 15:00 - 15:30

议题介绍:

详细解释如何在 Apache Druid 在 Kubernetes(K8s)架构上从上到下确保多级高可用性,并在 Shopee 的大规模商业应用中的应用。

演讲嘉宾:

Benedict Jin丨Expert Engineer

Apache Druid 的提交者和 PMC 成员;Shopee 资深工程师,Druid 团队的技术负责人;阿里云开源社区成员;“极客时间”签约讲师;《Java Coding Problems》等书籍的中文译者。


演讲议题:基于 Apache InLong 的腾讯数据集成,用于处理数万亿的数据

分享时间:7 月 28 日 15:45 - 16:15

议题介绍:

InLong 是中国神话中负责引导水流入海的神兽。正如其名,InLong 在大数据社区生态系统中的角色是处理大数据集成。

基于腾讯内部使用的 TDBank 和 Atta,InLong 利用万亿级数据摄取和处理能力,整合了数据采集、聚合、存储和排序的整个过程。除了提供自动化、安全、可靠和高性能的数据传输能力外,它还支持基于流的数据分析、建模和应用,帮助企业简化数据处理过程。

例如,作为一种基于 SaaS 的服务平台,InLong 允许用户选择基于主题的数据发布和订阅,快速、轻松地报告、传输和分发数据,大大降低了门槛。同时,InLong 可为万亿级数据流提供高性能处理能力,并为千亿级数据流提供高可靠性的服务,确保用户享受稳定可靠的在线服务。

InLong 还支持多种数据访问方式,包括整合不同类型的消息队列服务和实时数据提取、转换、加载以及基于规则的排序功能。此外,在服务方面,InLong 为用户提供统一的系统监控和告警服务。通过通过细粒度的指标推动数据可视化,用户可以在统一的数据测量平台上直接查看队列的运行状态,有助于提高业务的主动性。

演讲嘉宾:

Chunliang Lu丨Apache InLong PMC member, Tencent Data Integration Architector

Apache InLong PMC 成员,腾讯数据集成架构师。


演讲议题:通过 Apache Calcite 在 Elasticsearch 中的 SQL 支持

分享时间:7 月 28 日 16:15 - 16:45

议题介绍:

Elasticsearch 已被广泛应用于广告场景。然而,在许多场景中,它们的查询模式灵活且复杂,ES(Elasticsearch)无法满足其性能要求。为了更有效地支持这些场景中的复杂分析处理(AP)查询,我们已经在 Elasticsearch 集群上实现了基于 Calcite 框架的 SQL 解析和执行计划构建。它支持大多数常见的 SQL 操作,并能够实现高效的连接(Joins)。

在本次演讲中,我们将深入探讨 Elasticsearch 如何利用 Calcite 来优化执行计划。我们的讨论将涵盖以下几个关键主题:基于外部表的元数据定义和管理、查询分区剪枝、过滤条件的下推、Elasticsearch 路由机制以及自定义数据分布策略、RuntimeFilter 的优化等。

演讲嘉宾:

Xuanda Wen丨intermediate

字节跳动数据研发工程师,从事广告部门的 Elasticsearch 内核研发工作,熟悉 ES 元数据。


演讲议题:深入解读 Apache Doris 异步物化视图的技术原理与应用

分享时间:7 月 28 日 16:45 - 17:15

议题介绍:

作为一种典型的“空间换时间”策略,物化视图通过预先计算和存储 SQL 查询结果,当执行相同查询时可以直接从物化视图表中获取结果,在大幅提升查询性能的同时、更是减少重复计算带来的系统资源消耗。

Apache Doris 中当前提供了强一致的单表物化视图和异步的多表物化视图,在本次分享中将会详细介绍物化视图的技术原理、实现以及应用场景,包括:

  • 异步物化视图的应用场景介绍

  • 异步物化视图的技术原理及当前限制,包括完全构建和增量构建、物化视图的透明重写等

  • 异步物化视图的限制

  • 异步物化视图的未来功能

演讲嘉宾:

武思丨飞轮科技 资深研发专家

飞轮科技资深研发专家、Apache Doris 内核贡献者,负责 Apache Doris 查询优化器、物化视图等相关功能的开发工作,在数据库内核领域有多年的设计和开发经验。

扫码购票

CommunityOverCode Asia 2024

🌟 点击下方二维码或文末【阅读原文】进行扫码购票!数量有限,快来参与吧~

作为 Apache 软件基金会(ASF)的官方全球系列大会,每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。7 月 26 日至 28 日,即将强势来袭的 CommunityOverCode Asia 2024 上,大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。

Pulsar 社区志愿者招募

Pulsar 社区招募新一期志愿者。

志愿者将第一时间获得社区最新资料,有机会和社区大咖直接交流,获取社区纪念品直接翻倍。

目前社区的工作包括以下几类,可以根据自己时间和兴趣点来安排和选择:

  1. 文章邀约:根据邀约定向撰写文章

  2. 文章审核:对社区编写的文章做编辑、审核等

  3. 问题整理:对社区常见问题做整理并尝试解决

  4. 翻译工作:文字和视频类的翻译、校准

  5. 视频整理:将视频整理成文章

  6. 视频切片:将视频里面的精华切出短视频

  7. 活动组织:参与当地 Meetup 等活动的筹办组织等

感兴趣的同学可以直接在 ApachePulsar 公众号留言,或者直接 ping PulsarBot。

联系我们

Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计,支持多租户、持久化存储、多机房跨区域数据复制,具有强一致性、高吞吐、低延时及高可扩展性等流数据存储特性。GitHub 地址:http://github/apache/pulsar/

Pulsar 中文社区 Logo(部分)

诚挚邀请您加入 Apache Pulsar 社区,与全球开发者一起学习、分享和成长,共同塑造云原生消息流平台的未来,一起打造更加开放和高效的开源技术生态!

Pulsar 进群说明

推荐阅读

干货文章

技术探究 | Flipkart 带来 Apache Pulsar 集群调优指南

Apache Pulsar 为滴滴大数据运维带来了哪些收益?

BIGO 百页小册《Apache Pulsar 调优指南》

Hi,Apache Pulsar 社区的小伙伴们,社区 2024 上半年度的有奖问卷调查来啦!

参与问卷调查可优先获得 BIGO 冯文智大咖贡献的100 页小册 《Apache Pulsar 调优指南》 ,精彩不容错过,详情请看问卷。

点击链接参与有奖问卷调查:👇🏻

Apache Pulsar 中文社区有奖问卷调查(2024 上半年度)


🔥 通知:本次CommunityOverCode Asia 2024 大会,Apache Pulsar社区获赠有部分免费普通门票赠票(不含餐和伴手礼)和 8 折优惠码,可购买任意门票。赠票将在接下里的社区活动里发送,请大家关注社区最新活动。折扣优惠购票请需要的小伙伴联系 Pulsar Bot 获取,先到先得哦。

本文标签: 专题AsiaCommunityOverCodeAnalysisData