议程
太平洋时间上午8:30 – 上午8:45 | 欢迎致辞 | Curt Hu,Presto 基金会主席 | Uber高级工程师经理 Ali LeClerc,Presto 基金会外联委员会主席 | IBM开源与产品 |
太平洋时间上午8:45 – 上午9:15 | TSC 主题演讲 | Tim Meehan,Presto 基金会TSC主席 | IBM软件工程师 |
太平洋时间上午9:15 – 上午9:35 | 优化 Etisalat Egypt 的数据分析:边缘的 Presto | Mohamed Taha,Etisalat Egypt大数据工程师 |
太平洋时间上午9:35 – 上午9:55 | 在 Apna 使用 Presto 实现分析 | Dhvanit Trivedi,Apna数据工程师 Piyush Mujavadiya,Apna首席数据工程师 Subham Todi,Apna首席数据工程师 |
太平洋时间上午9:55 – 上午10:00 | 赞助商环节:Presto C++ 和 IBM watsonx.data 用于开放数据湖仓 | Kevin Shen,IBM产品经理 |
太平洋时间上午10:00 – 上午10:30 | 休息 | |
太平洋时间上午10:30 – 上午11:00 | 解开 Prestissimo 验证的非确定性查询难题 | Ge Gao,Meta软件工程师 Krishna Pai,Meta软件工程师 Wei He,Meta软件工程师 |
太平洋时间上午11:00 – 上午11:20 | Presto 原生 Iceberg 支持 | Ying Su, IBM软件工程师 |
太平洋时间上午11:20 – 上午11:40 | Presto C++ TPC-DS 更新和 Pbench | Aditi Pandit,IBM软件工程师 Ethan Zhang,IBM工程经理 |
太平洋时间上午11:40 – 下午12:00 | 检测和解决 Presto 性能障碍 | Goutam Verma,WSO2软件工程师 |
太平洋时间下午12:00 – 下午12:10 | 利用 Presto 本地缓存中的 TTL 实现数据隐私和性能 | Chunxu Tang,Alluxio高级研究科学家 Jianjian Xie,Alluxio高级软件工程师 |
太平洋时间下午12:10 – 下午12:30 | 深入探讨 IBM 的 Presto 2.0 基准测试内部机制 - Presto C++ 和查询优化器结果 | Berthold Reinwald,IBM 研究员 Ashok Kumar,IBM项目总监 |
太平洋时间下午12:30 – 下午1:00 | 休息 | |
太平洋时间下午1:00 – 下午1:20 | 探索云智能:利用 Presto 在 AWS 云上进行数据分析 | Henry Clavo,政府机构数据专业人员 |
太平洋时间下午1:20 – 下午1:30 | Presto OpenAPI/HTTP 连接器 | Andrei Savu,Rippling软件工程师 |
太平洋时间下午1:30 – 下午1:40 | 如何使用 MoR 和 Equality 删除加速 CDC 的 Iceberg 查询 | Roy Hasson,Upsolver 产品副总裁 |
太平洋时间下午1:40 – 下午2:00 | Presto Pinot DataLake 段读取器 | Mingjia Hang,Uber高级软件工程师 |
太平洋时间下午2:00 – 下午2:20 | 使用 Hudi 增强 Presto 的查询性能和数据管理:创新和未来 | Ethan Guo,Onehouse 数据基础设施工程师 |
太平洋时间下午2:20 – 下午2:40 | 使用 NeuroBlade 的 SPU 硬件加速简化数据分析 | Deepak Narain,Neuroblade 产品副总裁 |
太平洋时间下午2:40 – 下午3:00 | Presto 如何更好地支持 ML 用户? | Pedro Pedreira,Meta软件工程师 |
太平洋时间下午3:00 – 下午3:30 | 休息 | |
太平洋时间下午3:30 – 下午3:50 | 弥合差距:在由 Lance 支持的矢量数据湖上运行 Presto SQL | Lei Xu,LanceDB 首席技术官/联合创始人 Beinan Wang,软件工程师和 Presto TSC 成员 |
太平洋时间下午3:50 – 下午4:10 | 解锁语言洞察力:构建用于大型语言模型的 Presto 连接器 | Satej Sahu,波音公司高级软件数据架构师 |
太平洋时间下午4:10 – 下午4:30 | Nimble,一种用于大型数据集的新文件格式 | Jialiang Tan, Meta软件工程师 Jimmy Lu, Meta软件工程师 |
欢迎致辞
欢迎来到 PrestoCon Day!加入我们,一起体验开源 Presto 的一切。您将听到 Presto 基金会主席 Curt 和 Ali 分享社区的最新动态以及对当天的期望。
Curt Hu
Presto 基金会主席 | Uber高级工程师经理
Ali LeClerc
Presto 基金会外联委员会主席 | IBM开源与产品
TSC 主题演讲
Tim Meehan
Presto 基金会TSC主席 | IBM软件工程师
优化 Etisalat Egypt 的数据分析:边缘的 Presto
Etisalat Egypt 是埃及领先的移动运营商之一。在本环节中,了解有关 Etisalat 的一些数据挑战以及数据团队如何利用 Presto 的强大功能来应对碎片化数据的挑战。
Mohamed Taha
Etisalat Egypt大数据工程师
在 Apna 实现分析
Apna 是印度最大、发展最快的专业机会平台。在本环节中,我们将探讨 Apna 与 Presto 的合作历程,包括其在 Kubernetes 上的部署以及为大幅缩短查询时间而实施的优化措施。了解 Apna 如何实现高效且可扩展的数据分析的策略。
Dhvanit Trivedi
Apna数据工程师
Piyush Mujavadiya
Apna首席数据工程师
Subham Todi
Apna首席数据工程师
赞助商环节:Presto C++ 和 IBM watsonx.data 用于开放数据湖仓
了解有关 IBM watsonx.data 的更多信息,它是首个提供 Presto C++ 以实现更高性价比的开放数据湖仓平台。在本环节中,Kevin 将深入探讨 watsonx.data 的组件,包括 Presto C++、Apache Spark、Milvus 等。了解公司如何利用 watsonx.data 平台为其所有大规模工作负载提供动力。
Kevin Shen
IBM产品经理
解开 Prestissimo 验证的非确定性查询难题
我们将展示我们在为 Meta 的 Presto 生产版本启用 Prestissimo 非确定性查询正确性验证方面所做的工作。非确定性查询占生产流量的很大一部分,但它们的结果在引擎之间以及引擎版本之间不可比,因此对 Prestissimo 的正确性验证提出了巨大挑战。在本演讲中,我们将分享我们如何划分问题并利用 Presto Verifier 和 Velox Fuzzer 重写非确定性查询,并在查询级别和表达式级别验证正确性。
Ge Gao
Meta软件工程师
Krishna Pai
Meta软件工程师
Wei He
Meta软件工程师
Presto 原生 Iceberg 支持
Ying 将简要介绍 Apache Iceberg 以及 Presto 原生 C++ 引擎中对 Iceberg 的最新支持工作,其中包括对读取、时间旅行、缓存等的支持。她还将分享设计和实施细节。
Ying Su
IBM软件工程师
Presto C++ TPC-DS 更新和 pbench
Presto 原生 C++ 项目的一个重要动机是由于新架构带来的性价比优势。矢量化、内置内存管理/缓存和运行时优化使其成为一个为效率而生的最先进数据引擎。
在 IBM,我们不断改进 Presto C++,追求 TPC-DS 基准测试。该行业基准测试代表了复杂决策支持的能力,也是客户在购买 SQL 引擎产品时考虑的关键因素。
在本演讲中,我们将展示 Presto C++ 开源项目在 TPC-DS 1K、10K 和 100K 运行中的最新数据。我们将深入探讨阻碍因素、已解决的问题以及提出的下一轮改进。我们还将分享有关使用 pbench 的结果,pbench 是一个基准测试运行程序,旨在替代 Benchto。
Aditi Pandit
IBM软件工程师
Ethan Zhang
IBM工程经理
检测和解决 Presto 性能障碍
在本环节中,Goutam 将探讨用于检测和解决 Presto 集群性能问题的先进监控策略。我们将深入探讨可帮助识别问题的特定指标和工具,例如查询延迟峰值、资源争用和节点故障。通过真实的案例和案例研究,与会者将了解如何优化其监控设置以主动检测和解决问题,确保 Presto 部署的平稳运行和高性能。
该环节将首先概述 Presto 集群以及监控在优化性能中的关键作用。然后,我们将讨论常见的性能障碍,包括查询延迟峰值、资源争用和节点故障,重点强调主动监控的必要性。接下来,Goutam 将深入探讨应监控的关键指标,例如查询执行时间、资源利用率和网络延迟,以及这些指标如何帮助识别和解决性能问题。Goutam 还将简要概述监控工具,例如 Prometheus、Grafana 和 Presto 的内置指标,展示它们在收集和分析监控数据方面的能力。在环节结束之前,与会者将探索现实世界的示例,证明这些监控策略在检测和解决 Presto 集群性能问题方面的有效性。
Goutam Verma
WSO2软件工程师
利用 Presto 本地缓存中的 TTL 实现数据隐私和性能
自动驱逐超过一定时间的缓存数据对于必须遵守数据隐私法规(如 GDPR 和 CCPA)的 Presto 用户来说是一个非常有用的功能。在本环节中,Chunxu 和 Jianjian 将分享在本地磁盘上缓存数据的时间到期 (TTL) 实现。此功能不仅可以帮助 Presto 用户满足法规遵从要求,还可以使 Presto 的本地缓存填充最新的、最相关的数据。
您将了解
– Presto 本地缓存中 TTL 的实现
– 选择最佳 TTL 值的配置和策略
– 使用 TTL 来满足数据隐私要求,同时最大限度地提高本地缓存性能增益的示例
Chunxu Tang
Alluxio高级研究科学家
Jianjian Xie
Alluxio高级软件工程师
深入探讨 IBM 的 Presto 2.0 基准测试内部机制 - Presto C++ 和查询优化器结果
在 IBM,我们最近发布了 Presto C++ v0.286 和查询优化器在 IBM Storage Fusion HCI 上的最新基准测试结果。在本环节中,我们将讨论基准测试内部机制,并分享我们所有运行的更详细的分析和结果。
Berthold Reinwald
IBM 研究员
Ashok Kumar
IBM 数据和人工智能项目总监
探索云智能:利用 Presto 在 AWS 云上进行数据分析
本环节探讨如何将数据从本地无缝迁移到 AWS 并利用 Presto 进行高级 SQL 查询。获得有关加速分析工作流和做出数据驱动决策的实用见解。
Henry Clavo
政府机构数据专业人员
Presto OpenAPI/HTTP 连接器
Thrift Presto 连接器的 OpenAPI HTTP/JSON 替代方案。功能较少,但同样有用。
Andrei Savu
Rippling软件工程师
如何使用 MoR 和 Equality 删除加速 CDC 的 Iceberg 查询
从事务型数据库中提取并维护变更数据捕获 (CDC) 流到 Iceberg 数据湖并非易事。更具体地说,随着变更频率和数量的增加,查询性能会迅速下降,迫使用户在 CoW 与 MoR、小文件与大文件,甚至是否应该延迟刷新表格之间做出艰难的选择。在本闪电演讲中,您将了解 Apache Iceberg 如何管理已删除的行,位置删除文件和等式删除文件的区别,以及 Presto 最近的增强功能如何使用连接优化使用等式删除的 MoR,从而将查询速度提高 400 倍。
Roy Hasson
Upsolver 产品副总裁
Presto Pinot DataLake 段读取器
目前,现有的 Presto Pinot 连接器主要支持热数据,这会给 Pinot 服务器带来压力。为了满足用户对扩展数据保留和高级连接查询的需求,我们引入了新的 Presto Pinot 数据湖连接器。此连接器允许直接访问存储在深度存储中的 Pinot 段,消除了冗余数据摄取,并优化了我们的数据处理能力。
Hang Mingjia
Uber 高级软件工程师
使用 Hudi 增强 Presto 的查询性能和数据管理:创新和未来
在不断变化的大数据和分析领域,有效的数据管理和检索系统至关重要。在本演示中,我们将深入探讨 Presto Hudi 连接器的开发和创新,追溯其起源,从早期的 Hive 连接器开始。
我们将深入探讨 Hudi 连接器的独特功能,这些功能将其与传统的用于 Presto 等系统中的查询优化文件列表和分区修剪方法区分开来。我们将了解 Hudi 的独特功能,包括其多模式索引框架,该框架集成了对列统计和记录索引的支持,展示了这些属性如何提高点查找和范围查找的查询效率。
本次演讲将介绍 Presto Hudi 连接器的未来展望,包括多模式索引框架的增长以及 DDL/DML 支持的添加。这些增强旨在进一步改进 Presto Hudi 连接器的数据管理功能,在大型数据操作中提供更高的灵活性和效率。
Ethan Guo
Onehouse.ai 数据基础设施工程师
使用 NeuroBlade 的 SPU 硬件加速简化数据分析
本演示将讨论 NeuroBlade 与开源社区的合作,通过专门的硬件加速来增强 Velox 分析引擎。我们将深入探讨 NeuroBlade SQL 处理单元 (SPU) 实现的技术增强和性能改进。利用数据分析加速 (DAXL) 框架,这种方法抽象了底层硬件的复杂性,从而简化了与数据分析平台的集成。Krishna Maheshwari 将解释 SPU 与 Presto-Velox 的无缝集成,重点介绍其与主要数据格式(包括 Iceberg、Parquet 和 ClickHouse)的兼容性。我们还将展示基准测试结果,这些结果展示了 SPU 的流水线处理能力,展示了效率和处理速度的显著提高。
Deepak Narain
Neuroblade 产品副总裁
Presto 如何更好地支持 ML 用户?
在本演讲中,我将讨论 ML 用户在利用 Presto 准备大型训练数据集时面临的一些挑战。根据支持 Meta 中这些工作负载的经验,我将介绍它们与传统分析工作负载有何不同,并讨论这些新需求为现代计算引擎设计带来的机遇。我将在三个不同的维度上展示我们的发现
- 更有效的存储和内存中数据布局。
- 压缩执行及其对算子设计的影响。
- (极其) 延迟物化。
我还将分享 Meta 团队在支持这些工作负载方面取得的最新进展,初始结果,支持此堆栈的现有和新开源项目,并介绍需要更多研究、开发和协作的领域。
Pedro Pedreira
Meta 软件工程师
弥合差距:在由 Lance 支持的矢量数据湖上运行 Presto SQL
近年来,GenAI、LLM、计算机视觉和机器人技术的进步,激发了对海量计算能力和创新数据实践的需求。这些需求以前在传统大数据基础设施中从未出现过,导致 AI 数据存储在单独的孤岛中,并使用单独的系统进行查询,从而增加了成本和复杂性。
相反,如果您能够使用 Presto 对用于搜索和检索,甚至训练的相同数据集运行大型 OLAP 查询和数据转换,会怎么样?这可以使 AI 团队免于浪费时间和精力在不同格式之间进行转换,并使他们能够编写 SQL,而不是编写复杂且昂贵的 Python 脚本进行数据转换。
为了实现这一点,我们提出了一个基于 Lance 格式的向量数据湖,它由高性能 Presto 访问,Presto 是一个成熟的分布式分析引擎,通过简单的 SQL 查询提供丰富的计算内核集。Lance 在实时搜索查询中提供 10 倍的性能提升,并且与 Presto 兼容,以支持快速分布式 OLAP 查询。这种统一的方法简化了数据管理,提高了性能,并显着降低了基础设施成本。
Xu Lei
LanceDB 首席技术官/联合创始人
Wang Beinan
软件工程师和 Presto TSC 成员
解锁语言洞察力:构建用于大型语言模型的 Presto 连接器
当我们踏上利用大型语言模型 (LLM) 与 Presto 的力量进行开创性旅程时,深入自然语言理解和数据分析领域。在本引人入胜的会议中,我将揭示一种将 LLM 无缝集成到您的数据生态系统中的前瞻性方法,使用自定义 Presto 连接器。
大型语言模型彻底改变了我们与文本数据交互和分析的方式,在自然语言处理和理解方面提供了无与伦比的能力。但是,在传统数据分析管道中释放 LLM 的全部潜力可能具有挑战性。这就是 Presto 的用武之地。
加入我们,探索 LLM 和 Presto 的创新融合,使您能够直接访问大量文本数据,以便进行实时分析和洞察提取。通过本会议,您将获得宝贵的见解,了解如何设计和实现专门针对 LLM 集成定制的 Presto 连接器。
主要亮点包括
– 了解将 LLM 集成到数据分析工作流程中的变革潜力
– 为 Presto 连接器设计体系结构,以便与 LLM 无缝衔接,确保高效的数据检索和处理
– 利用 Presto 的可扩展性来开发针对处理大量文本数据进行优化的自定义连接器
– 克服挑战并优化性能以进行实时分析和洞察提取
– 展示将 LLM-Presto 集成到各个行业和应用程序中带来的变革影响的真实案例研究和用例
Satej Sahu
波音公司高级软件数据架构师
Nimble,一种用于大型数据集的新文件格式
在本演讲中,我们将介绍 Nimble,这是一种针对大型数据集的新型文件格式,最近由 Meta 开源。Nimble 旨在提高现有文件格式的效率、灵活性和可扩展性。它通过提供对非常宽表的更好支持,优于 Apache ORC 和 Parquet 等现有格式,这些非常宽表通常出现在 ML 训练表的数据准备工作负载中。Nimble 还为其支持的编码提供了更大的灵活性和可扩展性,并且更适合使用 SIMD 和 GPU 进行并行解码。我们的最终目标是最终将 Meta 的数据仓库迁移到 Nimble。
会议将包括对以下内容的概述
- Meta 的训练数据准备工作负载,为什么它们不适合 ORC 和 Parquet 等现有文件格式,以及 Presto 在其中扮演的角色。
- Presto Native 与 Nimble 文件格式的新集成。
- Nimble 在 Meta 的现状
- 正在进行的开发和未来工作,旨在为分析创建新的文件格式合作机会。
Jialiang Tan
Meta 软件工程师
Jimmy Lu
Meta软件工程师