版本说明书
版本配套说明
产品版本信息
软件版本配套说明
| 项目 | 版本 |
|---|---|
| 操作系统 | CentOS 7.9openEuler 20.03 LTS SP1openEuler 22.03 LTS SP1 |
| JDK | 毕昇JDK 1.8(建议使用毕昇JDK 1.8.0_342)openEuler 22.03 LTS SP1与毕昇JDK 1.8.0_262不兼容,需更换为毕昇JDK 1.8.0_342。 |
| Hadoop | 3.2.0 |
| Spark | 3.1.1、3.3.1、3.4.3、3.5.2 |
| Hive | 3.1.0 |
| Python | 3.10.2及以上 |
| 文件系统 | HDFS |
| 数据格式 | ORC、PARQUET |
硬件版本配套说明
病毒扫描结果
本软件包、版本文档、产品文档经过防病毒软件扫描,未发现病毒。详细信息如下:
V2.1.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- 新增InsertIntoHadoopFsRelationCommand支持插入HDFS、WriteFile支持ORC写入、Window支持Array数据分段、FileSourceScanExec支持Array数据读取、LocalLimitExec支持Array数据截取。
- 新增支持datediff、pmod、charTypeWriteSideCheck、least、concat_ws、get_json_object表达式。
无
无
已解决的问题
无
遗留问题
无
V2.0.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- 新增适配Spark的Gluten 1.3版本适配层。
- SparkExtension新增支持
concat_ws、regexp、regexp_replace、trim和floor表达式。
无
无
已解决的问题
无
遗留问题
无
V1.9.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- Spark 3.3.1新增对Parquet格式列式写入的支持。
- 新增支持操作系统CentOS 7.9。
无
无
已解决的问题
无
遗留问题
无
V1.8.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- 支持Spark 3.4.3和Spark 3.5.2版本。
- Spark 3.4.3和Spark 3.5.2支持LIMIT...OFFSET...语法。
- 新增表达式:
try_add、try_divide、try_multiply、try_subtract、try_avg、try_sum。 - Spark 3.5.2的开源版本中,ShuffledHashJoin新增了JoinType与BuildSide的同向处理逻辑。
- Spark 3.5.2新增WindowGroupLimit算子,优化了Top-K计算中
ROW_NUMBER和RANK函数的性能。
无
该版本不适配CentOS 7.9。
已解决的问题
无
遗留问题
无
V1.7.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- 新增Partial Agg逻辑优化,提升查询效率。
- Sort算子、HashAgg算子、HashJoin算子向量化指令优化增强。
- Spark算子加速新增Agg+Sort+Limit场景下执行计划优化、Scan执行计划优化,减少性能开销,提升查询效率。
- Spark算子加速新增ColumnarDataWritingCommandExec列式算子。
- Spark算子加速新增按Stage级别算子回退,部分场景能减少行列转换带来的性能损耗。
- Spark算子加速新增支持TIMESTAMP数据类型。
- Spark算子加速新增支持
unix_timestamp、from_unixtime表达式。 - Hive算子加速新增支持S
IMPLE_EDGE的Shuffle,新增支持Filter和Select算子的融合。 - Hive算子加速新增支持POWER表达式。
无
无
已解决的问题
无
遗留问题
无
V1.6.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- 优化bloomFilter、subquery broadcast前置条件,提高子查询的复用率。
- 新增支持greatest/contains表达式,支持含标量子查询表达式的filter算子不回退。
- 优化算子TableScan、HashJoin、Shuffle、RollUp。
- 优化算子加速部署形态,在Yarn资源管理模型下,Spark的Executor进程依赖的算子加速的二进制软件包能自动部署。
无
无
已解决的问题
在Spark执行INSERT语句且只有1个数据分区的场景下,当出现50个表连续SMJ(Sort Merge Join)操作时,可能会导致SMJ算子在堆外内存耗尽时调用new来申请vector内存,从而引发core dump问题。 |
遗留问题
无
V1.5.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- OmniOperator算子加速内存优化,支持大宽表查询,包含Aggregate state内存使用优化、HashAggregator序列化内存使用优化、统一Aggregator和Operator的内存分配、HashAggregator Spill功能排序优化等。
- 新增支持not表达式及Spark insert场景下的AnsiCast表达式。
- 新增对Hive引擎的支持,Hive Extension执行TPC-DS 99条SQL无异常,在向量化开启时,ORC格式的性能比Hive开源版本提升20%。
- Hive Extension新增了对Filter、Select、GroupBy、MapJoin、MergeJoin、PTF、Sort和TableScan等算子的支持。
- Hive Extension新增了对ORC文件的安全集群支持。
无
无
已解决的问题
无
遗留问题
V1.4.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- 完成执行计划优化,新增DeduplicateRightSideOfLeftSemiJoin、RewriteSelfJoinInInPredicate和MergeSubqueryFilters三个Rule。
- 新增对NullType数据类型的支持。
- 新增SubqueryBroadcastExec、CoalesceExecTransformer和Limit Omni算子。
- 完成算子功能优化,包含HashAggregator RollUp优化、TableScan算子Parquet格式数据读取优化、Sort算子支持Radix Sort、ORC/Parquet数据格式支持partition字段为中文或中文特殊字符等。
- 完成表达式优化,包含新增instr/startswith/endswith函数、支持String类型和int/long类型的相互转换、decimal数据处理优化和String类型表达式优化。
- 在Kerberos安全集群下,算子加速支持Spark local模式和Yarn模式,且支持Native方式的ORC/Parquet数据读取。
- Window和HashAggregator算子支持Spill功能。
- 支持NEON指令优化,包含HashJoin、Sort和Aggregator算子。
无
无
已解决的问题
无
遗留问题
无
V1.3.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
- 将TPC-DS基准测试中99个查询的性能提升30%,主要优化包括支持AVG/SUM Aggregator向量化计算、Sort Spill按内存使用情况溢出、Shuffle write减少临时文件Spill次数和关闭CBO场景下的Join Reorder优化。
- Omni算子新增了TopNSort、SortMergeJoin和Sort融合。
- 实现了对Parquet文件的Table Scan Native化,以及ORC和Parquet支持安全集群。
无
无
已解决的问题
无
遗留问题
无
V1.2.0
更新说明
鲲鹏BoostKit大数据OmniRuntime OmniOperator算子加速特性通过使用一个基础架构支撑不同引擎(例如Spark),减少重复优化工作,从而释放通用、异构算力,有效推动鲲鹏生态。
-
实现了对TPC-DS基准测试中99个查询的支持,主要新增了以下关键功能:
- 在ShuffledHashJoin中新增对LeftSemi Join类型的支持。
- 在SortMergeJoin中新增对LeftAnti Join和LeftSemi Join类型的支持。
- 在HashAggregation中新增对非分组列的聚合处理的支持。
-
实现了对config配置项、decimal数据类型、aggregation算子、codegen表达式以及vector的重构优化。
无
无
已解决的问题
无
遗留问题
无
版本配套文档
版本配套文档
| 文档名称 | 内容简介 | 交付形式 |
|---|---|---|
| 2.1.0 版本说明书 | 提供OmniOperator的版本发布信息。 | 开源仓 |
| 安装指南 | 提供OmniOperator的安装部署指导。 | 开源仓 |
| 使用指南 | 提供OmniOperator的使用操作指导。 | 开源仓 |
| 常见问题 | 记录安装、部署和使用OmniOperator过程中可能遇到的问题及其解决方法。 | 开源仓 |
获取文档的方法
您可以通过访问开源仓浏览和获取相关文档。