10月26日,ymatrix 正式发布全新 5.0 版本,这是 ymatrix 之旅的新里程碑!
在 5.0 版本中,我们关注全场景性能表现,包括写入能力、时序查询能力、单表 olap 分析、多表关联 olap 分析、machine learning 性能以及 oltp 能力等方面,在生产场景下的写入速度实现了 1.52 亿数据点/秒。哪怕是对写入能力要求最高的时序场景,也可以轻松满足高并发、低延迟的写入需求。
这一次 ymatrix 5.0 在性能上得到重大突破,有 7 个值得重点关注的特性:
全新数据库架构 新增向量化执行引擎 mars2 存储引擎性能大幅优化 新增编码链压缩算法 新增平滑扩容功能 新增数据迁移工具 mxshift 图形化界面升级
1
全新数据库架构
新增集群管理工具:mxstart(启动一个 ymatrix 集群)、mxstop(停止一个 ymatrix 集群)、mxstate(查看一个 ymatrix 集群的状态)、mxrecover(恢复一个 ymatrix 集群)。
2
新增向量化执行引擎
向量化执行引擎是专门为面向列的存储引擎(如 mars2,aoco)打造的高性能执行引擎。对于常见查询,相比面向行处理的传统执行引擎有一到两个数量级的性能提升。
支持批处理:利用批处理的方式,可以有效减少函数调用等执行开销 充分利用硬件及编译器能力:使用 cpu 缓存友好的算法,从而充分利用硬件以及编译器的优化能力,如生成 simd(single instruction, multiple data)指令 支持多种算子:实现了 scan、sort、aggregate 等算子,对于同一算子也有不同的算法实现,有效覆盖绝大部分查询场景,提升查询性能
3
mars 2 存储性能大幅优化
优化压缩策略,降低内存使用量 优化分区表写入,降低内存使用量 优化查询过滤效果,减少不必要的 i/o 消耗 优化数据量估计,执行计划的选择更精准 增强聚合能力,支持 uniquemode 和 in 表达式 修复 uniquemode 合并结果顺序问题 修复并行扫描快照对齐问题 修复一处内存泄漏
4
新增编码链压缩算法
支持多种编码、压缩算法:支持 lz4,zstd,simple8b,doubledelta,gorilla,deltazigzag,floatint 等编码、压缩算法,可灵活组合以上算法,以充分提升压缩率 支持按列自定义编码、压缩算法组合 配合向量化执行引擎使用提升数据压缩 解压速度:在 ssb 场景下解压速度是 lz4 的 3 倍
编码链压缩方案可大幅减小空间占用,降低成本。在新能源汽车场景,压缩率是使用 lz4 压缩算法方案的 3.9 倍,在 tsbs(time series benchmark suite)场景,是 lz4 的 2.7 倍。
5
新增平滑扩容功能
支持不停机完成扩容任务
支持自定义数据节点集合(segment set),实现对部分表的重分布
支持并行执行表数据重分布
支持连接未重分布表与已重分布表
6
新增数据迁移工具 mxshift
支持全量迁移:以数据库为单位,实现从 greenplum 5 greenplum 6/ ymatrix 集群并行迁移数据到新的 ymatrix 集群
支持反向迁移:从 ymatrix 到 greenplum 5 greenplum 6 反向迁移
支持增量迁移:通过 where 条件实现增量数据迁移
7
图形化界面升级
增加查询监控页面,支持自定义管理页面展示的慢查询信息,可一键终止慢查询
增加写入测试功能,一键体验 ymatrix 强大数据写入性能
增加查询测试功能,支持按照业务场景自定义查询测试方案,一键体验高并发场景下 ymatrix 强劲查询性能
https://ymatrix.cn/doc/5.0/latest。
我们在“ymatrix 超融合数据库”视频号上传了回放视频,感兴趣的朋友们欢迎前往观看!
关于 ymatrix 超融合数据库
基于独创的多微内核开放架构,在单一数据库之上,实现多模态数据的融通管理,及全场景查询分析的统一支持,兼顾高性能、高可靠及易用性,并大幅降低数据基础设施的建设复杂度,为构建物联网时代的融合数据基座,开拓一种全新的技术路径。
目前,ymatrix 已成功应用于工厂数据基座、大型公司集团数仓、智能网联汽车、物联设备智能运营等真实生产场景中,以极高的性能、稳定性、数据安全性,以及融合极简的技术架构,助力用户轻松应对数据管理挑战,大幅降低选型、采购、使用及运维时的技术门槛,使开发更省力、迭代更省时、运维更省心。