数睿通2.0更新—数仓支持Hive,Clickhosue,数据接入集成Seatunnel,数据质量新增质量报告

引言

大家好,数睿通 2.0 数据中台迎来了 8 月份的更新,本次更新内容主要包括以下几点:

  • 数据质量新增质量报告,pdf导出
  • 添加 hive,clickhouse 数仓支持
  • 数据接入集成 seatunnel
  • 修复数据服务多节点上线 api 不同步问题
  • 修复数据生产flink1.16任务提交报错问题
  • 安装包支持打包 jar
  • 部分细节优化

数据质量新增质量报告,pdf导出

本次更新,数据质量模块新增了质量报告的查看和导出功能,该部分代码主要由星友 shup 提供,在此表示由衷的感谢,该功能对数据质量的任务做了较为全面的统计展示,并且可以进行 pdf 导出操作,让数据质量模块的功能变得更加完善。

hive,clickhouse 数仓支持

新版添加了对 hive 和 clickhouse 的数据仓库支持,可以指定 hive 或 clickhouse 为中台的数据仓库,进行数据处理,同步等操作。

数据接入集成 seatunnel

新版数据接入模块集成了 seatunnel 同步组件,对 seatunnel 的 rest-api 进行了封装,可以通过前台界面提交 seatunnel 的数据同步任务,目前是通过手动编写 seatunnel 的 json 配置文件来实现任务的提交,后续会对此处进行优化,通过可视化拖拉拽的方式提交任务。

bug修复,细节优化

新版对数据服务多节点上线 api 不同步,数据生产flink1.16任务提交报错等问题进行了修复,同时对系统的部分细节进行了优化处理,在此不再一一赘述。

安装包支持打包 jar

之前老版本打包后是 tar,gz 安装包,新版添加了对 jar 文件的打包支持,profiles 勾选 all-os,tar.gz 可以打包成 tar.gz 的程序安装包启动,勾选 jar 则可以打包成 jar,通过 java -jar 的方式启动,增强不同系统的启动兼容性。

结语

本次更新就到此为止了,更新内容还是不少的,其中对 hive 和 clickhouse 的数仓支持对应的代码较多,但本质则是增加对应的适配器,扩展起来还是比较方便的,但是涉及到的细节点很多,需要不断调试;seatunnel 集成则是调用 seatunnel 开放的 api 接口,来实现任务的提交,任务信息查看等,其中 seatunnel 配置文件的编写需要借助官方文档,找到对应的 source 和 sink 的具体写法,才能得出自己想要的 json 配置,官方的实践文档较少,使用起来还是有一定门槛,需要自己不断摸索才可以。后续会推出类似 kettle 的拖拉拽方式来实现任务的构建,同时也会引出任务链模式,方便不同类型的任务组合在一起执行,可视化也已经提上日程,大家耐心等待后续更新即可。

目前源码,部署指南,讲解视频等相关资料是付费加入知识星球获取的,价格相比其他同系列的产品连个零头都不到,还是很良心的,星球内可以获取到数睿通 2.0 的最新源码资料等,功能发布之后也会第一时间分享。

感兴趣的朋友请关注公众号 螺旋编程极客 加入星球,我们一起成长,一起进步。

订阅评论
提醒
1 评论
最新
最旧 最多投票
内联反馈
查看所有评论
Matt Hudson
1 月 前

Great article! I really appreciate the clear and detailed insights you've provided on this topic. It's always refreshing to read content that breaks things down so well, making it easy for readers to grasp even complex ideas. I also found the practical tips you've shared to be very helpful. Looking forward to more informative posts like this! Keep up the good work!

1
0
希望看到您的想法,请您发表评论x
()
x