数睿通2.0更新—数仓支持Hive,Clickhosue,数据接入集成Seatunnel,数据质量新增质量报告

引言

大家好,数睿通 2.0 数据中台迎来了 8 月份的更新,本次更新内容主要包括以下几点:

  • 数据质量新增质量报告,pdf导出
  • 添加 hive,clickhouse 数仓支持
  • 数据接入集成 seatunnel
  • 修复数据服务多节点上线 api 不同步问题
  • 修复数据生产flink1.16任务提交报错问题
  • 安装包支持打包 jar
  • 部分细节优化

数据质量新增质量报告,pdf导出

本次更新,数据质量模块新增了质量报告的查看和导出功能,该部分代码主要由星友 shup 提供,在此表示由衷的感谢,该功能对数据质量的任务做了较为全面的统计展示,并且可以进行 pdf 导出操作,让数据质量模块的功能变得更加完善。

hive,clickhouse 数仓支持

新版添加了对 hive 和 clickhouse 的数据仓库支持,可以指定 hive 或 clickhouse 为中台的数据仓库,进行数据处理,同步等操作。

数据接入集成 seatunnel

新版数据接入模块集成了 seatunnel 同步组件,对 seatunnel 的 rest-api 进行了封装,可以通过前台界面提交 seatunnel 的数据同步任务,目前是通过手动编写 seatunnel 的 json 配置文件来实现任务的提交,后续会对此处进行优化,通过可视化拖拉拽的方式提交任务。

bug修复,细节优化

新版对数据服务多节点上线 api 不同步,数据生产flink1.16任务提交报错等问题进行了修复,同时对系统的部分细节进行了优化处理,在此不再一一赘述。

安装包支持打包 jar

之前老版本打包后是 tar,gz 安装包,新版添加了对 jar 文件的打包支持,profiles 勾选 all-os,tar.gz 可以打包成 tar.gz 的程序安装包启动,勾选 jar 则可以打包成 jar,通过 java -jar 的方式启动,增强不同系统的启动兼容性。

结语

本次更新就到此为止了,更新内容还是不少的,其中对 hive 和 clickhouse 的数仓支持对应的代码较多,但本质则是增加对应的适配器,扩展起来还是比较方便的,但是涉及到的细节点很多,需要不断调试;seatunnel 集成则是调用 seatunnel 开放的 api 接口,来实现任务的提交,任务信息查看等,其中 seatunnel 配置文件的编写需要借助官方文档,找到对应的 source 和 sink 的具体写法,才能得出自己想要的 json 配置,官方的实践文档较少,使用起来还是有一定门槛,需要自己不断摸索才可以。后续会推出类似 kettle 的拖拉拽方式来实现任务的构建,同时也会引出任务链模式,方便不同类型的任务组合在一起执行,可视化也已经提上日程,大家耐心等待后续更新即可。

目前源码,部署指南,讲解视频等相关资料是付费加入知识星球获取的,价格相比其他同系列的产品连个零头都不到,还是很良心的,星球内可以获取到数睿通 2.0 的最新源码资料等,功能发布之后也会第一时间分享。

感兴趣的朋友请关注公众号 螺旋编程极客 加入星球,我们一起成长,一起进步。

订阅评论
提醒
0 评论
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x
()
x