基因治疗｜展望生命科学新纪元百奥利盟Bio-COI细胞与基因治疗数据一体化

时间：2023-09-28

　　Flink On K8s实战课程分享下载，视频+源码+文档+虚拟机+软件包下载！！

　　目前项目中用到Flink作为离线ETL处理构建相关的特征系统，而特征系统主要是为数据科学家、数据工程师、机器学习工程师去使用，用来去构建AI特征库，用来做模型的训练、用来做数据测试以及一些数据的预测及模型的在线服务，主要特征系统是从大数据Hbase、Hive以及关系型数据库去拉取相应的库表，存储到特征库表中，而本身K8S 云原生也是相关的趋势，为什么flink 要基于K8s做部署？

　　主要有以下几个优势：

　　容器环境容易部署、清理和重建：不像是虚拟环境以镜像进行分发部署起来对底层系统环境依赖小，所需要的包都很方便的集成到镜像中。

　　更好的隔离性与安全性，应用部署以pod启动，pod之间相互独立，资源环境隔离后更安全。

　　k8s集群能够利用好资源，机器学习、在线服务等许多任务都可以混合部署。

　　云原生的趋势，丰富的k8s生态。

　　编写K8s资源描述文件

　　从Flink on Kubernetes 的架构如上图所示，Flink 任务在 Kubernetes 上运行的步骤有：

　　（1）首先往 Kubernetes 集群提交了资源描述文件后，会启动 Master 和 Worker 的 container。

　　（2）Master Container 中会启动 Flink Master Process，包含 Flink-Container ResourceManager、JobManager 和 Program Runner。

　　（3）Worker Container 会启动 TaskManager，并向负责资源管理的 ResourceManager 进行注册，注册完成之后，由 JobManager 将具体的任务分给 Worker Container ，再由 Container 去执行。

　　（4）需要说明的是，Master Container 与Worker Container是用一个镜像启动的，只是启动参数不一样，如下图所示，两个deployment文件的镜像是同一个。

　　首先，它会向 K8s Master 申请创建 Flink ConfigMap，在 ConfigMap 中提供了 Flink 集群运行所需要的配置，如：flink-conf.yaml 和 log4j.properties；

　　其次，创建 Flink JobManager 的 service，通过 service 来打通 TaskManager 和 JobManager 之间的联通性；

　　然后，创建 Flink Jobmanager 的 Deployment，用来启动 JobMaster，包含的组件有 Dispatcher 和 Resource manager。

　　最后，创建 Flink TaskManager 的 Deployment，用来启动 TaskManager，因为 Flink 官方 taskmanager-deployment.yaml 示例中指定了 2 个副本，所以图中展示了 2 个 TM 节点