系统高可用专项

背景

主要的原因是现在集群不够稳定，尤其当有大任务运行、集群间发生数据同步或数据平衡时，经常单机的网络IO会打满，导致一些服务间的心跳超时或连接超时，影响服务的稳定。

前期部署节点不足，角色复用混布太多，现在集群部署不够合理，需要优化。

Hdfs和Yarn的资源限制无法限制IO和CPU，混合部署导致大任务占用过多资源，影响其他服务的可靠性。比如当IO占用较高时导致Kafka写入失败，读取超时等。最好DataNode/Nodemanager单独部署，不要和其他角色混布（impala、hbase强等依赖HDFS的除外）

zookeeper复用，有可能导致zookeeper不稳定。比如，随着kafka的topic增多，zookeeper需要的内存增多，更容易触发full GC，可能导致集群震荡。集群高可用使用的zookeeper应该拆分出来，不要与kafka复用，保证集群稳定

49-55节点使用的机器是单网卡，用来做namenode等角色不太合适，应该迁移角色，让这几台回归datanode

由于FHT的服务对kafka要求比较高，需要为FHT单独部署一套Kafka

第一阶段：kafka独立部署，预计11-04完成（本周可以先部署FHT专用kafka，下周迁移kafka）

第二阶段：zookeeper拆分、迁移，预计11-11完成(需要nameNode停机)

第三阶段：NameNode迁移（以下需要依赖FHT服务的K8s化，时间暂不能确定）

第四阶段：ResourceManager及hive等迁移

第五阶段：ClouderaManager迁移