应对大规模数据集群治理,联通大数据这么做


在2012年出版的书《大数据时代》中,Victor预测数据被纳入公司资产负债表只是时间问题。如今,随着新兴技术的整合与创新,大数据已经应用于我们生活的各个方面,数据资产的概念逐渐得到了国内外公司的强烈认可。

但是,数据和企业资产可以直接等同吗?实际情况是,未经历系统管理和规划治理的数据集群不仅难以为企业创造实际利益,而且还会带来混乱,降低计算能力和冗余。存储计算,资源浪费和其他问题使整个数据集群处于“亚健康”状态。

那么,清远原来有解决方案吗?联通大数据有限公司技术部负责人李大中分享了2019年大数据产业峰会 - 大数据前沿技术论坛。他以《联通大规模数据集群治理实践》为主题分享了运营商的数据资产。管理经验与对策。

以下是李大中演讲的总结:

联通大数据有限公司负责联通的大数据容量建设和外部服务运营功能。目前,该平台的存储容量为100 PB,Hadoop集群拥有6000多个节点,数据模型的数量已达到2000多个。作为数据治理过程中的运营商,它必须面对大数据量的实时处理要求,还必须从成本的角度考虑集群计算能力配置和安全合规性的要求。大数据是一个高成本的行业,集群计算能力是其中的重要组成部分。

借鉴行业治理的经验,结合公司业务特点和组织结构,总结出一套适合公司业务发展的数据资产管理系统,即“整合”的数据资产管理系统。n与推广+巡山+数据价值:基于“整合推广”项目的全生命周期数据管理系统。部门以“旅游山”项目构建的大型集群治理体系为基础,以“数据价值”项目为基础,实现外部数据价值管理,三大项目同步推进,形成数据治理+集群的整体协同效应。R治理+数据价值。

0×251d

在实际实施中,“旅游山”项目作为

入口点首先开始,效果最明显。在大规模集群计算环境的亚健康状态下,我们将治理工作分为两个阶段:第一个阶段是解决亚健康问题,即确保集群资源的可用性、集群的稳定性和业务的连续性;第二个阶段是更长期和更重要的。NT的任务是保持一个健康的状态,即持续有效地监视数据。治理工程的效果。

对于大规模数据集群治理的推进方式,采用自顶向下的顶层设计是不现实的,因为集群治理涉及从采集、清洗到模型处理,从平台运维岗到产品开发岗,这些环节几乎涵盖了ERS的整个技术路线和数百人在生产线上的工作内容。我们采用自下而上、自发协作、前倾的数据集群治理文化。从发现问题点入手,找出原因,制定解决策略,建立相应的监督点,逐步形成制度。通过治理的主导作用产生一些环节,可以带动整个公司的生产组织体系逐步形成治理文化。

在治理过程中,鉴于我们遇到的几个重要问题,我想向您介绍一些想法。

1。HDF和纱线作业深度监控

针对文件过多,文件过大,资源消耗过大的情况,联通大数据通过自行开发统一的元数据实时采集平台,重新序列化Fsimage和EditLog,实现资源队列信息和文件目录。时间。工作任务信息和其他内容,通过多维关联图像洞察到可疑的异常工作,促进工作优化和监控优化效果。群集文件的数量最终从近8000万减少到3000万,平均文件大小增加了4倍。群集资源负载几乎从每天充满,并减少到不到70%。每年可节省固定资产投资数千万元。

2. RPC请求和关键服务警报

对于群集RPC,请求延迟通常太大,甚至达到第二级,导致群集处于锁定不可用的状态。通过收集JMX指标,服务连接,堆栈信息,GC等,钻取相关图像,并钻取相关操作。准确定位要优化的作业。优化后,群集RPC请求延迟大大减少,并且降低到毫秒级别。

3.重复处理/冗余计算挖掘

对于数据的重复处理,冗余计算等,估计系统中存在大多数系统,这直接导致资源的浪费。我们通过HDFS JOB BINARY

FILE分析,找到可疑的冗余计算作业。这种方法与组织结构的复杂性无关,也不依赖于上层业务输入。核心思想是通过提取具有相同输入路径的作业,从目录维度的角度提取可疑的重复作业。群集资源减少10%以上。

4.重构元数据管理和血缘关系分析应用程序

对于数据处理流程的可追溯性,敏感数据难以有效跟踪等,通过对HIVE执行日志的SOL分析,以及通过SPARK作业的输入和输出目录肖像,构建企业级全局元数据平台以非侵入方式提供全局物理视图,业务视图,元数据更改跟踪监控和全局数据亲属关系图等核心功能可满足复杂的可追溯性要求和故障覆盖率评估。

谈到治理过程中的感受,李大中指出:“大规模数据集群治理不是单人,单个项目组可以完成,但需要调动到公司的生产和开发组织系统中。文化渗透的形式。自我赞助,由OKR代替KPI管理,在解决问题的过程中不断调整目标,建立持续优化治理体系。当然,技术人员应该接受和理解大数据开源技术并采用开创性思考。解决问题。“