腾讯大规模Hadoop集群实践 PDF

本文转载自 pianzif 查看原文 2014/07/03 1236 腾讯/ oop/ pdf/ 分布式存储/ 集群/ 实践/ hadoop集群

摘要：TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面，介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。

TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

腾讯大规模Hadoop集群实践

TDW服务覆盖了腾讯绝大部分业务产品，单集群规模达到4400台，CPU总核数达到10万左右，存储容量达到100PB；每日作业数100多万，每日计算量4PB，作业并发数2000左右；实际存储数据量80PB，文件数和块数达到6亿多；存储利用率83%左右，CPU利用率85%左右。经过四年多的持续投入和建设，TDW已经成为腾讯最大的离线数据处理平台。

TDW的功能模块主要包括：Hive、MapReduce、HDFS、TDBank、Lhotse等，如图1所示。TDW Core主要包括存储引擎HDFS、计算引擎MapReduce、查询引擎Hive，分别提供底层的存储、计算、查询服务，并且根据公司业务产品的应用情况进行了很多深度订制。TDBank负责数据采集，旨在统一数据接入入口，提供多样的数据接入方式。Lhotse任务调度系统是整个数据仓库的总管，提供一站式任务调度与管理。

面临的挑战

TDW从单集群400台规模建设成单集群4000台规模，面临的最大挑战是Hadoop架构的单点问题：计算引擎单点JobTracker负载重，使得调度效率低、集群扩展性不好；存储引擎单点NameNode没有容灾，使得重启耗时长、不支持灰度变更、具有丢失数据的风险。TDW单点瓶颈导致平台的高可用性、高效性、高扩展性三方面都有所欠缺，将无法支撑4000台规模。为了解决单点瓶颈，TDW主要进行了JobTracker分散化和 NameNode高可用两方面的实施。

JobTracker分散化

1.单点JobTracker的瓶颈

TDW以前的计算引擎是传统的两层架构，单点JobTracker负责整个集群的资源管理、任务调度和任务管理，TaskTracker负责任务执行。JobTracker的三个功能模块耦合在一起，而且全部由一个Master节点负责执行，当集群并发任务数较少时，这种架构可以正常运行，但当集群并发任务数达到2000、节点数达到4000时，任务调度就会出现瓶颈，节点心跳处理迟缓，集群扩展也会遇到瓶颈。

2.JobTracker分散化方案

TDW借鉴YARN和Facebook版corona设计方案，进行了计算引擎的三层架构优化（如图2所示）：将资源管理、任务调度和任务管理三个功能模块解耦；JobTracker只负责任务管理功能，而且一个JobTracker只管理一个Job；将比较轻量的资源管理功能模块剥离出来交给新的称为ClusterManager的Master负责执行；任务调度也剥离出来，交给具有资源信息的ClusterManager负责执行；对性能要求较高的任务调度模块采用更加精细的调度方式。

面临的挑战

腾讯大规模Hadoop集群实践

腾讯大规模Hadoop集群实践 PDF 下载

免费下载地址在 http://linux.linuxidc.com/

用户名与密码都是www.linuxidc.com

具体下载目录在 /2014年资料/3月/14日/腾讯大规模Hadoop集群实践 PDF

下载方法见 http://www.linuxidc.com/Linux/2013-07/87684.htm

注意！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系我们删除。

腾讯大规模Hadoop集群实践腾讯大规模Hadoop集群实践大规模Hadoop集群在腾讯数据仓库TDW的实践 BAT 大规模Hadoop集群实践大规模Hadoop集群实践：腾讯分布式数据仓库（TDW）基于Docker一键部署大规模Hadoop集群及设计思路 ELK 性能(4) — 大规模 Elasticsearch 集群性能的最佳实践社区问答：基于Container的大规模集群管理系统实践你想要的百分点大规模Kubernetes集群的应用实践来了大规模下kubernetes集群的scheduler性能

腾讯大规模Hadoop集群实践 PDF

注意！

赞助商广告