数保软件服务热线
新闻中心

您当前的位置:主页 > 新闻中心 > 技术交流 > 技术交流

云群集 HADOOP 概念与布曙

打印 打印 来源 数保计算机 点击:
编辑:数保计算机 时间:2014-06-11 13:09

  • 在您的数据中心内部署 Hadoop
大数据分析是一项基于技术的战略,而不仅限于硬件和软件。然而,作为 IT 经理,在数据中心内实施大数据计划的责任将
需要由您来负责。Hadoop 部署有着广泛的基础设施要求,同时在设计时选择的硬件和软件将会对性能和总体拥有成本产
生重要影响。数据中心可通过确保建立正确的基础设施,并优化和调试 Hadoop 软件以实现最佳性能,来充分利用其 Hadoop
部署。
  • 建立绝佳基础设施
Hadoop 框架在距离数据驻留的地方最近的位置进行计算,通常运行于采用标准硬件构建的大型服务器集群之上。同时数据
也在这些集群上进行存储和处理。Hadoop 基础设施和标准服务器平台的组合为经济高效的高性能分析平台提供了重要基
础,以支持并行应用。
  • 建立 Hadoop 系统架构
每一个集群都包含一个具有多个从属节点的“主节点”。主节点使用 NameNode 和 JobTracker 功能,并负责协调从属节
点来确保完成任务。从属节点使用 TaskTracker 功能来管理通过 JobTracker 安排的任务,另外还使用 HDFS 来存储数据,以
及使用 Map 和 Reduce 功能进行数据计算。基本软件堆栈包括面向语言和编译器的 Hive 与 Pig*、面向 NoSQL 数据库管理的
HBase、以及面向日志收集的 Apache Sqoop 和 Apache Flume*。Apache ZooKeeper* 为堆栈提供了中央协调功能。


  • 大数据分析成本
《InformationWeek》最近的调查分析了有关大数据经济性的问题,并发现预算限制和其它成本相关问题是 IT 经理面临的
最大难题。构建您自己的 Apache Hadoop* 部署项目,以及投资购买存储和开发资源或实施专有厂商解决方案会花费大量
的成本。虽然云提供了部分解决方案,但公有云提供商的定价模式可能无法满足全部需求。随着存储和计算成本的持续
下降,部署和管理您自己的 Hadoop 集群可能会提供比公共云和厂商系统更佳的经济性。虽然部署自己的集群可能需要雇
佣一名技能娴熟的人员来管理硬件,但相比之下其经济性仍然要更为出色。

  • 运行服务器集群
客户端提交任务到主站点,并由后者协调集群上的从属节点。JobTracker 控制 MapReduce 任务,向 TaskTracker 报告。发生故
障时,JobTracker 在相同或不同的从属节点中选择最高效的节点, 重新安排任务。HDFS 能够识别位置或机架,负责管理集
群内的数据,并在不同节点上复制数据,以确保数据可靠性。如果 HDFS 上的一个数据副本发生损坏,知晓其它副本所存
储位置的 JobTracker 会重新在副本所驻留的位置上重新安排任务,从而无需在节点间移动数据。此举可以节省带宽,保持卓
越的性能和可用性。当任务完成映射后,系统将对其输出结果进行排序并分成几个组,然后分发给 Reducer。Reducer 可能与
Mapper 位于相同的节点上,也可能位于不同的节点上。

主节点协调任务,并安排在从属节点上处理。




Copyright © 2015-2022 长沙数保信息科技有限公司 ┇ 湘ICP备08103633号 湘公网安备 43011102000746号

地址:长沙市岳麓区润花园D1-903 公司邮箱:dpisi@163.com
7*24小时技术支持服务热线:0731-85057097/13607439515 QQ: 400528 或 156462627

湘公网安备 43011102000746号