大数据知识:了解大数据基础Hadoop

发布时间：2020年10月23日 06:17:55 来源：环球青藤点击量：849

【摘要】Hadoop是一个分布式系统基础架构，现在被广泛地应用于大数据平台的开发，对处理海量数据有着其他技术无可匹敌的优势。HDFS（Hadoop Distributed File System）、MapReduce与HBase被誉为分布式计算的三驾马车。

Google File System是文件存储系统，主要用来解决数据存储的问题，采用多台分布式机器，使用灾难冗余的方式，既做到了数据读写速度的提升，同时又能保证数据的安全。大数据技术首要的要求就是先把数据存下来，HDFS为了解决存储的问题，把大量的数据用成千上万台机器存储，而用户在前端看到的只是一个文件系统，而不是许多文件系统，这是一种对用户友好的处理方式。

在解决了数据存储的问题之后，如何更高效地处理数据呢?如果让一台机器处理TB级或者PB级的数据，那么可能会花费几天甚至几周的时间，而这对于很多公司的业务来说是不可接受的。

而MapReduce/Spark就是为了解决这个问题，它可以给并行处理任务的计算机分配的任务更加合理，并负责任务之间的通信，以及数据交换等工作。MapReduce/Spark提供一种可靠的、能够运行在集群上的计算模型。MapReduce会把所有的函数都分为两类，即Map和Reduce。Map会将数据分成很多份，然后分配给不同的机器处理;Reduce把计算的结果合并，得到最终的结果。

但是如果直接使用MapReduce的程序，会发现使用门槛比较高，Hive和Pig基于MapReduce的基础封装出一个更友好、更简单的方式，可以很容易地实现MapReduce程序。Pig以类似脚本的方式实现MapReduce，Hive以SQL的方式实现。Hive和Pig会把脚本或者SQL自动翻译成MapReduce程序，然后交给计算引擎执行计算。数据分析师由于经常使用SQL，所以Hive的使用门槛就变得更低，而且Hive的代码量比较少，一两行的SQL语句就可以解决很多问题，而如果使用MapReduce，可能需要上百行。所以，Hive得到越来越多的人青睐，并逐渐流行起来。

关于大数据知识:了解大数据基础Hadoop，青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣，希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容，可以点击本站的其他文章进行学习。

分享到：编辑：方梦茹

下一篇：Hadoop生态圈的核心组件有哪些?