大数据需要学习哪些(我要学大数据,关键词优化)

大数据需要学习哪些

导读：本文共1514.5字符，通常情况下阅读需要5分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要：讲一下hadoop的一些知识，对于初学者来说是个不错的参考，另外想要进入大数据圈子但是有困难有疑问的朋友，可以咨询魔据教育大数据。关于入门：如果看书看的一头雾水的话，先从实际例子出发会比较容易上手。WordCount和Weather Data这种“Hello World”的例子网上有很多，可以复制下来自己跑一遍，基本上就知道Hadoop是个什么东西，能用来干什么了。跑这些例子都不需要一个完整的Ha... ...

音频解说

关于入门：如果看书看的一头雾水的话，先从实际例子出发会比较容易上手。WordCount和Weather Data这种“Hello World”的例子网上有很多，可以复制下来自己跑一遍，基本上就知道Hadoop是个什么东西，能用来干什么了。跑这些例子都不需要一个完整的Hadoop集群，自己本地的VM上就可以完成。之所以认为这是比较好的方式，是因为Hadoop是一个工具，而不是一门学科。工具的一般用法是你有一个实际的问题需要解决（求和，求平均值之类的问题都可以，两三行数据，不需要“大数据”），然后把这个工具运用到你的问题里面，能够使用工具之后再开始研究怎么更好的更有效的使用这个工具。

关于进阶：知道是什么，能干什么之后，需要知道为什么。这很重要，这关系到你的任务是跑三个小时还是要跑三天，是需要三台服务器还是需要三十台服务器，就直接关系到最后要花三十还是花三百。进阶之前需要一点准备工作：Linux －（这对于所有Distributed System都非常重要），Java（能看得懂代码就可以了），Maven（能用就可以），Scala（optional，可以边学边用），SBT（optional，可以照着tutorial用），进阶就需要看书，前面有很多位同学推荐了各种书各种博客，都应该不错。推荐两个Hadoop The Definitive Guide最新版，写的非常好。强烈建议看英文版的，否则容易交流障碍……这本书的例子都在github上可以下载下来，都跑一跑。 Cloudera的tutorial，user guide，blog和best practice。这个比较官方和实效性。

关于深入：关于怎么深入学习Hadoop技术， Hadoop分为两个大块：HDFS和MapReduce。 HDFS － Hadoop Distributed FileSystem。这个概念很好，但是其实我不觉得很实用。但是如果你之后要往Non SQL方面深入的话这个还是很重要，HDFS是HBASE的基础，Hbase又可以延伸到Big Table，DynamoDB，Mango等。

Spark要单独提出来讲一讲，Spark其实不是Hadoop上面的应用，它也可以使用除了YARN之外的其他资源分配系统。但是Spark使用的人很多，很多任务用Spark比用Hadoop MR要快一些，Spark也比其他的应用要复杂一点。如果有兴趣还是可以从Hadoop The Definitive Guide开始，然后边做实际的例子边学习。

关于Hadoop的使用方式：感觉现在各个公司使用Hadoop的方式都不一样，主要我觉得有两种吧。第一种是long running cluster形式，比如Yahoo，不要小看这个好像已经没什么存在感的公司，Yahoo可是Hadoop的元老之一。这种就是建立一个Data Center，然后有几个上千Node的Hadoop Cluster一直在运行。

本文：大数据需要学习哪些的详细内容，希望对您有所帮助，信息来源于网络。

大数据需要学习哪些(我要学大数据,关键词优化)

目录

6 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计