大数据、Hadoop和云计算(云计算与大数据,关键词优化)

时间:2024-05-01 18:35:50 作者 : 石家庄SEO 分类 : 关键词优化
  • TAG :

    %E5%A4%A7%E6%95%B0%E6%8D%AE%E3%80%81Hadoop%E5%92%8C%E4%BA%91%E8%AE%A1%E7%AE%97

先介绍与大数据相关 的内容,然后讲解Hadoop、大数据以及云计算之间的关系,使读者从大数据和云计算的角 度来认识Hadoop.

大数据

大数据一般是指这样的数据:数据量巨大,需要运用新处理模式才能具有更强的决策力、 洞察力和流程优化能力的海量、髙增长率和多样化的信息资产。大数据可分成大数据技术、 大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据 应用,大数据工程和大数据科学尚未被重视。大数据工程指大数据的规划建设及其运营管理 的系统工程;大数据科学关注的是大数据网络发展和运营过程中发现和验证大数据的规律及 其与自然和社会活动之间的关系。

大数据的特征有四个层面:第一,数据量巨大,从TB级别,跃升到PB级别;第二, 数据类型繁多,包括网络日志、视频、图片、地理位置信息等;第三,价值密度低,商业 价值高,以视频为例,在连续不间断的监控过程中,可能有用的数据仅仅只有一两秒;第 四,处理速度快。最后这一点也和传统的数据挖掘技术有着本质的不同。业界将其归纳为 4V-------Volume、Variety、Value 和 Velocity。

上面我们介绍了大数据的基本概念以及其显著的特征,下面将从不同的维度来阐述大数据的核心问题。

1.数据态的多样性问题

大数据具有多态性,主要体现在数据源、结构及相关度上,在数据来源上包括图像、 视频、音频、文本、网页、数据流等;在结构上不仅仅包括结构化的数据,还包括非结构 化 的 数 据 ; 在 相 关 度 上 不 仅 有 数 据 记 录 彼 此 间 相 关 性 问 题 , 还 有 时 间 序 列 数 据 的 相 关 性 问题。

2. 维度复杂性问题

首先,大数据中存在着多元空间的维度问题,例如典型的三元空间中大数据的产生、状 态感应以及采集问题,这个问题在物联网中非常常见;其次,就是柔性粒度数据的传输、移 动、存储及计算问题;最后,就是数据空间范围和数据密度的不均匀问题。

3. 大数据存储问题

大数据最为显著的特征就是数据规模非常巨大,单机系统肯定无法解决存储问题,这就 需要分布式存储系统作为大数据的存储支撑服务,而分布式存储系统需要考虑的核心问题包 括:高可靠性、扩展性、伸缩性、容灾及恢复等问题。

4. 大数据计算分析问题

由大数据的特征可知,大数据在数据规模上非常巨大,要在一定的时间内达到撷取、管 理、处理并整理为能够帮助企业做出经营决策更有效的资讯,传统的顺序计算模式必然不能 满足这样的需求,这就要求使用集群计算系统来完成计算分析任务。基于集群的计算模型目 前主要包括:基于消息传递的MPI、MapReduce计算模型、流式计算架构Storm、S4、高性 能集群计算HPCC,以及基于共享内存RDD的Spark模型。

5. 大数据价值挖掘问题

由于大数据的价值密度低而商业价值大,这使得大数据的价值挖掘显得格外重要,而 价值挖掘主要包括两个阶段:第一个阶段就是过滤清洗,需要在尽量不损失其价值的条件下 减小数据规模,同时在不改变数据基本属性的情况下采取数据清洗、抽样、去重、过滤、筛 选、压缩、索引、提取元数据等方法,以直接将大数据变小;第二个阶段就是对商业价值的 挖掘,主要是发挥大数据探索式考察与可视化作用,人机的交互分析可以将人的智慧融入数 据,再者是通过群体智慧、社会计算、认知计算对数据价值进行提炼,从而挖掘出大数据中 隐藏的商业价值。

大数据、Hadoop和云计算的关系

上面讲述了大数据的基本概念及与大数据相关的几个核心问题,通过这些问 题我们已对大数据有了一个初步的了解,那么大数据、Hadoop及云计算之间到底是什么关系 呢?为了从大数据和云计算的角度去了解Hadoop,下面将阐述这三个概念之间的关系。

可以这样说,正是由于大数据对系统提出了很多极限的要求,不论是存储、传输还是计 算,现有计算技术难以满足大数据的需求,因此整个IT架构的革命性重构势在必行,存储 能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。分 布式存储架构不仅需要scale up式的可扩展性,也需要scale out式的可扩展性,因此大数据 处理离不开云计算技术,云计算可为大数据提供弹性可扩展的基础设施支撑环境以及数据服 务的高效模式,大数据则为云计算提供了新的商业价值,大数据技术与云计算技术必将有更 完美的结合。

我 们 知 道 云 计 算 的 关 键 技 术 包 括 分 布 式 并 行 计 算 、 分 布 式 存 储 以 及 分 布 式 数 据 管 理 技术,而Hadoop就是一个实现了 Google云计算系统的开源平台,包括并行计算模型 MapReduce、分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目 也很丰富,包括ZooKeeper、Pig、Chukwa、Hive、Hbase、Mahout等,这些项目都使得 Hadoop成为一个很大很完备的生态链系统。目前使用Hadoop技术实现的云计算平台包括 IBM的蓝云,雅虎、英特尔的“云计划”,百度的云计算基础架构,阿里巴巴云计算平台, 以及中国移动的BigCloud大云平台。

总而言之,用一句话概括就是云计算因大数据问题而生,大数据驱动了云计算的发展, 而Hadoop在大数据和云计算之间建起了一座坚实可靠的桥梁。

本文:大数据、Hadoop和云计算的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:公司为什么要财务审计下一篇:

4 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18