数据产品经理必修课(66):大数据研发之采集技术(大数据分析产品经理,关键词优化)

时间:2024-05-10 03:36:38 作者 : 石家庄SEO 分类 : 关键词优化
  • TAG :

    %E6%95%B0%E6%8D%AE%E4%BA%A7%E5%93%81%E7%BB%8F%E7%90%86%E5%BF%85%E4%BF%AE%E8%AF%BE%EF%BC%8866%EF%BC%89%EF%BC%9A%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%A0%94%E5%8F%91%E4%B9%8B%E9%87%87%E9%9B%86%E6%8A%80%E6%9C%AF

既然产品、研发与运营是互联网的三板斧,那么就不得不说说大数据时代的研发。我一直在困惑,究竟应该如何向广大的产品经理同学们讲清楚什么是大数据的研发。说详细了,必然使其困惑,而且我也不一定都能够明了其中的细节;说的粗略了,产品经理同学又会觉得不痛不痒,毫无感觉与世纪效果。再加上,本身打数据的研发就包罗万象,即便是单独成书则废寝忘食不能成也。除此之外,大数据门派众多,云计算、虚拟化、微服务都算是与大数据紧密相关的,那到底什么该讲什么不该讲呢?

我制定了大致这样的规则,我们想和各位产品经理同学讲一讲大数据的代表性工作,Hadoop平台以及围绕该平台大致需要做的一些事情,我们并不会具体到一种语言,也不会具体到某种技术,而是从宏观的视角,把产品经理在数据上扎的根生出的藤蔓深向原本只有工程师们才能够触及的墙角与远方,并在每一处需要精心雕琢与深究的地方稍加缠绕,略微展开谈一谈这些宏观过程其中的内部机理。还记得我们在第二部分介绍数据挖掘相关技能的时候,我们使用了CRISP-DM的流程来介绍数据挖掘与数据分析的标准化步骤。如果那个时候的介绍看成是逻辑层面的流程的话,我们这里想要沿着物理层面的主线来向数据产品经理同学们展现什么是打数据的研发。具体来说,我们会按照数据采集、数据存储、数据计算以及数据分析这样四个步骤去介绍这些过程在工程师的手中,在他们心爱的服务器上都发生了什么。

让我们还是先来看看数据采集吧。

现如今,相信很多人手上的手机已经变成了全屏幕的触屏手机,而如果时光回到十年前,你拿起那个屏幕尺寸更小,手机功能更少的键盘机的话,不知会作何感想。那个时候的手机对于我们来说,只有三个意义:电话、短信、小游戏。如果你的手机可以播放视频,那一定是诺基亚与摩托罗拉的高端机型了。在那个时候,我们通过移动电话设备产生的数据无非也就是通话与短信数据,这些数据存储在三大运营商,他们知道我们在什么时间给谁发短信或者打电话,如果他们乐意,甚至还可以知道我们发了什么,说了什么。那个时候的数据采集量小到可怜,而且大多数还握在运营商手中。

随着屏幕尺寸的扩大,安卓与iOS的入局,整个手机生态被打破,人们还是习惯于看大屏幕的收集,习惯使用一根手指去戳屏幕,习惯于在自己的电子设备上装上各色花花绿绿的应用,以至于在各种公共场合人们低头猛戳手机,甚至还收获了一个专有的名词叫做“低头族”。这个时候,出现了微信、微博,人们开始习惯使用微信给好友递送消息,而不再使用短信。这样的现象也改造着运营商的业务,以前每个月最需要在意的是套餐中包含多少条短信,而现如今则是每个月的套餐中的流量有多少。尽管运营商还是掌握着我们海量的数据,但是能够收集数据的人再也不止那三家运营商了。手机的生产者需要为手机在出厂的时候生产操作系统,因而他们成为了天然的数据收集方,原则上他们可以了解到你在手机里做的一切,就好比在一个封闭的屋子里装上了一个闭路电视,这个屋子就是该厂商生产的手机,你可以不进去,但是一旦你进去,所有的行为将被监控与知晓,至于这个闭路电视的监控视频内容何时被何人查看则取决于布下该系统的人的意愿罢了。除了这个房屋的建造者,还有很多的家居提供商也具备监控行为的能力,这些家居的提供商就是手机里花红叶绿的各色APP,原则上,只要你使用这样的家居产品,你在使用该产品的行为就会被记录,如果这样的家居公司与房屋的建造公司关系不错,除了能够收集自家家居产品的使用数据之外,还能顺便了解到但凡有本家公司家居产品的屋子里都还有哪些家居产品,甚至连用户是如何使用其他家居产品都是知道的。这样,数据进一步被积累,除了以前的运营商(地皮所有者)之外,手机操作系统厂商(房屋建造者)与手机内应用开发者(家居厂商)都是数据的拥有者。

原本数据只是一口池塘,池塘中仅有的几条大鱼已经翻不过来身了,而现如今风云突变,池塘变成了湖泊,不仅这几条大鱼能够鱼翔浅底,而且随着湖泊生态的演变,鱼群变得越来越密集,每条鱼都可以自由的吮吸着湖泊中的融氧,变强,变大。就在此时此刻,湖泊的平面再一次的上升,而鱼群们则更加跃跃欲试,这个湖就是我们现在知道的大数据。

抒情了这么久,只说了数据采集的一半,即可以采集哪些数据。当然,上面是以采集收集的数据为例来进行的说明的,而传统的网页也无非大同小异。可是这些数据究竟是怎么被厂商们采集回去的呢?也就是说到底采集的方法有哪些呢?

我们大致可以将数据的采集分为两类,一类谓之传送带式,一类谓之土方车式。且听我细细为你道来。

对于传送带方式的数据采集来说,实际上实在采集的前沿阵地和数据存储的大后方建立了一个传送带,一旦有星星点点的数据被采集回来就会被立即送上传送带,经过一段距离的传输就会被递送到存储的地方存储起来或者是被计算。就好像是在很多煤矿或者石料企业的现场看到一条长长的传送带,前方的挖煤机或者是采石机但凡能够搅下半点原料,这些原料就会被立刻送上传送带,送到后方。尽管在实际的场景中,这些传送带的后方有可能也是一些仓库,但不妨把这些仓库看成是在数据采集档口上的第一道存储服务器罢了。在这样的情况下,运送土方或者数据的通道是一直建立的,存储土方和数据的仓库也是时时刻刻在接受的,只要采集数据的过程不停止,那么运行这个传送带的机器与看守仓库的人就不可以停止与下班,因而在这样的实时数据采集过程中,人的注意力不可以离开,需要一直专注于整个流程,我们称他们是长连接,就好比是人的思想之弦一直紧绷,一刻不松懈的关注者另一端很长时间。与这样方式类似的数据处理形式称之为数据流处理,而打电话就是一种典型的数据流处理形式,在整个打电话的过程中,听话人需要一直关注对方在说什么,甚至需要通过听辨声音来判断通话是否还存在于线上或是已经挂断。

对于土方车式的数据采集来说,往往是挖掘机把挖掘到的土(数据)放到土方车上,但是这些土方车不会因为有了一抔土就立刻送走离开,而是等车装满后再听从现场指挥的命令按照次序离开并送到指定的地点,这样的方式因为是需要将数据积累到一定的量,因而是一种相较前一种数据采集的方式更加随意的方式,它的随意就体现在数据并不要求实时,而是一段时间发送一次。于是乎,在挖掘机工作的时候,土方车的驾驶员(传送人)与仓库的保管员(存储人)可以稍加休息或是处理其他事情。这种数据采集的模式称之为短链接,顾名思义,人们的神经并不需要死死地盯住一个事情,而是仅仅需要在需要处理的时候响应它,在处理完了之后转而去做别的事情或者处理别人的请求即可。目前大多数的APP内的数据采集使用的就是这样的短链接模式,先将数据积累在本地,然后再一段时间把这些数据递送一次。除此之外,当你访问网页的时候,也是这样的短链接模式,你送给服务器一个URL,告诉他你想要这个网址的内容,服务器找到之后发送给你,但是它并不关心你是否能够收到,只要它一旦发出就去处理别的事情了,除非你再次请求他,否则它也不会再来理你。

这就是你所应该知道的数据采集过程。

本文:数据产品经理必修课(66):大数据研发之采集技术的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:创业创新企业常用的税收优惠政策简介下一篇:

10 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18