IPFS:为什么要用IPFS存储大量数据?(大量数据分析,关键词优化)

时间:2024-04-30 00:58:04 作者 : 石家庄SEO 分类 : 关键词优化
  • TAG :

    IPFS%EF%BC%9A%E4%B8%BA%E4%BB%80%E4%B9%88%E8%A6%81%E7%94%A8IPFS%E5%AD%98%E5%82%A8%E5%A4%A7%E9%87%8F%E6%95%B0%E6%8D%AE%EF%BC%9F

为什么要用IPFS存储大量数据?IPFS最吸引人的特点是什么?哪些地方是大家担心的?在IPFS的官方论坛 discuss.ipfs.io,团队针对人们为什么使用或不使用IPFS来存储大量数据的原因做了一个调查。我们整理和翻译了其中一些爱好者或关注者的回答,大家也可以在评论区留言自己的想法。

flyingzumwalt(Matt Zumwalt):

针对有大量数据(几十TB至几十PB)需要存储在IPFS上的用户,我们正在做一轮采访,以便了解他们的诉求。对于这些有大量数据处理需求的用户来说,IPFS吸引他们的关键因素以及他们的忧虑是什么?我们有一些初步猜测想在采访中验证,也想听听大家的想法,看有没有其他因素我们没有考虑到的。

以下是我认为IPFS会吸引人们使用的几个特点:

内容寻址(Content Addressing)

在不损害数据完整性的情况下,移动、复制和重新提供数据的能力

无需复制(或引用)整个数据集,可以子选择其中一部分的能力

为版本控制提供基础(内容寻址的),但又独立于版本控制元数据结构

支持高效的动态聚合和来自多个位置的数据分析

下面几点是我认为人们在评估IPFS时会考虑的因素:

可靠性(Reliability)

可扩展性(Scalability)

安全性(Security)

性能(Performance)

大家有什么要补充的吗?

tkklein(Tomk):

机构会有某种存储虚拟化技术,他们会想要把IPFS接入进去。他们还会有内容和数据管理系统(Hadoop之外),理论上不需要了解IPFS,但是可能还需要进一步确定。举个例子,我在研究视频数据(特别是所有随身摄像头/仪表盘生成的相机数据)。这些数据没有办法保存太久,因为存储成本太高。如果不能使用一种现有的接口,政府不会额外雇人来使用IPFS。

eocarragain(Eoghan o Carragain)

我想补充两点:

成熟和稳定性

应用度和整合度(比如整合到浏览器和操作系统)

jeiros(Juan Eiros):

我最近才知道和开始了解IPFS,在我看来,IPFS对计算机科学的再现性(reproducibility)可能有着非常积极的作用。

在我的特定研究团体,大量(多达10TB)二进制文件通过非常耗时的模拟产生。因此恰当地保存这些文件非常重要(一旦丢失文件,意味着得重新模拟,耗时长达几个月)。把文件分享给同事也很重要,不幸的是,在实际操作中这很难实现。比如说,我在欧洲工作,就无法下载存储在斯坦福数据库几TB的模拟数据集,要花很长的时间才能办到。

就我目前了解到的IPFS相关信息来说,我觉得重点是能通过联系到网络中离你最近的人,从而提高文件分享速度,而不再是基于一个中央储存库。但同时我也了解到这样就不能再复制了,网络中的每个节点只存储它“感兴趣”的内容。那么,在我上面提到的例子中,IPFS如何决定由谁来存储这些大量数据集?复制这些数据是不是很烧钱?如果是的话,就会回到我现在面临的情况:在全球范围内下载一个巨大的数据集是办不到的。

looccm(Matt McCool):

大多数公司把大型工作负载存储在 EMC Isilon 或 Netapp,你上面提到的关于使用IPFS时会考虑的4点因素,这两者都有局限性。我的工作是存储销售这块,几乎所有的顾客都想把大量的工作档案存储在 AMS (亚马逊旗下云计算服务平台)或 Azure(微软云计算服务平台) – 这总是比较容易实现。因此,档案存储用例会是一个有趣的切入点,尤其是在数据生成量达到PB级的行业,比如媒体或研究领域。

kehao95(kehao):

我在一家网络用户行为研究公司工作,类似于谷歌分析(Google Analysis)。跟踪代码每天产生几TB的数据,我们把数据存储在 AWS S3,设置有效期限,把总量控制在几百TB内。我们正在寻求减少数据重复的方法,以节约成本。每天有数百万个时域(session),一旦配置js-ipfs后,意味着整个网络上会有数百万个ipfs节点(短期的,几秒到几十分钟)。我相信这能释放IPFS的最大潜力。

当用户访问一个站点时,我们监看和记录网页产生的所有DOM更改,保存 session,便于之后用于分析。目前我们需要这些东西:

版本控制(version control)或IPFS白皮书6.3中提到的树对象(The Tree Object)。现在我们用的是一种差异算法来计算DOM更改,把原始数据和差异都存入文档。如果IPFS的树对象能实现,我们就能减少很多重复内容,节约大量空间。

可靠的push (或上传) 方法。我用 PubSub(发布/订阅模式)演示过,似乎还无法保证内容接收。因为标签可能随时关闭,我们需要在微秒之内将数据push到后台。

flyingzumwalt(Matt Zumwalt):

我的理解是,它允许我们在一个地点随机且可根据需求更改的广义系统中,可以把一切事物都看做节点、服务和工作者 -- 比如,它可以让你模糊服务端和客户端之间的区别。取代了强制将服务端和客户端进行二分的方式,让你可以在一台接近数据的设备或一台距离很远的设备上进行分析,或者将数据复制到一个新的地点进行分析。某种程度上这样简化了你的代码基,因为你可以少编写一些能让客户端应用、工作者重复利用的库和服务,无论他们身在何处。

本文:IPFS:为什么要用IPFS存储大量数据?的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:“外发手工活”宣称“日赚300-500元”,实则诈骗材料费和押金下一篇:

8 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18