IPFS：为什么要用IPFS存储大量数据？(大量数据分析,关键词优化)

IPFS：为什么要用IPFS存储大量数据？

导读：本文共2858.5字符，通常情况下阅读需要10分钟。同时您也可以点击右侧朗读，来听本文内容。按键盘←（左） →（右）方向键可以翻页。

摘要：为什么要用IPFS存储大量数据？IPFS最吸引人的特点是什么？哪些地方是大家担心的？在IPFS的官方论坛 discuss.ipfs.io，团队针对人们为什么使用或不使用IPFS来存储大量数据的原因做了一个调查。我们整理和翻译了其中一些爱好者或关注者的回答，大家也可以在评论区留言自己的想法。flyingzumwalt(Matt Zumwalt):针对有大量数据(几十TB至几十PB)需要存储在IPFS... ...

音频解说

为什么要用IPFS存储大量数据？IPFS最吸引人的特点是什么？哪些地方是大家担心的？在IPFS的官方论坛 discuss.ipfs.io，团队针对人们为什么使用或不使用IPFS来存储大量数据的原因做了一个调查。我们整理和翻译了其中一些爱好者或关注者的回答，大家也可以在评论区留言自己的想法。

flyingzumwalt(Matt Zumwalt):

针对有大量数据(几十TB至几十PB)需要存储在IPFS上的用户，我们正在做一轮采访，以便了解他们的诉求。对于这些有大量数据处理需求的用户来说，IPFS吸引他们的关键因素以及他们的忧虑是什么？我们有一些初步猜测想在采访中验证，也想听听大家的想法，看有没有其他因素我们没有考虑到的。

以下是我认为IPFS会吸引人们使用的几个特点：

内容寻址(Content Addressing)

在不损害数据完整性的情况下，移动、复制和重新提供数据的能力

无需复制(或引用)整个数据集，可以子选择其中一部分的能力

为版本控制提供基础(内容寻址的)，但又独立于版本控制元数据结构

支持高效的动态聚合和来自多个位置的数据分析

下面几点是我认为人们在评估IPFS时会考虑的因素：

可靠性(Reliability)

可扩展性(Scalability)

安全性(Security)

性能(Performance)

大家有什么要补充的吗？

tkklein(Tomk):

机构会有某种存储虚拟化技术，他们会想要把IPFS接入进去。他们还会有内容和数据管理系统(Hadoop之外)，理论上不需要了解IPFS，但是可能还需要进一步确定。举个例子，我在研究视频数据(特别是所有随身摄像头/仪表盘生成的相机数据)。这些数据没有办法保存太久，因为存储成本太高。如果不能使用一种现有的接口，政府不会额外雇人来使用IPFS。

eocarragain(Eoghan o Carragain)

我想补充两点：

成熟和稳定性

应用度和整合度(比如整合到浏览器和操作系统)

jeiros(Juan Eiros):

我最近才知道和开始了解IPFS，在我看来，IPFS对计算机科学的再现性(reproducibility)可能有着非常积极的作用。

在我的特定研究团体，大量(多达10TB)二进制文件通过非常耗时的模拟产生。因此恰当地保存这些文件非常重要(一旦丢失文件，意味着得重新模拟，耗时长达几个月)。把文件分享给同事也很重要，不幸的是，在实际操作中这很难实现。比如说，我在欧洲工作，就无法下载存储在斯坦福数据库几TB的模拟数据集，要花很长的时间才能办到。

就我目前了解到的IPFS相关信息来说，我觉得重点是能通过联系到网络中离你最近的人，从而提高文件分享速度，而不再是基于一个中央储存库。但同时我也了解到这样就不能再复制了，网络中的每个节点只存储它“感兴趣”的内容。那么，在我上面提到的例子中，IPFS如何决定由谁来存储这些大量数据集？复制这些数据是不是很烧钱？如果是的话，就会回到我现在面临的情况：在全球范围内下载一个巨大的数据集是办不到的。

looccm(Matt McCool):

大多数公司把大型工作负载存储在 EMC Isilon 或 Netapp，你上面提到的关于使用IPFS时会考虑的4点因素，这两者都有局限性。我的工作是存储销售这块，几乎所有的顾客都想把大量的工作档案存储在 AMS (亚马逊旗下云计算服务平台)或 Azure(微软云计算服务平台) – 这总是比较容易实现。因此，档案存储用例会是一个有趣的切入点，尤其是在数据生成量达到PB级的行业，比如媒体或研究领域。

kehao95(kehao):

我在一家网络用户行为研究公司工作，类似于谷歌分析(Google Analysis)。跟踪代码每天产生几TB的数据，我们把数据存储在 AWS S3，设置有效期限，把总量控制在几百TB内。我们正在寻求减少数据重复的方法，以节约成本。每天有数百万个时域(session)，一旦配置js-ipfs后，意味着整个网络上会有数百万个ipfs节点(短期的，几秒到几十分钟)。我相信这能释放IPFS的最大潜力。

当用户访问一个站点时，我们监看和记录网页产生的所有DOM更改，保存 session，便于之后用于分析。目前我们需要这些东西：

版本控制(version control)或IPFS白皮书6.3中提到的树对象(The Tree Object)。现在我们用的是一种差异算法来计算DOM更改，把原始数据和差异都存入文档。如果IPFS的树对象能实现，我们就能减少很多重复内容，节约大量空间。

可靠的push (或上传) 方法。我用 PubSub(发布/订阅模式)演示过，似乎还无法保证内容接收。因为标签可能随时关闭，我们需要在微秒之内将数据push到后台。

flyingzumwalt(Matt Zumwalt):

我的理解是，它允许我们在一个地点随机且可根据需求更改的广义系统中，可以把一切事物都看做节点、服务和工作者 -- 比如，它可以让你模糊服务端和客户端之间的区别。取代了强制将服务端和客户端进行二分的方式，让你可以在一台接近数据的设备或一台距离很远的设备上进行分析，或者将数据复制到一个新的地点进行分析。某种程度上这样简化了你的代码基，因为你可以少编写一些能让客户端应用、工作者重复利用的库和服务，无论他们身在何处。

本文：IPFS：为什么要用IPFS存储大量数据？的详细内容，希望对您有所帮助，信息来源于网络。

IPFS：为什么要用IPFS存储大量数据？(大量数据分析,关键词优化)

目录

8 人围观 / 0 条评论 ↓快速评论↓

搜索

最新文章

猜你喜欢

特价优惠

标签

流量统计