研发新软件令大数据分析速度快百倍(大数据分析新,关键词优化)

时间:2024-04-30 07:19:48 作者 : 石家庄SEO 分类 : 关键词优化
  • TAG :

    %E7%A0%94%E5%8F%91%E6%96%B0%E8%BD%AF%E4%BB%B6%E4%BB%A4%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E9%80%9F%E5%BA%A6%E5%BF%AB%E7%99%BE%E5%80%8D

人们生活在大数据时代,但大多数数据却是“稀疏”的。比如,想象一下,一张巨大的图表绘制出了亚马逊网站的所有顾客与所有产品之间的关系,如果用1来表示某个特定顾客购买的每件产品,用0来表示没有购买的产品。那么这张图表上的绝大部分是0。

对于稀疏数据,分析算法会做大量0的相加和相乘,而这种计算是无用的。为了避免这种情况,程序员会通过编写定制代码来避开0项,但这种代码十分复杂,通常只适用于少量问题。

与现有的非优化软件包相比,这种代码能将数据分析速度提高100倍。它的性能可与针对特定稀疏数据精心手动优化的代码相媲美,而程序员要做的工作却少得多。

该系统名为Taco,即“张量代数编译器”的英文缩写。在计算机学术语中,像之前所说的亚马逊网站图表那样的数据结构被称为“矩阵”,而“张量”就像是一种更多纬度的矩阵。

近年来,张量的数学运算——张量代数——对于大数据分析和机器学习都变得至关重要。自爱因斯坦时代以来,它也一直是科学研究的一个主题。

以往,在处理张量代数时,数学软件会先把张量运算分解成各个组成部分。例如,如果某个运算过程需先把两个张量相乘,然后再与第三个张量相加,那么软件会对前两个张量运行标准的张量乘法程序,保存结果,然后再运行标准的张量加法程序。

但在大数据时代,这么做却太耗费时间。研究论文第一作者、来自麻省理工学院的弗雷德里克·舍尔斯塔德解释说,要完成对大型数据集的高效运算,那么每一组张量运算都需要自己的“内核”,即计算模板。

计算机学研究人员此前已为机器学习和大数据分析中最常用的一些张量运算编写了内核。但可能用到的内核数量是无限的:例如,用于三个张量相加的内核与用于四个张量相加的内核是不同的。

许多张量运算需将某个张量中的一项与另一个张量中的一项相乘。如果其中一项是0,那么结果也会是0,而计算大型稀疏矩阵的程序会浪费大量时间来对0进行相加和相乘。

针对稀疏张量的人工优化代码能识别0项并精简涉及0项的运算。这能大大提高张量运算的速度,但需要程序员完成大量工作。

例如,针对两个矩阵相乘(矩阵是形式较简单的张量,像图表一样只有两个维度),如果是完全矩阵的话(即其中没有一个项能被省略),可能需要12行代码。但如果是稀疏矩阵的话,同样的运算可能需要100行甚至更多的代码以跟踪被省略的部分。

报道称,Taco系统能将多出来的所有代码自动合在一起。程序员只需指定一个张量的大小、是完全张量还是稀疏张量以及用于导入数值的文件位置即可。对于任何特定的两个张量的运算,Taco系统都能绘制出一张分级图,首先表明来自两个张量的哪些配对项是非0项,然后表明来自每个张量的哪些项是与0配对的。它会把所有的0项对剔除出去。

针对稀疏数据编写出优化代码的新系统Taco能将数据分析速度提高100倍。

关注佳源信息,关注更多资讯。

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至jy@jiayuaninfo,我们将及时沟通与处理。

本文:研发新软件令大数据分析速度快百倍的详细内容,希望对您有所帮助,信息来源于网络。
上一篇:大数据行业前景_大数据未来展望下一篇:

3 人围观 / 0 条评论 ↓快速评论↓

(必须)

(必须,保密)

阿狸1 阿狸2 阿狸3 阿狸4 阿狸5 阿狸6 阿狸7 阿狸8 阿狸9 阿狸10 阿狸11 阿狸12 阿狸13 阿狸14 阿狸15 阿狸16 阿狸17 阿狸18