搜索和挖掘数以万亿计的时间序列
子序列在动态时间扭曲
文摘
大多数时间序列数据挖掘算法利用相似性搜索
核心子程序,因此相似性搜索所花费的时间
瓶颈的几乎所有时间序列数据挖掘算法。的
难以扩展搜索大型数据集很大程度上解释了为什么
大多数学术工作时间序列数据挖掘已经停滞不前
考虑几个数以百万计的时间序列对象,而大部分
工业和科学坐在数十亿时间序列对象等
探索。在这项工作中,我们表明,通过使用一个组合
四个小说的想法我们可以搜索和我真正的大量时间
第一次系列。我们将演示以下极
直观的事实,在大型数据集,我们可以搜索下
比当前最先进的DTW要快得多
欧几里得距离搜索算法。我们展示我们的工作
史上最大的一组时间序列的实验。在
特别地,我们认为大于最大的数据集
结合所有的时间序列数据集的大小考虑在所有数据
挖掘论文发表。我们表明,我们的想法让我们
解决高层次的时间序列数据挖掘主题等问题
发现和聚类在尺度,否则
站不住脚的。除了采矿大规模数据集,我们将展示
我们的思想也有影响的实时监控
数据流,使我们能够处理更快的到达率
和/或使用更便宜,比目前更低的设备
可能的。
搜索和时间序列挖掘万亿
子序列下的动态时间规整
摘要
大多数的时间序列数据挖掘算法使用的相似性搜索是一个
核心子程序,从而为相似性搜索的时间是
几乎所有的时间序列数据挖掘算法的瓶颈。的
缩放搜索到大型数据集的困难在很大程度上解释了为什么
时间序列数据挖掘已趋于稳定,大多数学术工作
考虑到数以百万计的时间序列对象,虽然
工业与科学坐在数十亿的时间序列对象的等待
为探讨。在这项工作中,我们表明,通过使用一个组合
四种观点我们可以搜索我的真正大规模的时间
对于第一个时间序列。我们证明以下极
非直观的事实;在大型数据集,我们可以准确地搜索下
DTW的速度远远超过目前的国家的最先进的
欧氏距离搜索算法。我们证明我们的工作
时间序列实验曾试图最大的集。在
特别是,我们考虑的是最大的数据集大于
所有的时间序列数据的所有数据考虑组合大小
论文发表过挖掘。我们证明了我们的思想,让我们
解决更高级别的时间序列数据挖掘问题,如主题
发现和尺度,否则将聚类
站不住脚的。除了挖掘海量数据集,我们将展示
我们的思想也为实时监测的影响
数据流,使我们能够处理更快的到达率
和/或使用比目前的价格和较低的动力装置
可能的。