值得关注的6个大数据部署

本文作者:admin       点击: 2011-07-27 00:00
前言:
大数据成了难以捉摸的术语之一——毫无疑问,一些厂商从500GB硬盘升级到1TB硬盘,也许就会称其为大数据。

Ptak, Noel and Associates分析师Mike Karp表示:“大数据对于IT来说没有特别的定义,时下当人们谈及大数据的时候唯一符合他们想法的就是你看待它的方式,大数据非常‘大’。”

大数据最重要的特点是,传统数据处理工具或者存储管理技术并不能充分处理大数据。因此,在竞争激烈的细分行业,所有这些数据是如何转变成可利用的知识产权已经成为行业领导者以及落伍者之间的关键区别。

Karp表示:“分析工具,以及掌握分析技巧的人,将成为推动世界经济向前发展的主要动力。”考虑到这一点,让我们来看看目前一些主要的大数据部署。

1、Waston

Karp表示,IBM正在大数据领域进行一些基础性研究以及产品开发工作。“大数据是Watson项目的众多元素之一。我们期待看到IBM如何将开发Watson的经验转换成实际产品线。”

2、CA

Karp指出,CA也在大数据方面有所动作。“CA也在大数据领域做了一些工作,不过是处于保密状态的,也许在一两个季度内不会公开。我们十分关注。”

3、Hadoop

如果你想要分析内容的话,你有两条路可以走,无论这些内容是结构化的还是非结构化的:专有的分析工具(IBM、CA等等)和开源工具,后者将更多地指Hadoop——一个Apache开源社区项目。

Karp表示:“在开源领域,很多企业依赖于Hadoop为集群系统和高性能系统的分析提供基础分析工具。”

4、Greenplum

EMC是另一很快意识到大数据发展前景的大厂商。EMC早在一年前就收购了专门做分析的初创厂商Greenplum。Karp指出,Greenplum现在正在考虑开发两层Hadoop代码,一个可以与来自Hadoop社区的开源版本实现互操作性,另一个可以被作为开放社区Hadoop专门扩展的企业级产品。

5、Engenio

当涉及到大块的带宽时,我们会想到从LSI那里收购了Engenio并推出E系列的NetApp。

StorageIO Group分析师Greg Schulz表示:“它在吞吐性能型应用作为一个块设备或者附加在NAS后端以及基于目标的集群时,它的表现很不错。”

6、NFS

并行NFS会很好地满足一些大数据的要求,它能够实现设备之间的高速数据迁移,代表了并行I/O的标准化,使客户能够直接并行地访问存储设备。这消除了NFS服务器可能存在的可扩展性和性能等问题。

pNFS让你可以做到很多事,例如,你可以将一个文件条带到多个NFS服务器,这实际上类似于RAID 0。RAID 0通过允许多个硬盘并行处理数据来提高性能,而pNFS则将这个特点扩展到多个通过网络连接至多个NFS客户端的存储设备。

Schulz表示:“如果使用NAS文件共享和NFS,考虑使用pNFS,如果你的需求是并行连续处理大型文件的话。”

不要被忽悠了

Schulz警告说,大数据有很多不同的使用情况。因此,企业不要基于采用最新的大数据应用。对于那些注重应用分析和处理要求的客户来说,有很多专门的解决方案,例如惠普Vertica和IBM Netezza,此外还有很多高性能NAS或者目标系统。

同样地,对于注重视频、安防监控、闭路电视、模拟仿真、大带宽或吞吐量的话,可以考虑IBM SONAS、惠普Ibrix、戴尔Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。

大数据库是另一个可能需要大数据应用、解决方案与特定架构紧密相关的领域。

Schulz表示:“针对以数据库为中心的大数据,有来自Terradata和Oracle的解决方案,例如Oracle的Exadata II系统。”

总的来说,你可能会面对一大堆劝说你迁移到更昂贵系统的市场炒作。可能你现在的系统已经足够好的——如果可以扩展的话,厂商提供给你的并不一定可能很好地运行在你目前的环境下。

Schulz表示:“警惕各种关于大数据的炒作,他们也许想要缩小你的选择范围。除了大数据所能带来的机遇之外,还有很多不同的方面需要考虑,例如它的特性、应用、使用实例以及部署方案。”