联系我们   Contact

郑州泰源数据恢复中心!云存储与大型存储简介!!!

2015-4-10 10:26:44      点击:
一、Hadoop

        Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

        和MYSQL是建立在操作系统的文件系统上一样,Hbase也是建立在HDFS这样的分布式文件系统上。HDFS就像您说的,把一个文件分成64M大小的块,分布到集群里各台机器上(一般每一块保留三个备份,同一机架上两台节点保存其中两个,另一机架上一个节点保存另外一个,这样来保证数据不至于因为一台机器、一台机架的宕机、断网导致数据块无法访问),HDFS利用这种方法来存储一个超大的文件,使得保存在不同节点上的文件看上去像是保存在本地硬盘的文件。但是HDFS只保存数据,对数据的解释是由其上的程序来处理的。比如您可以利用一个map/reduce的程序来对一个超大文件进行分析。

       Hbase实现了一个数据库,和MYSQL类似,支持插入一行、增加一列之类的操作,你在Hbase里存储的数据最终会以某种格式存放在HDFS上,Hbase负责解释这些数据。由于HBase建立在HDFS之上,天生就拥有分布式的存储系统,这样即使保存PB级的数据,也完全可以支撑,相比之下,MYSQL只能运行在单机上,很难管理如此巨量的数据。


 

二、GoogleFS

        GoogleFS包括一个主服务器和多个大数据块服务器,这些块服务器响应多个客户端的访问请求。文件被分割成64MB固定大小的数据块(Chunk),它分布在各个块服务器上,每个块在多个服务器上都存有副本,为了可靠性,一般存放3个副本。块服务器使用下层物理文件系统(如Ext3)来存放数据块。

        主服务器负责维护所有文件系统的元数据,包括命名空间、文件至数据块的映射信息,访问控制信息,以及主存中数据块的当前位置。之所以将数据块读入主存是为了提高主服务器的操作性能。为了获得数据块的位置信息,主服务器只在块服务器启动时轮询一下数据块信息,直到新的数据块产生并在心跳信息的提示下主服务器才更新这些位置信息。客户端直接使用文件系统API来访问主服务器和块服务器。为了减少发给主服务器的请求数量,客户端只对元数据进行缓存,需要注意的是,客户端和块服务器对文件数据不进行高速缓存。GoogleFS采用的副本技术来提高数据可用性,数据块和元数据都存在副本,比如每个数据块在3台块服务器上都存在副本;当管理元数据的主服务器宕机时,备用的"影子"服务器则切换过来,但它只能提供读取操作,不支持修改、写入操作。为了增加数据可恢复性,GoogleFs采用了操作日志和快照技术。

 

 

三、RAID

      RAID 的初衷主要是为了大型服务器提供高端的存储功能和冗余的数据安全。 在系统中,RAID 被看作是一个逻辑分区,但是它是由多个硬盘组成的(最少两块)。 它通过在多个硬盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量。

      RAID通俗的说就是通过将多个存储设备按照一定的形式和方案组织起来,如同使用一个硬盘一样但是却通过这样的形式获取了比单个存储设备更高的速度、更好的稳定性、更大的存储能力的存储设备的解决方案。根据你的需要不同,可以采用不同形式以及不同价格(从几千元到上百万元)的RAID解决方案--很显然,越好的RAID系统,价格越昂贵,所以几乎没有最好的RAID系统。

      优点1.传输速率高:在RAID中,可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动器在逻辑上又是一个磁盘驱动器,所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。这是RAID最初想要解决的问题。因为CPU的速度增长很快,而磁盘驱动器的数据传输速率无法大幅提高,所以RAID解决了。

      优点2.提供容错功能:这是使用RAID的第二个原因,因为普通磁盘驱动器无法提供容错功能,如果不包括写在磁盘上的CRC(循环冗余校验)码的

、直连式存储(DAS)、存储区域网络(SAN)、网络接入存储(NAS)

        DAS——直连式存储,这种出现相对较早的存储方式,主要是将存储设备外挂于服务器上,其构造与PC相同,将磁盘、多磁盘阵列或者磁带等存储介质以外设方式直接连接到服务器总线上。这种存储方式较适用于以往信息量不大,应用需求不高的环境下,但显然不能胜任今天海量的数据环境。

        SAN——存储区域网络,即通过特定的互连方式连接的若干台存储服务器组成一个单独的数据网络,提供企业级的数据存储服务。 SAN是一种特殊的高速网络,连接网络服务器和诸如大磁盘阵列或备份磁带库的存储设备,SAN置于LAN之下,而不涉及LAN。利用SAN,不仅可以提供大容量的存储数据,而且地域上可以分散,并缓解了大量数据传输对于局域网的影响。SAN的结构允许任何服务器连接到任何存储阵列,不管数据置放在哪里,服务器都可直接存取所需的数据。

        NAS——网络附加存储,即将存储设备通过标准的网络拓扑结构(以太网),连接到一群计算机上。NAS实际上是一个带有瘦服务器的存储设备,其作用类似于一个专用的文件服务器。NAS存储设备与网络直接相连,用户通过网络对其进行访问。NAS服务器一般由存储硬件、操作系统以及其上的文件系统等几个部分组成。简单的说,NAS是通过与网络直接连接的磁盘阵列,它具备了磁盘阵列的所有主要特征:高容量、高效能、高可靠。NAS将存储设备通过标准的网络拓扑结构连接,可以无需服务器直接上网,不依赖通用的操作系统,而是采用一个面向用户设计的、专门用于数据存储的简化操作系统,内置了与网络连接所需的协议,因此使整个系统的管理和设置较为简单。其次NAS是真正即插即用的产品,并且物理位置灵活,可放置在工作组内,也可放在其他地点与网络连接。因此,用户选择NAS解决方案,原因在于NAS价格合理、便于管理、灵活且能实现文件共享。