`
yeminping
  • 浏览: 176988 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

基于Hadoop构建对象存储系统(二)

阅读更多

归档文件的再归档

1.        扫描归档文件列表,统计占用磁盘空间低于阈值的归档文件;

2.        根据归档文件大小配置参数,将统计所得归档文件分组;

3.        统计各分组归档文件涉及到的对象;

4.        将每个分组中的归档文件合并到一个归档文件;将归档文件中的有效对象数据合并到一个新的归档文件中;

5.        更新相关对象元数据信息表中的数据位置描述项;

6.        删除旧的归档文件;

 

 

-8 归档文件的再归档

 

总结语

基于 Hadoop 实现类似 Amazon S3 的对象存储系统,有一定的先天优势,例如 Hadoop HDFS 作为数据存储的容器,解决了数据冗余备份的问题; Hadoop 的半结构化的存储系统 HBase 可以支撑 MetaData 的存储,同时解决了 MetaData 存储层的可靠性和可扩展性等问题。 HDFS 天生不能适合存储大量小文件的缺陷,可以使用 MapReduce 处理架构在后台提供对象归档管理功能( Hadoop 已经有了 HAV 的功能,只是没有平台化),使得 HDFS 仍然存储自己喜欢的“大文件”。这种基于 Hadoop 实现的对象存储系统,并不能保证在现阶段达到和 Amazon S3 一样的服务效率,但随着 Hadoop 系统的不断完善(例如 HDFS 访问效率的提高, Append 功能的支持等),相信也能有不俗的表现。

 

来自:http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx

分享到:
评论

相关推荐

    论文研究-基于Hadoop的时态信息存储与时态关系演算问题研究.pdf

    面对海量的非结构化时态信息,构建了在分布式环境下的数据存储模型,并在此基础上提出一种基本的时态数据处理方法。使用Hadoop平台下的分布式、非结构化数据库HBase对海量时态数据进行存储,构造以时态集合为时态...

    基于Hadoop的大规模数据交换的研究

    随着“大数据”的持续增长和信息货币化越来越重要,越来越多的企业加入到构建数 据仓库和寻求数据分析解决方案的队伍中来。Hadoop 由于其出色的非结构话和半结构话数 据的分析能力,以及其廉价的大规模集群解决方案...

    大数据开源框架集锦.pdf

    可视化的UI界⾯中⽅便地管理 配置和监控Hadoop以及其它所有相关组件 简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和...

    基于分布式数据库的图像检索系统

    本项目实现了基于分布式数据库的图像检索系统。其中,TF-IDF作为相似度依据,MapReduce+HBase作为分布式框架。 集群配置 --- 4个节点:1个Master,3个Slave,均运行64位Centos系统 运行环境 --- Hadoop:...

    SpringData.zip

    支持 Oracle RAD、高级队列和高级数据类型JPA - 简化创建 JPA 数据访问层和跨存储的持久层功能Mapping - 基于 Grails 的提供对象映射框架,支持不同的数据库Examples - 示例程序、文档和图数据库Guidance - 高级...

    spring data API

    Spring Data 项目的目的是为了简化构建基于 Spring 框架应用的数据访问计数,包括非关系数据库、Map-Reduce 框架、云数据服务等等;另外也包含对关系数据库的访问支持。 Spring Data 包含多个子项目: Commons - ...

    存储与计算分离:OSS构建表+计算引擎对接

    本文先给出基本结论:对象存储(ObjectStorageService,简称OSS)是基于阿里云飞天分布式系统的海量、安全和高可靠的云存储服务,是一种面向互联网的大规模、通用存储,提供RESTfulAPI,具备容量和处理的弹性扩展...

    大数据下的用户行为分析.pdf

    从最初到现在,Hadoop系统在7年中开发完成了⼀系列重要的⼦项⽬,已经形成了⼀个涵盖数据存储、管理和分析功 能的较为完整的⼤数据⽣态系统,成为⼤数据存储与处理领域地位最重要、应⽤最⼴泛的开源框架。...

    Hbase+Spring boot实战分布式文件存储

    第7章 需求分析与技术选型 模拟提出一个企业中会遇到的实际的需求:如何构建一个对象存储服务。分析实现一个对象存储服务的可行性,以及如何对技术进行选型,HBase可以做哪些工作等 7-1 老板提出一个需求 7-2 技术...

    网站架构技术

    基于DNS的负载均衡 反向代理 ngix JK2 数据库的读写分离 问题: 读库与写库的数据同步 解决方案: 不同的数据库都有自己的数据库的主从复制功能 使用反向代理与CDN加速网站响应 反向...

    大数据导论(1)——“大数据”相关概念、5V特征、数据类型.pdf

    常见的数据集类型包括:记录数据集(是记录的集合,即数据库中的数据集)、基于图形的数据集(数据对 象本⾝⽤图形表⽰,且包含数据对象之间的联系)和有序数据集(数据集属性涉及时间及空间上的联系,存储时间序列...

Global site tag (gtag.js) - Google Analytics