归档文件的再归档
1.
扫描归档文件列表,统计占用磁盘空间低于阈值的归档文件;
2.
根据归档文件大小配置参数,将统计所得归档文件分组;
3.
统计各分组归档文件涉及到的对象;
4.
将每个分组中的归档文件合并到一个归档文件;将归档文件中的有效对象数据合并到一个新的归档文件中;
5.
更新相关对象元数据信息表中的数据位置描述项;
6.
删除旧的归档文件;
图
-8
归档文件的再归档
总结语
基于
Hadoop
实现类似
Amazon S3
的对象存储系统,有一定的先天优势,例如
Hadoop
的
HDFS
作为数据存储的容器,解决了数据冗余备份的问题;
Hadoop
的半结构化的存储系统
HBase
可以支撑
MetaData
的存储,同时解决了
MetaData
存储层的可靠性和可扩展性等问题。
HDFS
天生不能适合存储大量小文件的缺陷,可以使用
MapReduce
处理架构在后台提供对象归档管理功能(
Hadoop
已经有了
HAV
的功能,只是没有平台化),使得
HDFS
仍然存储自己喜欢的“大文件”。这种基于
Hadoop
实现的对象存储系统,并不能保证在现阶段达到和
Amazon S3
一样的服务效率,但随着
Hadoop
系统的不断完善(例如
HDFS
访问效率的提高,
Append
功能的支持等),相信也能有不俗的表现。
来自:http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx
分享到:
相关推荐
面对海量的非结构化时态信息,构建了在分布式环境下的数据存储模型,并在此基础上提出一种基本的时态数据处理方法。使用Hadoop平台下的分布式、非结构化数据库HBase对海量时态数据进行存储,构造以时态集合为时态...
随着“大数据”的持续增长和信息货币化越来越重要,越来越多的企业加入到构建数 据仓库和寻求数据分析解决方案的队伍中来。Hadoop 由于其出色的非结构话和半结构话数 据的分析能力,以及其廉价的大规模集群解决方案...
可视化的UI界⾯中⽅便地管理 配置和监控Hadoop以及其它所有相关组件 简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和...
本项目实现了基于分布式数据库的图像检索系统。其中,TF-IDF作为相似度依据,MapReduce+HBase作为分布式框架。 集群配置 --- 4个节点:1个Master,3个Slave,均运行64位Centos系统 运行环境 --- Hadoop:...
支持 Oracle RAD、高级队列和高级数据类型JPA - 简化创建 JPA 数据访问层和跨存储的持久层功能Mapping - 基于 Grails 的提供对象映射框架,支持不同的数据库Examples - 示例程序、文档和图数据库Guidance - 高级...
Spring Data 项目的目的是为了简化构建基于 Spring 框架应用的数据访问计数,包括非关系数据库、Map-Reduce 框架、云数据服务等等;另外也包含对关系数据库的访问支持。 Spring Data 包含多个子项目: Commons - ...
本文先给出基本结论:对象存储(ObjectStorageService,简称OSS)是基于阿里云飞天分布式系统的海量、安全和高可靠的云存储服务,是一种面向互联网的大规模、通用存储,提供RESTfulAPI,具备容量和处理的弹性扩展...
从最初到现在,Hadoop系统在7年中开发完成了⼀系列重要的⼦项⽬,已经形成了⼀个涵盖数据存储、管理和分析功 能的较为完整的⼤数据⽣态系统,成为⼤数据存储与处理领域地位最重要、应⽤最⼴泛的开源框架。...
第7章 需求分析与技术选型 模拟提出一个企业中会遇到的实际的需求:如何构建一个对象存储服务。分析实现一个对象存储服务的可行性,以及如何对技术进行选型,HBase可以做哪些工作等 7-1 老板提出一个需求 7-2 技术...
基于DNS的负载均衡 反向代理 ngix JK2 数据库的读写分离 问题: 读库与写库的数据同步 解决方案: 不同的数据库都有自己的数据库的主从复制功能 使用反向代理与CDN加速网站响应 反向...
常见的数据集类型包括:记录数据集(是记录的集合,即数据库中的数据集)、基于图形的数据集(数据对 象本⾝⽤图形表⽰,且包含数据对象之间的联系)和有序数据集(数据集属性涉及时间及空间上的联系,存储时间序列...