博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop-No.6之文件在HDFS中的位置
阅读量:5862 次
发布时间:2019-06-19

本文共 868 字,大约阅读时间需要 2 分钟。

在设计一种HDFS模式时,首先应该决定文件的位置.标准化的位置会使得团队之间更容易查找和共享数据.

推荐HDFS目录结构实例.目录结构简化了不同组和用户的权限分配

/user/{username}

只属于特定用户的数据,JAR包和配置文件.通常是用户在试验中使用的非正式数据,不属于业务流程./user下的目录通常只能由所有者进行读取和写入

/etl

ETL(Extract, Transform and Load,提取,转化,加载)工作流正在处理的.处于不同阶段的数据./etl目录由ETL过程(通常是在各自的user目录下进行)与ETL团队的成员读取和写入.拥有ETL过程的不同组别(如业务分析,欺诈识别,以及市场营销)在/etl目录树中都有对应的子目录.

/tmp

工具生成或者用户共享的临时数据.该目录通常通过程序自动清除,不会存储生命周期长的数据.通常每个人都能读取或写入该目录

/data

经过处理并且在整个组织内共享的数据集.这些通常是待分析数据的重要来源,可以促成业务决策,所以不能不分身份角色,任人读取和写入.通常用户只能读取数据,数据由自动化的ETL过程写入.而且需要审计./data目录下的数据通常对于业务非常重要,所以一般只允许自动化的ETL过程写入数据,改变都是要受到控制和审计的.不同的业务团队对于/data目录下的目录拥有不同的读取权限.

/app

几乎囊括Hadoop应用运行所需要的一些,但不包括数据,这里有Jar文件,OOzie工作流定义,Hive HQL文件,等等.应用的代码目录/app用于存储应用所需要的依赖.各版本的目录应该类似于如下结构:

/app/<组>/<应用>/<版本>/<包目录>/<包>

/metadata

存储元数据,尽管大多数表元数据都存储在Hive metastore中,但是还是可能会有一些元数据(如Avro模式文件)可能需要存储在HDFS中.该目录是存储此类元数据的最佳位置.该目录通常对ETL任务可读,而采集数据到Hadoop中的用户(如Sqoop用户)则拥有写权限.

转载地址:http://yagjx.baihongyu.com/

你可能感兴趣的文章
假期之后
查看>>
Neo4j CQL -(5)- CREATE+MATCH+RETURN命令
查看>>
Python中if __name__=="__main__" 语句在调用多进程Process过程中的作用分析
查看>>
Linux shell编程学习笔记---第四章
查看>>
废弃之。。。blog20120331
查看>>
0198H和0183H如何相加的
查看>>
汇编语言 1
查看>>
Codeforces-470 div2 C题
查看>>
python爬取手机归属地
查看>>
什么是 OpenCL OpenGL
查看>>
【原】impdp之table_exists_action参数
查看>>
设计模式-观察者模式
查看>>
easyUI datebox 日期空间斜杠格式化。例如将日期空间中显示2017-03-13,改为2017/03/13...
查看>>
vue教程3-03 vue组件,定义全局、局部组件,配合模板,动态组件
查看>>
「模拟赛 2018-11-02」T3 老大 解题报告
查看>>
<20180930>故障解决记录Cisco RV系列低端路由
查看>>
【转帖】MATLAB 与 音频处理 相关内容摘记
查看>>
可以ping通的打印机,没有办法打印
查看>>
实验0 了解和熟悉操作系统
查看>>
什么是p12证书?ios p12证书怎么获取?
查看>>