Apache Atlas 是一款开源的元数据管理和治理工具,并且提供了 REST API 对外接口,可以非常方便地接入到相应的数据平台系统中。Atlas 也提供 web 界面对元数据进行管理,企业可以对数据库元数据建立资产目录,并对这些资产进行分类和治理,为数据分析,数据治理提供高质量的「元数据」(可以理解成描述数据的数据)信息。 Atlas 主要…
在某些场景下,需要快速构建自己的 Hive 测试环境来调试和学习 Hive 相关的语法和分析执行语句。本文介绍了和种免除分布式Hadoop配置的复杂过程。能够快速构建自己的Hive环境,并介绍构建在远程主机情况下,客户端访问Hive与执行SQL。 基本条件 本文参考的基本安装配置如下, Linux(本文采用Debian,开放ssh远程访问) Doc…
前言 对于 Excel 的使用,我觉得无论是普通人还是职场上的各类人员,其实都可以算上一个必备课。像中学,大学生可能会使用统计班级人员信息,职场人员需要统计员工信息,产品信息,做一些简单地聚类,聚合计算。 本次背景 对于大量的 id 类型,还有对于钱的存储实际上的扩大了十万倍存储,因此在使用 Excel 打开 csv 的时候进行探查,会发现直接将数…
章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。 来源: 阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点-云栖社区-…
转载来源 对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章,通过韦恩图(Venn diagram,可用来表示多个集合之间的逻辑关系)。解释了SQL的Join。我觉得清楚易…