Apache Atlas 是一款开源的元数据管理和治理工具,并且提供了 REST API 对外接口,可以非常方便地接入到相应的数据平台系统中。Atlas 也提供 web 界面对元数据进行管理,企业可以对数据库元数据建立资产目录,并对这些资产进行分类和治理,为数据分析,数据治理提供高质量的「元数据」(可以理解成描述数据的数据)信息。 Atlas 主要…
在某些场景下,需要快速构建自己的 Hive 测试环境来调试和学习 Hive 相关的语法和分析执行语句。本文介绍了和种免除分布式Hadoop配置的复杂过程。能够快速构建自己的Hive环境,并介绍构建在远程主机情况下,客户端访问Hive与执行SQL。 基本条件 本文参考的基本安装配置如下, Linux(本文采用Debian,开放ssh远程访问) Doc…
章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。 来源: 阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点-云栖社区-…
在收LeetCode 的113. Path Sum II题目时,参考网络上的一个解答,源码如下 class Solution: def pathSum(self, root: TreeNode, sum: int) -> List[List[int]]: def dfs(root, s, path, res): if root: path.a…
KMeans算法可以应用于图像压缩,这种压缩实质上是一种有损压缩,实质上是将原本的色彩空间进行聚类,当所聚类的数据增长时,压缩后的质量也随之增加。 关于聚类算法的的介绍和具体处理步聚就是在这里细讲,主要是讲解关于 KMeans 应用于图像压缩的实质和实现 ...