章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。 来源: 阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点-云栖社区-…
偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。 方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。  Link: https://www.zhihu.com/question/20448464
转载来源 对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章,通过韦恩图(Venn diagram,可用来表示多个集合之间的逻辑关系)。解释了SQL的Join。我觉得清楚易…
在收LeetCode 的113. Path Sum II题目时,参考网络上的一个解答,源码如下 class Solution: def pathSum(self, root: TreeNode, sum: int) -> List[List[int]]: def dfs(root, s, path, res): if root: path.a…
KMeans算法可以应用于图像压缩,这种压缩实质上是一种有损压缩,实质上是将原本的色彩空间进行聚类,当所聚类的数据增长时,压缩后的质量也随之增加。 关于聚类算法的的介绍和具体处理步聚就是在这里细讲,主要是讲解关于 KMeans 应用于图像压缩的实质和实现 ...
First of all, what is a Norm? In Linear Algebra, a Norm refers to the total length of all the vectors in a space. 来源: L0 Norm, L1 Norm, L2 Norm & L-Infinity Norm – Sara Ir…
https://github.com/aimerforreimu/AUXPI 来源: 非公开图床整理 [ 搞事情 ]
在一个现代化的编程时代,界面不好看的 Eclipse 和操作易用性相比而言更高的 IntelliJ Idea。而在进行 Hadoop 进行编程的时候,最基本的是需要导入相应的 Jar 包,而更为便捷的则是使用 Maven 来进行包的依赖管理,而本文则结合 Gradle 来处理引入最基本的 Hadoop 包,配置运行环境。 新建一个 Gradle 项…
来源: Stanford University: Tensorflow for Deep Learning Research
Git toolbox provides multiple unique tools for fixing up mistakes during your development. Commands such as git reset, git checkout, and… 来源: When to Use Git Reset, Git Revert…