spark rdd的另类解读 1 Spark的RDD 提到Spark必说RDD,RDD是Spark的核心,如果没有对RDD的深入理解,是很难写好spark程序的,但是网上对RDD的解释一般都属于人云亦云、鹦鹉学舌,基本都没有加入自己的理解。本文基于Spark原创作者的论文,对Spark的核心概念RDD做一个初步的探讨,希望能帮助初学的球友们快速入门。
面试|return 和finally那些事儿 前些天有朋友在微信群里问了一个比较有意思的问题: try/catch/finally语句块的finally和return谁先执行呢?也即是我们在try内部调用return,然后finally内部又去修改return返回的内容会怎么样呢? 废话少数先上代码: public class ReturnAndFinally { private static
面试|海量文本去重~simhash simhash算法是google发明的,专门用于海量文本去重的需求,所以在这里记录一下simhash工程化落地问题。 下面我说的都是工程化落地步骤,不仅仅是理论。 背景 互联网上,一篇文章被抄袭来抄袭去,转载来转载去。 被抄袭的文章一般不改,或者少量改动就发表了,所以判重并不是等于的关系,
分享一套阿里面试题~ 临阵磨枪 不快也光! 最近裁员比较严重,危机中并存着机会。 那么工作面试压力必然很大,面试准备其实不是临阵磨枪的活,应该是长期的工作积累和深入学习,但是对于基础,大家也往往会有忘记和只能熟练使用不能清晰表述,尤其在面试的时候,时间短,容易紧张,