本文首发于:浅谈基于simhash的文本去重原理题外话最近更新文章的频率比较低,所以抓紧抽时间更新一波,要不然有人取关了,啊哈哈。近日比较开心的一件事情是偶然的机会在开发者头条分享了一篇文章,然后这篇
.本文首发于:浅谈基于simhash的文本去重原理 .
.
题外话
最近更新文章的频率比较低,所以抓紧抽时间更新一波,要不然有人取关了,啊哈哈。
近日比较开心的一件事情是偶然的机会在开发者头条分享了一篇文章,然后这篇文章目前排在7日热度文章第二,看了下点赞近40、收藏数近200、阅读量近2w,所以更坚定了要写下去和大家一起分享学习的想法。
之前一直在系列输出Redis面试热点相关的文章,本来准备的部分还没看完无法成文,因此本次就暂且跳过了。
今天结合笔者日常工作和大家一起来学习一些偏工程的算法,都是大家很熟悉的场景,想必会有共鸣,开始今天的学习吧!
,通过本文你将了解到以下内容:
- 信息爆炸的日常生活
- 网页去重和局部敏感哈希算法
- simhash算法基本原理和过程分析
- 工程中的去重和聚类实现建议
信息爆炸
从2010年之后移动互联网如火如荼,笔者在2011年的时候还在用只能打电话发短信的那种手机,然而现在几乎每个人手机里的app起码有10-20款,以至于经常有种信息爆炸到头晕的感觉,回顾一下匆匆十年手机里的变化:
.
.

- 0