Page 1 of 1

对数数据可视化

Posted: Mon Mar 24, 2025 6:06 am
by rakibhasanbd47
现在我们开始有所收获了!正如预期的那样,数据中存在集中趋势,尽管这种趋势相当广泛。有一点显而易见,那就是,尽管理论上 simhash 测量的差异最大可达 64,但实际上,它很少会高于 46(最大值的四分之三)。相比之下,使用指纹差异,许多页面的最大可能差异达到 128(请看图形右侧的所有红色和橙色点)。请记住,这些红色和橙色点代表非常大的计数,因为颜色尺度是对数的。

我们必须最小心的地方是事物的 波斯尼亚和黑塞哥维那电话号码列表 底部边缘。它代表 simhash 值,表示非常相似的页面对。如果两个页面实际上并不相似,但 simhash 测量它们相似,而指纹却发现存在显著差异,这正是我们试图避免的那种负面客户体验。下面圈出了一个潜在的麻烦点:

令人厌烦的数据可视化

带圆圈的点代表一对实际上完全不同的页面,但 simhash 认为它们非常相似。(左侧甚至更下方的点实际上不是问题:它代表一对几乎重复的页面,而旧的启发式方法却错过了!)

麻烦的点的垂直位置表示 simhash 差异为 6(两个 64 位 simhash 值中的 6 个对应位不同)。这也不是唯一的情况:偶尔,这样的页面对会不时出现。这种情况发生在 1% 或更少的抓取中,但确实会发生。如果我们选择 simhash 差异阈值为 6(与我们目前为传统指纹定义的阈值相匹配),就会出现误报。

选择阈值
值得庆幸的是,6 似乎是一个边界情况。如果差异超过 6 位,则误报的可能性会增加。如果低于 6 位,我无法找到任何此类病态情况,我检查了数千次爬网,试图找到一个。因此,我为基于 simhash 的重复检测选择了 5 的差异阈值。这导致了最终图形所表示的情况: