【TODO】几个海量查找和去重的问题

发布于 2014-06-15 | 更新于 2020-09-20

// TODO 一个文本中存了10亿条数据,有顺序,怎样最快取出指定的数据? (利用B+树,类似数据库索引) 一个文本中存了100亿行数字,无序的,取出前100个数字。 (hash分成小文件,然后分别构造大小为100的最小堆,对文件进行处理。文件映射内存技术,快速排序,不考虑稳定性,归并排序,考虑稳定性,堆排序) 有1亿条文本,去重。 (布隆过滤器,hash分成小文件)

本文作者: arthinking

本文链接: https://www.itzhai.combig-data-query-and-duplicate-removal.html

版权声明: 版权归作者所有,未经许可不得转载,侵权必究!联系作者请加公众号。

×
IT宅

关注公众号及时获取网站内容更新。