【TODO】几个海量查找和去重的问题

发布于 2014-06-15 | 更新于 2025-06-14

去重
1
大数据
1

// TODO 一个文本中存了10亿条数据，有顺序，怎样最快取出指定的数据？（利用B+树，类似数据库索引）一个文本中存了100亿行数字，无序的，取出前100个数字。（hash分成小文件，然后分别构造大小为100的最小堆，对文件进行处理。文件映射内存技术，快速排序，不考虑稳定性，归并排序，考虑稳定性，堆排序）有1亿条文本，去重。（布隆过滤器，hash分成小文件）