【TODO】几个海量查找和去重的问题
本文由发表于4年前 | J2EE | 评论数 1 |  被围观 1,759 views+

// TODO

一个文本中存了10亿条数据,有顺序,怎样最快取出指定的数据?

(利用B+树,类似数据库索引)

一个文本中存了100亿行数字,无序的,取出前100个数字。

(hash分成小文件,然后分别构造大小为100的最小堆,对文件进行处理。文件映射内存技术,快速排序,不考虑稳定性,归并排序,考虑稳定性,堆排序)

有1亿条文本,去重。

(布隆过滤器,hash分成小文件)

 

除了文章中有特别说明,均为IT宅原创文章,转载请以链接形式注明出处。
本文链接:http://www.itzhai.com/big-data-query-and-duplicate-removal.html
关键字: ,
arthinking 指弹吉他 && 技术 more
分享到:
 
2014 6/15
如果您有更好的原创技术博文或者观点,欢迎投稿:admin@itzhai.com,或者关注订阅左侧浮动面板的微信号订阅IT宅itread)发送消息。
文章评论
    一条评论
  1. time 2014年06月24日11:02:36  #-49楼 回复 回复

    我也想知道的呢

给我留言

有人回复时邮件通知我
J2EE的相关文章
随机文章 本月热门 热评
1 ExtJS获取ComboBox远程数据的JsonReader和本地数据的ArrayStore的写法 2011/8/6
2 Hibernate继承映射策略之每棵类继承树一张表 2011/5/25
3 J2EE基于MVC的各层的设计原则及其编写注意事项 2012/9/15
4 Java基础笔记 – 数组 二维数组 三维数组 Arrays类 2011/10/29
5 ExtJS的RadioGroup单选按钮设置默认值和获取选中的值 2011/9/17
6 Java Web笔记 – 错误处理参数回显的实现方法 2011/11/12
友情推荐 更多
破博客 文官洗碗安天下,武将打怪定乾坤。多么美好的年代,思之令人泪落。
Mr.5's Life 白天是一名程序员,晚上就是个有抱负的探索者
行知-追寻技术之美 关注大数据,分布式系统
我爱编程 编程成长轨迹
Cynthia's Blog 学习笔记 知识总结 思考感悟
 
欢迎关注我的公众号 IT宅
关于IT宅 文章归档

IT宅中的文章除了标题注明转载或有特别说明的文章,均为IT宅的技术知识总结,学习笔记或随笔。如果喜欢,请使用文章下面提供的分享组件。转载请注明出处并加入文章的原链接。 感谢大家的支持。

联系我们:admin@itzhai.com

Theme by arthinking. Copyright © 2011-2015 IT宅.com 保留所有权利.