【TODO】几个海量查找和去重的问题
本文由发表于3年前 | J2EE | 评论数 1 |  被围观 2,796 views+

// TODO

一个文本中存了10亿条数据,有顺序,怎样最快取出指定的数据?

(利用B+树,类似数据库索引)

一个文本中存了100亿行数字,无序的,取出前100个数字。

(hash分成小文件,然后分别构造大小为100的最小堆,对文件进行处理。文件映射内存技术,快速排序,不考虑稳定性,归并排序,考虑稳定性,堆排序)

有1亿条文本,去重。

(布隆过滤器,hash分成小文件)

 

除了文章中有特别说明,均为IT宅原创文章,转载请以链接形式注明出处。
本文链接:http://www.itzhai.com/big-data-query-and-duplicate-removal.html
关键字: ,
arthinking Java技术交流群:280755654,入门群:428693174 more
分享到:
 
2014 6/15
如果您有更好的原创技术博文或者观点,欢迎投稿:admin@itzhai.com,或者关注订阅左侧浮动面板的微信号订阅IT宅itread)发送消息。
文章评论
    一条评论
  1. time 2014年06月24日11:02:36  #-49楼 回复 回复

    我也想知道的呢

给我留言

有人回复时邮件通知我
J2EE的相关文章
随机文章 本月热门 热评
1 Java递归删除目录中的子目录和文件的方法 2011/4/12
2 SVN版本管理工具的安装设置与使用 2011/11/30
3 chrome插件编写中需要了解的几个概念和一些方法 2013/6/5
4 8253/8254的编程约定 2011/4/26
5 集合类的工具辅助类Collections的常用方法介绍和举例 2011/10/16
6 Java Web笔记 – JavaBean的使用 JavaBean的范围 与Java代码的交互 2011/11/10
友情推荐 更多
破博客 文官洗碗安天下,武将打怪定乾坤。多么美好的年代,思之令人泪落。
Mr.5's Life 白天是一名程序员,晚上就是个有抱负的探索者
行知-追寻技术之美 关注大数据,分布式系统
我爱编程 编程成长轨迹
Cynthia's Blog 学习笔记 知识总结 思考感悟
 
欢迎关注我的公众号 IT宅
关于IT宅 文章归档

IT宅中的文章除了标题注明转载或有特别说明的文章,均为IT宅的技术知识总结,学习笔记或随笔。如果喜欢,请使用文章下面提供的分享组件。转载请注明出处并加入文章的原链接。 感谢大家的支持。

联系我们:admin@itzhai.com

Theme by arthinking. Copyright © 2011-2015 IT宅.com 保留所有权利.