【转】纳森·弗莱切:被遗忘的“搜索引擎之父”
本文由发表于4年前 | 资讯 | 暂无评论 |  被围观 3,081 views+
解决搜索问题更好的方式搜索的诞生控制磁盘空间展望未来

原文出处: BBC 译文出处: 新浪科技

导语:英国BBC网站周二刊登题为《乔纳森·弗莱切:被遗忘的搜索引擎之父》(Jonathon Fletcher: forgotten father of the search engine)的评论文章称,虽然乔纳森·弗莱切的大名并不为多数人所知,但全世界首个现代搜索引擎却出自他的手笔。尽管因为种种原因,令他的项目没有持续下去,但他开发的技术却为后来的所有网络搜索引擎奠定了基础。

search engine-01

以下为文章全文:

在谷歌迎来15岁生日之际,这家网络巨头已经成为了信息检索的代名词。

在谷歌迎来15岁生日之际,这家网络巨头已经成为了信息检索的代名词。

但在20年前,在苏格兰斯特灵大学的一间电脑实验室里,正是弗莱切发明了世界上首个采用网络爬虫技术的搜索引擎——无论是谷歌、必应还是雅虎,当今的所有大型搜索引擎工具都使用了这项技术。

解决搜索问题

1993年,网络世界刚刚萌芽。全世界首款广受欢迎的浏览器Mosaic发布不久,全球网页总数仅有几千个。但即使是在那时,如何检索网络信息仍是一个未解难题。

Mosaic有一个名叫What’s New的页面,可以在新网站创建后索引这些内容。但问题在于,如果要让Mosaic的开发者发现自己的网站,站长们就必须写信给该浏览器所在的美国伊利诺伊大学香槟分校国家超级计算机应用中心(NCSA)。

彼时,乔纳森·弗莱切还是斯特灵大学的明星毕业生,刚刚得到了格拉斯哥大学的博士全额奖学金。但就在他启程前,格拉斯哥大学的奖学金却取消了,弗莱切似乎走进了死胡同。

“我突然之间必须自谋生路,所以我回到斯特灵大学,在技术部找了一份工作。”他回忆说。

就是在那个岗位上,他邂逅了万维网和Mosaic的What’s New页面。

更好的方式

在为斯特灵大学建设网络服务器时,弗莱切发现What’s New页面存在一个本质缺陷。由于网页是手工添加的,所以无法追踪内容变化。所以,链接很快就会过期,还可能被错误标记。

“如果你想知道有什么变化,就必须回过头去亲自查看。”弗莱切提到Mosaic的链接时说,“我有计算机学位,而且我觉得应该可以有一种更好的方式,所以我决定写一个程序来帮助我查找内容。”

于是,便有了世界上第一个网络爬虫。

弗莱切将他的发明命名为JumpStation。他汇集了一个网页的索引,然后利用网络爬虫展开搜索。这本质上就是一套全自动的程序,可以汇集它所访问和索引的所有链接和所有网页。直到遍历了所有内容,这套程序才会停止。

10天后,也就是1993年12月21日,JumpStation遍历了所有网页,索引了2.5万个页面。

而今天,谷歌的页面索引量超过了1万亿。

搜索的诞生

弗莱切很快为这个索引开发了一款易于使用的搜索工具,然后将他的网站提交到Mosaic的What’s New页面。于是,全世界第一个现代搜索引擎正是运营了。

“我认为,他是真正的‘网络搜索引擎之父’。”曾经研究过信息检索历史的墨尔本皇家理工学院教授马克·桑德森(Mark Sanderson)说,“很早以前就有人用电脑搜索信息,网络诞生前肯定也有搜索引擎,但乔纳森的搜索引擎却第一个具备了所有现代搜索引擎的元素。”

然而,当联合创始人谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)成为家喻户晓的明星时,现居中国香港的弗莱切却并没有因为自己在互联网发展过程中所扮演的角色受到太大认可。

这或许与他最终放弃了那个项目有很大关系。随着JumpStation的增长,投资需求也越来越大——而斯特灵大学却不愿提供这种支持。

“它使用了共享服务器,磁盘空间不多,而当时的磁盘又小又贵。”弗莱切解释说。

控制磁盘空间

到了1994年6月,JumpStation索引了27.5万个网页。由于存储空间捉襟见肘,迫使弗莱切只能索引网页的标题和头文件,不能索引全部内容。然而,尽管做出了这种妥协,但JumpStation还是不堪重负。

弗莱切也感到筋疲力尽。“这不是我份内的事情,”他说,“我的工作是让学生的实验室正常运行,干些系统管理和技术方面的零活儿。”

这时,一份来自东京的工作邀请,提供了弗莱切无法拒绝的丰厚待遇。斯特灵大学几乎完全没有挽留他和JumpStation的意思。

“我显然没能成功说服他们认可JumpStation的潜力。”弗莱切说,“我当时做了我认为正确的事情,但我20年来总会时不时地回首往事。”

斯特灵大学计算机和数学系主任雷斯利·史密斯(Leslie Smith)至今仍然记得弗莱切,他承认,JumpStation“领先于那个时代”。他还对BBC说:“斯特灵大学的同事都很高兴他正在因为自己取得的成就获得应有的认可。”

展望未来

尽管弗莱切的遭遇令人失望,但他开辟的这项技术却成为后来所有搜索引擎的基础。

“1993年的网络世界还很小,”桑德森教授说,“当时只要上过网的人,应该都知道JumpStation。”

“到了1994年年中,人们才逐渐意识到搜索引擎的重要性。谷歌直到1998年才诞生,他们所做的也不过是乔纳森早在1993年就做过的事情。”

几周前,弗莱切因为他的这项成就在都柏林的一次会议上获得了一些认可,他当时与来自微软、雅虎和谷歌的代表们共同出席了一个座谈会。但在演讲中,他的重点却放在了未来。

“在我看来,网络不会永远存在下去。”他对听众说,“但寻找信息却会成为一个永恒的话题。”

“搜索内容和寻找信息的愿望并不受制于任何媒介。”他说。

当今的媒介为那些追随弗莱切步伐的人创造了巨额财富,但他并不感到遗憾。“我的父母为我骄傲,我的妻子以我为豪,我的孩子因我而荣,这对我来说都是无价之宝,所以我很幸福。”(鼎宏)

除了文章中有特别说明,均为IT宅原创文章,转载请以链接形式注明出处。
本文链接:http://www.itzhai.com/nathan-fletcher-the-forgotten-search-engine-father.html
关键字:
CharlesLXL 总编辑时间 more
分享到:
 
2013 9/6
文章评论
    没有评论
给我留言

有人回复时邮件通知我
资讯的相关文章
随机文章 本月热门 热评
1 为交换机进行端口安全的配置 2011/5/20
2 为什么API文档如此重要 2013/1/12
3 一个最简单的系统引导扇区的实现方法(Boot Sector) 2011/5/1
4 Java Web笔记 – 客户端Javascript与服务器端Servlet的验证 2011/11/10
5 Javascript Web Application笔记之MVC和类 – 类的继承 函数调用 匿名函数 作用域 类库介绍 2012/6/23
6 IE6下常见的几个CSS兼容问题 2011/4/10
友情推荐 更多
破博客 文官洗碗安天下,武将打怪定乾坤。多么美好的年代,思之令人泪落。
Mr.5's Life 白天是一名程序员,晚上就是个有抱负的探索者
行知-追寻技术之美 关注大数据,分布式系统
我爱编程 编程成长轨迹
Cynthia's Blog 学习笔记 知识总结 思考感悟
 
猜您喜欢
欢迎关注我的公众号 IT宅
关于IT宅 文章归档

IT宅中的文章除了标题注明转载或有特别说明的文章,均为IT宅的技术知识总结,学习笔记或随笔。如果喜欢,请使用文章下面提供的分享组件。转载请注明出处并加入文章的原链接。 感谢大家的支持。

联系我们:admin@itzhai.com

Theme by arthinking. Copyright © 2011-2015 IT宅.com 保留所有权利.