0%
这是一片思考的空间 -- arthinking
Spring 重构&代码整洁之道 软件设计 JVM 并发编程 数据结构与算法 分布式 存储 网络 微服务 设计模式
Java技术栈 - 涉及Java技术体系

HTTP请求中的User-Agent 判断浏览器类型的各种方法 网络爬虫的请求标示

我们知道,当用户发送一个http请求的时候,浏览的的版本信息也包含在了http请求信息中:

2013081201

如上图所示,请求 google plus 请求头就包含了用户的浏览器信息:

User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36

我们可以通过服务器端语言提供的相关API获取客户端的浏览器信息,进而对不同的浏览器返回不同的html文档,这样就可以针对现代浏览器返回绚丽的展示页面了。

而在Javascript中我们也提供了相关的API获取当前浏览器的信息:

navigator.userAgent

userAgent中提供给了浏览器将要发送给服务器端的http请求头中user-agent的信息。获取到这个信息之后我们可以通过正则匹配获取到浏览器和版本信息:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
//获取浏览器发送的userAgent信息 
var userAgentInfo = navigator.userAgent.toLowerCase();
document.write(userAgentInfo + '<br />');
/**
* 输出运行的浏览器信息:
* Chrome: mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/27.0.1453.94 safari/537.36
* IE10: mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/27.0.1453.94 safari/537.36
*/
// 通过正则匹配获取浏览类型和版本
// 例如可以这样获取IE的
var agent = {};
if (window.ActiveXObject)
agent.ie = userAgentInfo.match(/msie ([\\d.]+)/)[1];
// 下面就输出信息
if(agent.ie)
document.write(agent.ie); // IE浏览器下输出浏览下版本号,其他浏览器没有输出信息

在PHP中也提供了相关的API:

strpos() 函数返回字符串在另一个字符串中第一次出现的位置。
如果没有找到该字符串,则返回 false。

$_SERVER 中存放着很多服务器的变量,其中
$_SERVER['HTTP_USER_AGENT'] #当前请求的 User_Agent: 头部的内容。

可以像下面这样判断请求者的浏览器和版本,注意,这里的版本可以是访问者伪造的,不一定正确。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
<?php
if(strpos($_SERVER["HTTP_USER_AGENT"],"MSIE8.0"))
echo"IE8.0";
elseif(strpos($_SERVER["HTTP_USER_AGENT"],"MSIE7.0"))
echo"IE7.0";
elseif(strpos($_SERVER["HTTP_USER_AGENT"],"MSIE6.0"))
echo"IE6.0";
elseif(strpos($_SERVER["HTTP_USER_AGENT"],"Firefox/17"))
echo"Firefox17";
elseif(strpos($_SERVER["HTTP_USER_AGENT"],"Firefox/16"))
echo"Firefox16";
elseif(strpos($_SERVER["HTTP_USER_AGENT"],"Chrome"))
echo"Chrome";
elseif(strpos($_SERVER["HTTP_USER_AGENT"],"Safari"))
echo"Safari";
elseif(strpos($_SERVER["HTTP_USER_AGENT"],"Opera"))
echo"Opera";
else echo$_SERVER["HTTP_USER_AGENT"];
?>

此外还可以使用条件注释语句:

条件注释 (conditional comment) 是于HTML源码中被 Microsoft Internet Explorer 有条件解释的语句。条件注释可被用来向 Internet Explorer 提供及隐藏代码。

条件注释最初于微软的 Internet Explorer 5浏览器中出现,并且直至 Internet Explorer 9 均支持。[1]微软已宣布于 Internet Explorer 10 中以标准模式处理页面 - 如 HTML5 - 时停止支持,但是旧版网页使用这种技术(于兼容性视图)将继续有效。

1
2
3
4
5
6
7
8
9
10
<!--[if !IE]><!--> 除IE外都可识别 <!--<![endif]-->
<!--[if IE]> 所有的IE可识别 <![endif]-->
<!--[if IE 6]> 仅IE6可识别 <![endif]-->
<!--[if lt IE 6]> IE6以下版本可识别 <![endif]-->
<!--[if gte IE 6]> IE6以及IE6以上版本可识别 <![endif]-->
<!--[if IE 7]> 仅IE7可识别 <![endif]-->
<!--[if lt IE 7]> IE7以下版本可识别 <![endif]-->
<!--[if gte IE 7]> IE7以及IE7以上版本可识别 <![endif]-->
<!--[if IE 8]> 仅IE8可识别 <![endif]-->
<!--[if IE 9]> 仅IE9可识别 <![endif]-->

网络爬虫的爬取问题

接下来可能会遇到的就是网络爬虫的爬取问题,我们应该给爬虫返回怎样的页面才能保证给爬虫提供的页面最适合于网站的SEO呢。其实爬虫请求头中的User-Agent也包含了特殊的标记信息,我们获取到该信息判断是否爬虫,然后返回最佳的SEO页面就可以了。

网络爬虫在发送http请求获取网页数据时也会在头部附加 User-Agent信息,特别注意的一点就是有些野蜘蛛 User-Agent信息为空,这样就需要在程序中做是否为空的判断,防止robots.txt 文件也对它的限制无效,导致不断的爬去你的网站。 可以向下面这样,判断到访问者的User-Agent为空,则返回404:

1
2
3
4
5
6
7
8
9
10
11
12
13
<?php
$flag = false;
$ua = $SERVER['HTTP_USER_AGENT'];
if($ua == ''){
$flag = true;
}
if($flag){
header('HTTP/1.1 404 Not Found');
header("status: 404 Not Found");
echo '您的请求未通过我们的验证!';
exit();
}
?>

我们网站的流量主要是从哪几个搜索引擎获取的呢,这里是IT宅的的一份统计数据:

2013081202

我们可以看到主要是来自以下几个搜索引擎:

下面是官方给出的一些user agent信息:

所以我们需要匹配的userAgent关键字如下:

Baiduspider Googlebot 360Spider Sosospider sogou spider

如下函数即可判断是否属于上面所列举的spider:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
<?php
function isSpider(){
$ua = strtolower($_SERVER['HTTP_USER_AGENT']);
if(!empty($ua)){
$spiderAgentArr = array(
"Baiduspider",
"Googlebot",
"360Spider",
"Sosospider",
"sogou spider"
);
foreach($spiderAgentArr as $val){
$spiderAgent = strtolower($val);
if(strpos($ua, $spiderAgent) !== false){
return true;
}
}
return false;
} else {
return false;
}
}
echo $_SERVER['HTTP_USER_AGENT'];
if(isSpider()){
echo '爬虫正在访问网站';
} else {
echo '不是爬虫访问网站';
}
?>

所以我们可以这样根据不同的访问用户提供不同的响应结果。

我们可以模拟一下百度的网络爬虫爬取数据,我们在Chrome中模拟一下:

2013081203

访问之后可以发现返回了需要的结果:

2013081204

欢迎关注我的其它发布渠道

订阅IT宅
内功修炼
Java技术栈
Java架构杂谈是IT宅精品文章公众号,欢迎订阅:
📄 网络基础知识:两万字长文50+张趣图带你领悟网络编程的内功心法 📄 HTTP发展史:三万长文50+趣图带你领悟web编程的内功心法 📄 HTTP/1.1:可扩展,可靠性,请求应答,无状态,明文传输 📄 HTTP/1.1报文详解:Method,URI,URL,消息头,消息体,状态行 📄 HTTP常用请求头大揭秘 📄 HTTPS:网络安全攻坚战 📄 HTTP/2:网络安全传输的快车道 📄 HTTP/3:让传输效率再一次起飞 📄 高性能网络编程:图解Socket核心内幕以及五大IO模型 📄 高性能网络编程:三分钟短文快速了解信号驱动式IO 📄 高性能网络编程:彻底弄懂IO复用 - IO处理杀手锏,带您深入了解select,poll,epoll 📄 高性能网络编程:异步IO:新时代的IO处理利器 📄 高性能网络编程:网络编程范式 - 高性能服务器就这么回事 📄 高性能网络编程:性能追击 - 万字长文30+图揭秘8大主流服务器程序线程模型
📄 Java内存模型:如果有人给你撕逼Java内存模型,就把这些问题甩给他 📄 一文带你彻底理解同步和锁的本质(干货) 📄 AQS与并发包中锁的通用实现 📄 ReentrantLock介绍与使用 📄 ReentrantReadWriteLock介绍与使用 📄 ReentrantLock的Condition原理解析 📄 如何优雅的中断线程 📄 如何优雅的挂起线程 📄 图解几个好玩的并发辅助工具类 📄 图解BlockingQueue阻塞队列
📄 消息队列那么多,为什么建议深入了解下RabbitMQ? 📄 高并发异步解耦利器:RocketMQ究竟强在哪里? 📄 Kafka必知必会18问:30+图带您看透Kafka
📄 洞悉MySQL底层架构:游走在缓冲与磁盘之间 📄 SQL运行内幕:从执行原理看调优的本质 📄 洞悉Redis技术内幕:缓存,数据结构,并发,集群与算法