关于 nginx 中的 host 变量
关于变量 host,在 Nginx 的官网 wiki 中是如下说明的:
$host:in this order of precedence: host name from the request line, or host name from the “Host” request header field, or the server name matching a request
直白的翻译一下:host 变量的值按照如下优先级获得:
- 请求行中的 host
- 请求头中的 Host 头部
- 与一条请求匹配的 server name
很清楚,有三点,取优先级最高的那个。仅从字面意思上来理解,这个选择的过程为:如果请求行中有 host 信息,则以请求行中的 host 作为 host 变量的值(host 与 host 变量不是一个东西,很拗口);如果请求行中没有 host 信息,则以请求头中的 Host 头的值作为 host 变量的值;如果前面两者都没有,那么 host 变量就是与该请求匹配所匹配的 serve 名。
为了表示语气的加强,再重复一遍,这个规则包含了三个步骤。
但由于某种不知名的原因,网上能找到的大部分关于该变量的说明都只包含两点。
例如这个:
$host
请求中的 Host 字段,如果请求中的 Host 字段不可用,则为服务器处理请求的服务器名称。
再例如这个:
$host,请求信息中的“Host”,如果请求中没有 Host 行,则等于设置的服务器名。
这些说法都是错误的。它们将一个本来很有内涵的东西向读者隐藏起来,如果你只是一扫而过,在心里默念,哦,这个变量原来是这样的,很简单嘛,那就会错过很多东西。下面就来详细的说明一下该变量。
1. 什么是请求行中的host?
我们知道,HTTP 是一个文本协议,建立在一个可靠的传输层协议之上。这个传输层协议要是可靠的,面向连接的。由于 TCP 的普及程度,让它成了 HTTP 下层协议事实上的标准。但我们要知道,HTTP 并不仅限于建立在 TCP 之上。只要是可靠的,面向连接的传输层协议,都可以用来传输 HTTP。下面所说的 HTTP,都是指搭载在 TCP 之上的 HTTP。
一个 HTTP 请求过程是这样的,客户端先与服务器建立起 TCP 连接,然后再与服务器端进行请求和回复的收发。请求包含请求行、请求头和请求体,其中,根据请求方法的不同,请求体是可选的。
下面开始说请求行。
在发送请求行之前,客户端与服务器已经建立了连接。所以此时请求行中并不需要有服务器的信息。例如,可以如下:
GET /index.php HTTP/1.1
这就是一个完整的 HTTP 请求行。虽然请求行中不需要有服务器的信息,但仍然可以在请求行中包含服务器的信息。例如:
GET www.pureage.info/index.php HTTP/1.1
两者一比较,就很容易理解什么叫请求行中的 host 了。第一个请求行中,就没有 host,第二种请求行中,就带了 host,为 wwww.pureage.info
。
2. Host 请求头与 HTTP/1.0、HTTP/1.1
一个请求,请求行下面就是一些列的请求头。这些请求头,在 HTTP/1.0 中,都是可选的,且 HTTP/1.0 不支持 Host 请求头;而在 HTTP/1.1 中,Host 请求头部必须存在。
除了阅读 RFC2616 来确认这一点外,我们来看看 Nginx 中的代码:
ngx_int_t
ngx_http_process_request_header(ngx_http_request_t *r)
...(略)...
if (r->headers_in.host == NULL && r->http_version > NGX_HTTP_VERSION_10) {
ngx_log_error(NGX_LOG_INFO, r->connection->log, 0,
"client sent HTTP/1.1 request without \"Host\" header");
ngx_http_finalize_request(r, NGX_HTTP_BAD_REQUEST);
return NGX_ERROR;
...(略)...
即,如果协议版本在 HTTP/1.0 之上,且请求头部没有 Host 的话,会直接返回一个 Bad Request 错误响应。
3. 什么是与请求匹配的 server name?
server name 是指在 Nginx 配置文件中,在 server 块中,用 server_name 指令设置的值。一个server 可以多次使用 server_name 指令,来实现俗称的“虚拟主机”。例如:
server {
listen 80;
server_name example.org www.example.org;
...
}
server {
listen 80;
server_name example.net www.example.net;
...
}
server {
listen 80;
server_name example.com www.example.com;
...
}
关于虚拟主机的确定方法,还是引用 Nginx 的官方文档:
在这个配置中,nginx 仅仅检查请求的“Host”头以决定该请求应由哪个虚拟主机来处理。如果Host 头没有匹配任意一个虚拟主机,或者请求中根本没有包含 Host 头,那 nginx 会将请求分发到定义在此端口上的默认虚拟主机。在以上配置中,第一个被列出的虚拟主机即 nginx 的默认虚拟主机——这是 nginx 的默认行为。而且,可以显式地设置某个主机为默认虚拟主机,即在"listen"指令中设置"default_server"参数:
server {
listen 80 default_server;
server_name example.net www.example.net;
…
}
4. 整理一下
上面所有的说明,都仅仅是解释了 Nginx 官方文档中关于 host 变量选择的三个来源值。不过,知道了这三个值是什么,怎么来的,以及 HTTP/1.0 与 HTTP/1.1 的区别,我们就能彻底搞清楚这个 host 变量是怎么确定的了。
首先,无论是 HTTP/1.0 还是 HTTP/1.1 请求,只要请求行中带了主机信息,那么 host 变量就是该请求行中所带的 host。需要注意的是,host 变量是不带端口号的。
所以,下面两条请求的 host 变量都是 www.pureage.info
:
GET http://www.pureage.info/index.php HTTP/1.0
GET http://www.pureage.info/index.php HTTP/1.1
其次,假设请求行中不带主机信息,那么我们就来看请求头部中的 Host 头。此时 HTTP/1.0 请求和HTTP/1.1 请求的表现就大不相同了。有如下几种情况:
-
HTTP/1.0 请求,不带 Host 头
GET /index.php HTTP/1.0
此时,host 变量为与该请求匹配的虚拟主机的主机名,及在 nginx 配置文件中与之匹配的 server 段中 server_name 指令设置的值。如果该 server 中没有使用
server_name
指令,那么 host 变量就是一个空值,不存在。 -
HTTP/1.0请求,带Host头
GET /index.php HTTP/1.0Host: www.pureage.info
此时,host 变量即为
www.pureage.info
-
HTTP/1.1 请求,不带 Host 头
GET /index.php HTTP/1.1
如前所述,HTTP/1.1 请求必须携带 Host 头部。所以这种情况,请求会返回一个 Bad Request 错误响应。host 变量当然就更不存在了。
-
HTTP/1.1请求,带Host头
GET /index.php HTTP/1.1Host: www.pureage.info
此时,host 变量即为
www.pureage.info
通过上面的例子,可以看出,对于HTTP/1.1 请求,host 变量不会为空,它要么在请求行中指定,要么在 Host 头部指定,要么就是一条错误的请求;而对于 HTTP/1.0 请求,host 变量有为空的情况,即请求行和请求头中没有指定 host,且匹配的 server 也没有名称时。
5 . 验证
可以搭建一台 Nginx 服务器,用 telnet 来验证上面的说法。此处略过,但这个操作很有必要。