关于变量 host,在 Nginx 的官网 wiki 中是如下说明的:

$host:in this order of precedence: host name from the request line, or host name from the “Host” request header field, or the server name matching a request

直白的翻译一下:host 变量的值按照如下优先级获得:

  1. 请求行中的 host
  2. 请求头中的 Host 头部
  3. 与一条请求匹配的 server name

很清楚,有三点,取优先级最高的那个。仅从字面意思上来理解,这个选择的过程为:如果请求行中有 host 信息,则以请求行中的 host 作为 host 变量的值(host 与 host 变量不是一个东西,很拗口);如果请求行中没有 host 信息,则以请求头中的 Host 头的值作为 host 变量的值;如果前面两者都没有,那么 host 变量就是与该请求匹配所匹配的 serve 名。

为了表示语气的加强,再重复一遍,这个规则包含了三个步骤。

但由于某种不知名的原因,网上能找到的大部分关于该变量的说明都只包含两点。

例如这个:

$host

请求中的 Host 字段,如果请求中的 Host 字段不可用,则为服务器处理请求的服务器名称。

再例如这个:

$host,请求信息中的“Host”,如果请求中没有 Host 行,则等于设置的服务器名。

这些说法都是错误的。它们将一个本来很有内涵的东西向读者隐藏起来,如果你只是一扫而过,在心里默念,哦,这个变量原来是这样的,很简单嘛,那就会错过很多东西。下面就来详细的说明一下该变量。

1. 什么是请求行中的host?

我们知道,HTTP 是一个文本协议,建立在一个可靠的传输层协议之上。这个传输层协议要是可靠的,面向连接的。由于 TCP 的普及程度,让它成了 HTTP 下层协议事实上的标准。但我们要知道,HTTP 并不仅限于建立在 TCP 之上。只要是可靠的,面向连接的传输层协议,都可以用来传输 HTTP。下面所说的 HTTP,都是指搭载在 TCP 之上的 HTTP。

一个 HTTP 请求过程是这样的,客户端先与服务器建立起 TCP 连接,然后再与服务器端进行请求和回复的收发。请求包含请求行、请求头和请求体,其中,根据请求方法的不同,请求体是可选的。

下面开始说请求行。

在发送请求行之前,客户端与服务器已经建立了连接。所以此时请求行中并不需要有服务器的信息。例如,可以如下:

GET /index.php HTTP/1.1

这就是一个完整的 HTTP 请求行。虽然请求行中不需要有服务器的信息,但仍然可以在请求行中包含服务器的信息。例如:

GET www.pureage.info/index.php HTTP/1.1

两者一比较,就很容易理解什么叫请求行中的 host 了。第一个请求行中,就没有 host,第二种请求行中,就带了 host,为 wwww.pureage.info

2. Host 请求头与 HTTP/1.0、HTTP/1.1

一个请求,请求行下面就是一些列的请求头。这些请求头,在 HTTP/1.0 中,都是可选的,且 HTTP/1.0 不支持 Host 请求头;而在 HTTP/1.1 中,Host 请求头部必须存在

除了阅读 RFC2616 来确认这一点外,我们来看看 Nginx 中的代码:

1
2
3
4
5
6
7
8
9
ngx_int_t  
ngx_http_process_request_header(ngx_http_request_t *r)  
...()...  
if (r->headers_in.host == NULL && r->http_version > NGX_HTTP_VERSION_10) {  
        ngx_log_error(NGX_LOG_INFO, r->connection->log, 0,  
                   "client sent HTTP/1.1 request without \"Host\" header");  
        ngx_http_finalize_request(r, NGX_HTTP_BAD_REQUEST);  
        return NGX_ERROR;  
...()...  

即,如果协议版本在 HTTP/1.0 之上,且请求头部没有 Host 的话,会直接返回一个 Bad Request 错误响应。

3. 什么是与请求匹配的 server name?

server name 是指在 Nginx 配置文件中,在 server 块中,用 server_name 指令设置的值。一个server 可以多次使用 server_name 指令,来实现俗称的“虚拟主机”。例如:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
server {  
    listen      80;  
    server_name example.org www.example.org;  
    ...  
}  
  
server {  
    listen      80;  
    server_name example.net www.example.net;  
    ...  
}  
  
server {  
    listen      80;  
    server_name example.com www.example.com;  
    ...  
}  

关于虚拟主机的确定方法,还是引用 Nginx 的官方文档:

在这个配置中,nginx 仅仅检查请求的“Host”头以决定该请求应由哪个虚拟主机来处理。如果Host 头没有匹配任意一个虚拟主机,或者请求中根本没有包含 Host 头,那 nginx 会将请求分发到定义在此端口上的默认虚拟主机。在以上配置中,第一个被列出的虚拟主机即 nginx 的默认虚拟主机——这是 nginx 的默认行为。而且,可以显式地设置某个主机为默认虚拟主机,即在"listen"指令中设置"default_server"参数:

server {
listen 80 default_server;
server_name example.net www.example.net;

}

4. 整理一下

上面所有的说明,都仅仅是解释了 Nginx 官方文档中关于 host 变量选择的三个来源值。不过,知道了这三个值是什么,怎么来的,以及 HTTP/1.0 与 HTTP/1.1 的区别,我们就能彻底搞清楚这个 host 变量是怎么确定的了。

首先,无论是 HTTP/1.0 还是 HTTP/1.1 请求,只要请求行中带了主机信息,那么 host 变量就是该请求行中所带的 host。需要注意的是,host 变量是不带端口号的。

所以,下面两条请求的 host 变量都是 www.pureage.info

GET http://www.pureage.info/index.php HTTP/1.0
GET http://www.pureage.info/index.php HTTP/1.1

其次,假设请求行中不带主机信息,那么我们就来看请求头部中的 Host 头。此时 HTTP/1.0 请求和HTTP/1.1 请求的表现就大不相同了。有如下几种情况:

  1. HTTP/1.0 请求,不带 Host 头

    GET /index.php HTTP/1.0

    此时,host 变量为与该请求匹配的虚拟主机的主机名,及在 nginx 配置文件中与之匹配的 server 段中 server_name 指令设置的值。如果该 server 中没有使用 server_name 指令,那么 host 变量就是一个空值,不存在。

  2. HTTP/1.0请求,带Host头

    GET /index.php HTTP/1.0Host: www.pureage.info

    此时,host 变量即为 www.pureage.info

  3. HTTP/1.1 请求,不带 Host 头

    GET /index.php HTTP/1.1

    如前所述,HTTP/1.1 请求必须携带 Host 头部。所以这种情况,请求会返回一个 Bad Request 错误响应。host 变量当然就更不存在了。

  4. HTTP/1.1请求,带Host头

    GET /index.php HTTP/1.1Host: www.pureage.info

    此时,host 变量即为 www.pureage.info

通过上面的例子,可以看出,对于HTTP/1.1 请求,host 变量不会为空,它要么在请求行中指定,要么在 Host 头部指定,要么就是一条错误的请求;而对于 HTTP/1.0 请求,host 变量有为空的情况,即请求行和请求头中没有指定 host,且匹配的 server 也没有名称时。

5 . 验证

可以搭建一台 Nginx 服务器,用 telnet 来验证上面的说法。此处略过,但这个操作很有必要。