HTTP协议介绍

HTTP协议(HyperText Transfer Protocol，超文本传输协议)是互联网上应用最为广泛的一种网络协议。

所有的WWW文件都必须遵守这个标准。

HTTP是一个基于TCP/IP通信协议来传递数据（HTML 文件, 图片文件, 查询结果等）。

一、套接字概念

跨Internet的主机间通讯时，在建立通信连接的每一端，进程间的传输要有两个标志：

IP地址和端口号，合称为套接字地址(socket address)

客户机套接字地址定义了一个唯一的客户进程

服务器套接字地址定义了一个唯一的服务器进程

套接字

Socket: 套接字，进程间通信IPC的一种实现，允许位于不同主机（或同一主机）上不同进程之间进行通信和数据交换，SocketAPI出现于1983年，4.2 BSD实现

Socket API：封装了内核中所提供的socket通信相关的系统调用

Socket Domain：根据其所使用的地址

AF_INET：Address Family，IPv4

AF_INET6：IPv6

AF_UNIX：同一主机上不同进程之间通信时使用

Socket Type：根据使用的传输层协议

SOCK_STREAM：流，tcp套接字，可靠地传递、面向连接

SOCK_DGRAM：数据报，udp套接字，不可靠地传递、无连接

SOCK_RAW: 裸套接字,无须tcp或tdp,APP直接通过IP包通信

套接字相关的系统调用：

socket(): 创建一个套接字

bind()：绑定IP和端口

listen()：监听

accept()：接收请求

connect()：请求连接建立

write()：发送

read()：接收

close(): 关闭连接

二、HTTP相关术语

http: Hyper Text Transfer Protocol, 80/tcp

html: Hyper Text Markup Language 超文本标记语言，编程语言

示例：

<html>
<head>
	<title>html语言</title>
</head>
<body>
    <h1>标题1</h1>
    <p><a href=http://www.lvpeixin.tech>你好</a>欢迎访问</p>
    <h2>标题2</h2>
</body>
</html>

CSS: Cascading Style Sheet 层叠样式表

js: javascript

MIME: Multipurpose Internet Mail Extensions:多用途互联网邮件扩展

是设定某种扩展名的文件用一种应用程序来打开的方式类型，当该扩展名文件被访问的时候，浏览器会自动使用指定应用程序来打开。多用于指定一些客户端自定义的文件名，以及一些媒体文件打开方式。

配置文件：/etc/mime.types

格式：major/minor

text/plain

text/html

text/css

image/jpeg

image/png

video/mp4

application/javascript

参考：http://www.w3school.com.cn/media/media_mimeref.asp

URI(Uniform Resource Identifier)统一资源标识，分为URL和URN

URN: Uniform Resource Naming，统一资源命名

示例： P2P下载使用的磁力链接是URN的一种实现

magnet:?xt=urn:btih:660557A6890EF888666

URL: Uniform Resorce Locator，统一资源定位符，用于描述某服务器某特定资源位置

URN与URL区别：

URN如同一个人的名称，而URL代表一个人的住址。换言之，URN定义某事物的身份，

而URL提供查找该事物的方法。URN仅用于命名，而不指定地址

URL的组成

格式：

1	<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

schame:方案，访问服务器以获取资源时要使用哪种协议

user:用户，某些方案访问资源时需要的用户名

password:密码，用户对应的密码，中间用：分隔

Host:主机，资源宿主服务器的主机名或IP地址

port:端口,资源宿主服务器正在监听的端口号，很多方案有默认端口号

path:路径,服务器资源的本地名，由一个/将其与前面的URL组件分隔

params:参数，指定输入的参数，参数为名/值对，多个参数，用;分隔

query:查询，传递参数给程序，如数据库，用？分隔,多个查询用&分隔

frag:片段,一小片或一部分资源的名字，此组件在客户端使用，用#分隔

示例：

http://www.lvpeixin.tech:8080/images/logo.jpg
ftp://wang:password@172.16.0.1/pub/linux.ppt
rtsp://videoserver/video_demo/
Real Time Streaming Protocol
http://www.lvpeixin.tech/bbs/hello;gender=f/send;type=title
https://list.jd.com/list.html?cat=670,671,672&ev=149_2992&sort=sort_totalsales15_desc&trans=1

HTTP的历史

目前主流使用的http版本有1.1版本及2.0版本

http/1.1：1997年1月

引入了持久连接（persistent connection），即TCP连接默认不关闭，可以被多个请求复用，

不用声明Connection: keep-alive。对于同一个域名，大多数浏览器允许同时建立6个持久连接
引入了管道机制（pipelining），即在同一个TCP连接里，客户端可以同时发送多个请求，

进一步改进了HTTP协议的效率
新增方法：PUT、PATCH、OPTIONS、DELETE
同一个TCP连接里面，所有的数据通信是按次序进行的。服务器只能顺序处理回应，

前面的回应慢，会有许多请求排队，造成”队头堵塞”（Head-of-line blocking）
为避免上述问题，两种方法：一是减少请求数，二是同时多开持久连接。网页优化技巧，

比如合并脚本和样式表、将图片嵌入CSS代码、域名分片（domain sharding）等
HTTP 协议不带有状态，每次请求都必须附上所有信息。请求的很多字段都是重复的，浪费带宽，影响速度

Spdy：2009年,谷歌研发,解决 HTTP/1.1 效率不高问题

http/2.0：2015年

头信息和数据体都是二进制，称为头信息帧和数据帧
复用TCP连接，在一个连接里，客户端和浏览器都可以同时发送多个请求或回应，

且不用按顺序一一对应，避免了“队头堵塞“,此双向的实时通信称为多工（Multiplexing）
引入头信息压缩机制（header compression）,头信息使用gzip或compress压缩后再发送；

客户端和服务器同时维护一张头信息表，所有字段都会存入这个表，生成一个索引号，不发送同样字段，

只发送索引号，提高速度
HTTP/2 允许服务器未经请求，主动向客户端发送资源，即服务器推送（server push）

三、HTTP工作机制

工作机制：

http请求：http request

http响应：http response

一次http事务：请求<–>响应

请求相应模型

http协议：stateless 无状态

服务器无法持续追踪访问者来源

解决http协议无状态方法:

cookie 客户端存放

session 服务端存放

HTTP 是一种无状态协议。协议自身不对请求和响应之间的通信状态进行保存。也就是说在 HTTP 这个级别，

协议对于发送过的请求或响应都不做持久化处理。这是为了更快地处理大量事务，确保协议的可伸缩性，

而特意把 HTTP 协议设计成如此简单的。可是随着 Web 的不断发展，很多业务都需要对通信状态进行保存。

于是引入了 Cookie 技术。使用 Cookie 的状态管理Cookie 技术通过在请求和响应报文中写入 Cookie 信息来控制

客户端的状态。Cookie 会根据从服务器端发送的响应报文内的一个叫做 Set-Cookie 的首部字段信息，通知客户端

保存Cookie。当下次客户端再往该服务器发送请求时，客户端会自动在请求报文中加入 Cookie 值后发送出去。

服务器端发现客户端发送过来的 Cookie 后，会去检查究竟是从哪一个客户端发来的连接请求，然后对比服务器上

的记录，最后得到之前的状态信息

Web资源：web resource

一个网页由多个资源构成，打开一个页面，会有多个资源展示出来，但是每个资源都

要单独请求。因此，一个“Web 页面”通常并不是单个资源，而是一组资源的集合

静态文件：无需服务端做出额外处理

文件后缀：.jpg, .html, .txt, .js, .css, .mp3, .avi

动态文件：服务端执行程序，返回执行的结果

文件后缀：.asp, .php, .jsp

提高HTTP连接性能

并行连接：通过多条TCP连接发起并发的HTTP请求

持久连接：keep-alive,长连接，重用TCP连接，以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接

管道化连接：通过共享TCP连接发起并发的HTTP请求

复用的连接：交替传送请求和响应报文（实验阶段）

串行连接：

串行连接

并行连接：

并行连接

串行、持久连接和管道化连接

持久连接

四、HTTP请求过程及相应报文格式

一次完整的http请求处理过程

Web服务请求处理步骤

建立连接：接收或拒绝连接请求
接收请求：接收客户端请求报文中对某资源的一次请求的过程

Web访问响应模型（Web I/O）
- 单进程I/O模型：启动一个进程处理用户请求，而且一次只处理一个，多个请求被串行响应
- 多进程I/O模型：并行启动多个进程,每个进程响应一个连接请求
- 复用I/O结构：启动一个进程，同时响应N个连接请求
  实现方法：多线程模型和事件驱动
  多线程模型：一个进程生成N个线程，每线程响应一个连接请求
  事件驱动：一个进程处理N个请求
- 复用的多进程I/O模型：启动M个进程，每个进程响应N个连接请求，同时接收M*N个请求
处理请求：服务器对请求报文进行解析，并获取请求的资源及请求方法等相关信息，根据方法，资源，
首部和可选的主体部分对请求进行处理
元数据：请求报文首部

HEADERS 格式 name:value

示例：
1
2
Host: www.magedu.com 请求的主机名称
Server: Apache/2.4.7
Method: HTTP常用请求方式
GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS
访问资源：服务器获取请求报文中请求的资源web服务器，即存放了web资源的服务器，
负责向请求者提供对方请求的静态资源，或动态运行后生成的资源资源放置于本地文件
系统特定的路径：DocRoot
1
2
3
DocRoot /var/www/html
/var/www/html/images/logo.jpg
http://www.lvpeixin.tech/images/logo.jpg
web服务器资源路径映射方式：
a. docroot
b. alias
c. 虚拟主机docroot
d. 用户家目录docroot
构建响应报文：一旦Web服务器识别除了资源，就执行请求方法中描述的动作，并返回响应报文。
响应报文中包含有响应状态码、响应首部，如果生成了响应主体的话，还包括响应主体
1. 响应实体：如果事务处理产生了响应主体，就将内容放在响应报文中回送过去。
  
  响应报文中通常包括：
  描述了响应主体MIME类型的Content-Type首部
  描述了响应主体长度的Content-Length
  实际报文的主体内容
2. URL重定向：web服务构建的响应并非客户端请求的资源，而是资源另外一个访问路径
  
  永久重定向：http://www.360buy.com
  临时重定向：http://www.taobao.com
3. MIME类型：Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来
  
  魔法分类：Apache web服务器可以扫描每个资源的内容，并将其与一个已知模式表(被称为魔法文件)进行匹配，以决定每个文件的MIME类型。这样做可能比较慢，但很方便，尤其是文件没有标准扩展名时
  显式分类：可以对Web服务器进行配置，使其不考虑文件的扩展名或内容，强制特定文件或目录内容拥有某个MIME类型
  类型协商： 有些Web服务器经过配置，可以以多种文档格式来存储资源。在这种情况下，可以配置Web服务器，使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)”最好”
发送响应报文: Web服务器通过连接发送数据时也会面临与接收数据一样的问题。
服务器可能有很多条到各个客户端的连接，有些是空闲的，有些在向服务器发送数据，
还有一些在向客户端回送响应数据。服务器要记录连接的状态，还要特别注意对持久连接的处理。
对非持久连接而言，服务器应该在发送了整条报文之后，关闭自己这一端的连接。
对持久连接来说，连接可能仍保持打开状态，在这种情况下，服务器要正确地计算Content-Length首部，
不然客户端就无法知道响应什么时候结束了
记录日志: 最后，当事务结束时，Web服务器会在日志文件中添加一个条目，来描述已执行的事务

request报文

1
2
3

<method> <request-URL> <version>
<headers>
<entity-body>

请求报文

response报文

1
2
3

<version> <status> <reason-phrase>
<headers>
<entity-body>

响应报文

Mehod属性：

请求方法：标明客户端希望服务器对资源执行的动作

GET：从服务器获取一个资源

HEAD：只从服务器获取文档的响应首部

POST：向服务器输入数据，通常会再由网关程序继续处理

PUT：将请求的主体部分存储在服务器中，如上传文件

DELETE：请求删除服务器上指定的文档

TRACE：追踪请求到达服务器中间经过的代理服务器

OPTIONS：请求服务器返回对指定资源支持使用的请求方法

version:

HTTP/.

status:

三位数字，如200，301, 302, 404, 502; 标记请求处理过程中发生的情况

reason-phrase：

状态码所标记的状态的简要描述

headers：

每个请求或响应报文可包含任意个首部；每个首部都有首部名称，后面跟一个冒号，而后跟一个可选空格，接着是一个值

entity-body：

请求时附加的数据或响应时附加的数据

五、网站访问量统计

IP(独立IP)：即Internet Protocol,指独立IP数。一天内来自相同客户机IP地址只计算一次，记录远程客户机IP地址的计算机访问网站的次数，是衡量网站流量的重要指标

PV(访问量)：即Page View, 页面浏览量或点击量，用户每次刷新即被计算一次，PV反映的是浏览某网站的页面数，PV与来访者的数量成正比，PV并不是页面的来访者数量，而是网站被访问的页面数量

UV(独立访客)：即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies，再访问相同网站，该网站的统计中UV数是不变的

网站统计：http://www.alexa.cn/rank/

网站访问统计示例：

甲乙丙三人在同一台通过ADSL上网的电脑上（中间没有断网），分别访问www.lvpeixin.tech 网站，

并且每人各浏览了2个页面，那么网站的流量统计是：

IP: 1 PV:6 UV:1

若三人都是ADSL重新拨号后,各浏览了2个页面，则

IP: 3 PV:6 UV:1

QPS：request per second，每秒请求数

QPS= PV* 页⾯衍生连接次数/ 统计时间（86400）

并发连接数 =QPS * http平均响应时间

峰值时间：每天80%的访问集中在20%的时间里，这20%时间为峰值时间

峰值时间每秒请求数(QPS)=( 总PV数 *页⾯衍⽣连接次数）80% ) / ( 每天秒数 20% )

六、HTTP状态码

HTTP状态码由三个十进制数字组成，第一个十进制数字定义了状态码的类型，后两个数字没有分类的作用。

HTTP状态码共分为5种类型：

状态码分类

HTTP状态码列表：

1：信息

2：成功

3：重定向

4：客户端错误

4-1

4-2

5：服务器错误