当前位置：移动技术网 > 科技>操作系统>Linux > RDMA 相关简要摘录

RDMA 相关简要摘录

2019年08月31日 | 移动技术网科技 | 我要评论

rdma (remote direct memory access) 全称为远程直接内存访问

其出现的目的：为了解决网络传输中服务端数据处理的延迟而产生的。其将数据直接从一台计算机的内存传输到另一台计算机，无需双方操作系统的介入。这允许高吞吐、低延迟的网络通信，尤其适合在大规模并行计算机集群中使用。rdma通过网络把资料直接传入计算机的存储区，将数据从一个系统快速移动到远程系统存储器中，而不对操作系统造成任何影响，这样就不需要用到多少计算机的处理能力。它消除了外部存储器复制和上下文切换的开销，因而能解放内存带宽和cpu周期用于改进应用系统性能。

rdma三大特性：cpu offload 、kernel bypass、zero-copy。

rdma提供了基于消息队列的点对点通信，每个应用都可以直接获取自己的消息，无需os和协议栈的介入。

调用栈：

传统tcp/ip数据流动方式：

进程 buffer （用户空间）-> socket buffer（内核空间） -> 添加包头（内核空间）-> nic buffer （网卡设备）-> 网络->接收端反向解析<--

特点：各层次分工完善，但是数据在传输过程中出现多次拷贝；产生延迟较高，也一定程度上浪费了内存和计算资源；

网络测试的五项指标：

可用性（availability)：可使用ping 命令测试网络是否通畅；
响应时间（response time)：ping 命令echo request/reply 一次往返所花费的时间；
网络利用率（network utilization)：指的是网络使用时间和空闲时间的比例；
网络吞吐量（network throughput)：在网络中两个节点之间，提供给网络应用的剩余带宽，测试网络吞吐的时候，需要在一天的不同时刻来进行测量；
网络带宽容量（network bandwidth capacity)：与吞吐不同，网络带宽容量指的是在网络两个节点之间的最大可用带宽。该值是由网络设备本身的能力决定的。

其中两个最重要的指标是高带宽和低延迟。

通信延迟 =传输延迟 + 处理延迟；

处理延迟：发生在消息的发送端和消息的接收端；传输延迟：发生在消息在发送方和接收方之间网络上；

通信过程中处理开销主要指：buffer 管理，不同空间的消息复制，消息发送和接收过程中系统的中断;

网络中传播的消息的种类：

large messages: 此类消息可以理解为：传输大块文件数据；此类模式中，网络传输延迟占整个通信中的主导地位；

small messages: 此类消息可以理解为：传输文件元数据信息；此类模式中，处理延迟在整个通信过程中的主导地位；

传统tcp/ip存在的问题：

传统的tcp/ip的问题，主要是io瓶颈，在高速网络条件下与网络i/o相关的主机处理的高开销限制了可以在机器之间发送的带宽。由上面的数据流动方式，我们可以看到，这里的高开销主要是数据移动和复制操作；主要是传统的tcp/ip网络通信是通过内核发送消息。messaging passing through kernel这种方式会导致很低的性能和很低的灵活性。性能低下的原因主要是由于网络通信通过内核传递，这种通信方式存在的很高的数据移动和数据复制的开销。并且现如今内存带宽性相较如cpu带宽和网络带宽有着很大的差异。很低的灵活性的原因主要是所有网络通信协议通过内核传递，这种方式很难去支持新的网络协议和新的消息通信协议和发送、接收接口。

高性能网络通信相关研究：

tcp offloading engine（toe）：将加解包的工作下移到网卡上，需要特定网卡支持；
user-net networking(u-net)：将整个协议栈移动到用户空间中，从数据通信路径中，彻底删除内核，带来高性能和高灵活性的提升；

内核接口只涉及到连接步骤，在传输过程中，减少了数据在用户空间和内核空间的复制；

virtual interface architecture（via）：via 通过为每个应用进程提供受保护的，对网络硬件进行存取的接口-virtual interface,从而消除了传统模式下的系统处理开销；
remote direct memroy access(rdma)

rdma 通过网络，把数据资料，直接传入计算机的存储区，消除了存储器件的赋值和上下文切换开销；其有低延迟，低cpu负载和高带宽三种特性；

rdma 操作：

应用和rnic之间的传输接口层（software transport interface）被称为verbs。

memory verbs: rdma read、write 和 atomic 操作。这些操作指定远程地址进行操作并绕过接收者的cpu; (单边操作，应用无感知)

messaging verbs: 包括rdma send、receive 操作。动作涉及到响应者的cpu,发送的数据被写入到由响应者cpu先前发布的接收所指定的地址；（双边操作，需应用感知）

send/receive 多用于连接控制类报文，而数据报文多是通过read/write 来完成的。双边操作与传统网络的底层buffer pool 类似，双方参与的过程并无差别。主要区别在于rdma的零拷贝和kernel bypass。对于rdma 这是一种负载的消息传输模式，多用于传输短的控制消息；

rc 表示可靠连接；uc 表示不可靠连接；ud 表示不可靠的数据报，不支持memory verbs;

rdma 实现：

rdma 目前有三种不同实现：infiniband,iwarp（internet wide area rdma protocol）,roce(rdma over converged ethernet);

infiniband是一种专为rdma设计的网络，从硬件级别保证可靠传输，而roce 和 iwarp都是基于以太网的rdma技术，支持相应的verbs接口。从图中不难发现，roce协议存在rocev1和rocev2两个版本，主要区别rocev1是基于以太网链路层实现的rdma协议(交换机需要支持pfc等流控技术，在物理层保证可靠传输)，而rocev2是以太网tcp/ip协议中udp层实现。从性能上，很明显infiniband网络最好，但网卡和交换机是价格也很高，然而rocev2和iwarp仅需使用特殊的网卡就可以了，价格也相对便宜很多。

infiniband：支持rdma的新一代网络协议。由于这是一种新的网络技术，因此需要支持该技术的nic和交换机。
roce：允许在以太网上执行rdma的网络协议。其较低的网络标头是以太网标头，其较高的网络标头（包括数据）是infiniband标头。这支持在标准以太网基础设施（交换机）上使用rdma。只有网卡应该是特殊的，支持roce。
iwarp：一个允许在tcp上执行rdma的网络协议。 ib和roce中存在的功能在iwarp中不受支持。这支持在标准以太网基础设施（交换机）上使用rdma。只有网卡应该是特殊的，并且支持iwarp（如果使用cpu卸载），否则所有iwarp堆栈都可以在sw中实现，并且丧失了大部分rdma性能优势。

rdma 结构图：

rdma工作过程：

应用执行rdma读写请求的时候，不需要内核内存参与,rdma 请求直接从用户空间的应用发送到本地nic（网卡）；
nic 读取缓冲区内容，并通过网络传送到远程nic；
在网络上传输的rdma信息，包含目标虚拟地址，内存钥匙和数据本身；请求既可以完全在用户空间中处理（使用主动轮询机制），又可以在应用一直睡眠到请求完成时的情况下，通过系统中断处理。rdma操作使得应用可以从一个远程应用的内存中（远程应用的虚拟内存）读取数据或者向这个内存中写数据；
目标nic确认内存钥匙（key）,直接将数据写入应用缓存中。用于操作的远程虚拟内存地址包含在rdma信息中；

rmda 中专有名词和对应缩写：

channel-io：rdma 在本端应用和远端应用间创建的一个消息通道；

queue pairs（qp）：每个消息通道两端是两对qp;

send queue（sq）：发送队列，队列中的内容为wqe；

receive queue（rq）：接收队列，队列中的内容为wqe；

work queue element（wqe）：工作队列元素，wqe指向一块用于存储数据的buffer;

work queue(wq): 工作队列，在发送过程中 wq = sq; 在接收过程中wq = wq;

complete queue（cq）: 完成队列，cq用于告诉用户wq上的消息已经被处理完成；

work request(wr）：传输请求，wr描述了应用希望传输到channel对端的消息内容，在wq中转化为 wqe 格式的信息；

参考链接:

保持更新，资源来源于对网上资料总结，如果对您有帮助，请关注 cnblogs.com/xuyaowen .

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

linux系统怎么使用alias创建命令别名?

linux系统怎么使用alias创建命令别名？linux系统中有很多命令，今天我们就来看看alias命令的使用方法，详细请看下文介绍... 20-02-13 [阅读全文]
linux怎么快速创建创建一次性的计划任务?

linux怎么快速创建创建一次性的计划任务？linux系统总想要创建一次性任务，该怎么创建呢？下面我们就来看看详细的教程，需要的朋友可以参考下... 20-02... [阅读全文]
linux下文本编辑器vim的使用方法(复制、粘贴、替换、行号、撤销、多文件操作)

这篇文章主要介绍了linux下文本编辑器vim的使用方法，包括复制、粘贴、替换、行号、撤销、多文件操作,需要的朋友可以参考下... 20-02-16 [阅读全文]
Linux虚拟机怎么拍摄快照并管理?

Linux虚拟机怎么拍摄快照并管理？安装Linux虚拟机后，想要将操作步骤保存成快照，并管理，该怎么实现呢？下面我们就来看看详细的教程，需要的朋友可以参考下..... [阅读全文]
linux中crontab计划任务怎么删除?

linux中crontab计划任务怎么删除？linux中想要删除crontab计划任务，该怎么删除呢？下面我们就来看看详细的教程，需要的朋友可以参考下... 2... [阅读全文]
linux系统比windows系统声音小怎么办?

linux系统比windows系统声音小怎么办？电脑安装linux系统后，发现比windows系统的声音小，想要将声音变大，该怎么办呢？下面我们就来看看详细的教... [阅读全文]
linux怎么查看防火墙是否开启并清除防火墙规则?

linux怎么查看防火墙是否开启并清除防火墙规则？linux系统想要看看有没有开启防火墙，怎么删除防火墙规则？下面我们就来看看详细的教程，需要的朋友可以参考下.... [阅读全文]
centos7搭建wordpress博客

安装apache 启动apache 设置apache开机自启访问公网地址检测apache是否正常安装MySQL数据库启动MySQL数据库查看My... [阅读全文]
linux命令行,gcc,g++零基础

【上手由易到难，推荐wsl,虚拟机】 1、tdm gcc, mingw(dev c++) 2、wsl(Windows Subsystem for Lin... [阅读全文]
自动化运维工具Ansible之Roles测验详解

Ansible Roles 详解与实战案例主机规划添加用户账号说明： 1、运维人员使用的登录账号； 2、所有的业务都放在 /app/ 下「yu... [阅读全文]

网友评论


验证码：

RDMA 相关 简要摘录

2019年08月31日 | 移动技术网科技 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论

RDMA 相关简要摘录