当前位置：移动技术网 > IT编程>开发语言>C/C++ > CUDA 动态编译（NVRTC）简记

CUDA 动态编译（NVRTC）简记

2018年11月20日 | 移动技术网IT编程 | 我要评论

火影386,报考公务员网站,开封九一八大案

　在linux上用sublime text 3上写完cuda代码和c++代码后，想用code::blocks去一并编译，就像visual studio那样一键编译运行，但发现在code::blocks上设定自定义编译器为nvcc时比较麻烦，所以想到了用nvrtc。

nvrtc中的rtc是runtime compile的意思，在visual studio（vs）里的一键编译其实是vs编译器替你干了很多底层的脏活，但到了linux，这些脏活就都得程序员来做了。。。

一、这些脏活都是什么呢？

1）vs把你的所有代码整理起来，并分类，用于在gpu里执行的device设备端代码，送往nvcc.exe里进行编译；用于在cpu里执行的host端代码，用vs自家的cl.exe编译

2）在最后的链接过程，vs把上面两个部分编译出的二进制代码融在一起成为一个exe。

二、那nvrtc能干啥呢？

1）nvrtc可以将原始的c++语法的cuda代码，编译成ptx文件，ptx就是parallel thread execution的缩写，一个ptx文件其实就跟txt差不多，用windows自带的记事本就能打开，打开之后会看到一堆类似汇编语法格式的东西，这个就是nvrtc根据我们的cuda源文件编译出的能在gpu上执行的代码，但是ptx代码和真正的gpu汇编还是有轻微的区别，但是区别很小，程序员可以通过查看编译出的ptx文件，窥知nvrtc编译器在编译的时候为我们的源码做了什么优化（举个简单的例子：比如浮点数a，b，c，当计算a*b+c这种线性运算的时候，一般都是先算a*b，再把结果与c相加，但是在ptx代码里会发现编译器直接用一个fmad指令，一次用硬件完成了浮点数的乘加操作）。

2）将上述过程产生的ptx文件，通过n卡driver api送入显卡直接执行。

三、为啥要用nvrtc？上面的nvcc不就够用了吗？

1）因为在linux里设定nvcc编译环境比较麻烦，有坑，而通过上面的对于nvrtc的叙述，我们发现整个编译过程如果利用nvrtc的话会很简单，坑少。

2）而且不用我们在编译器里设定nvcc编译环境了。

四、前提条件：

1）首先，要装一块n卡。（这句好像是废话......）

2）为这块显卡装合适的驱动。

（ps：linux装显卡驱动很麻烦，最好是一装完系统就装显卡驱动，然后再安装其它的那些软件，我一开始没经验，装了ubuntu后直接开装一堆软件，到最后想起要装显卡驱动的时候各种报错，实在没办法了只能重装系统，重装系统的时候选择不安装默认的nouveau显卡驱动。还有就是显卡驱动不要装太新版本的，装完一遍之后更新的时候也要小心，以免搞坏了连登录界面都进不去......）

3）装完显卡驱动后，再安装cuda toolkit，这里的坑没有上面多，但也要小心。

五、过程：

1）在一般的文本编辑器上写完c++和配套的cuda代码后，利用nvrtc将gpu代码编译成ptx。

2）利用gcc或者mingw（其它的也行）把在cpu端的代码编译成obj，链接成exe。（cpu端的代码里自然就会有利用driver api加载ptx代码的东西，以及一些kernel核函数调用时参数设置的东西）

3）测试你的程序是不是运行正常。

六、结果：

我在自己的机器上试了试上面的过程，能跑通，而且经上面的步骤，gpu代码也支持cuda纹理对象（cuda_texture_object），可以对cudatextureobject_t类型的对象进行纹理寻址。

七、存在的疑问：

1）六中，我测试了一下随机显存访问的性能，一个利用纹理对象，另一个利用平时的显存访问，结果显存访问比纹理拾取反而要快一倍（前者9us，后者16us），暂时不知道这是为啥。

2）网上有人说利用nvrtc编译出的ptx代码要比用nvcc编译器编译出的代码效率低，但是官方文档上是这么写的：

　　上面图片的意思是说nvrtc可以提供静态编译（nvcc）所不能提供的代码优化，也就是说官网上暗示nvrtc要比nvcc要快。

　　具体哪个对我现在暂时没做过实验。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

C++ 作用域

作用域：名称在翻译单元（包括文件）的可见范围局部：只在定义它的代码块中可用，如自动变量全局（文件作用域）：从定义位置到文件结尾都可用注意：静... [阅读全文]
Prim计算最小生成树权值 C语言

题目描述现在，你被委托在一个广阔区域里面为某些确定的结点设计连接网络。首先，你会给定在区域里面的一系列结点，和连接这些结点的一组线路。对于每条可能使用... [阅读全文]
C打印楼梯，同时在楼梯上方打印两个笑脸

题目：打印楼梯，同时在楼梯上方打印两个笑脸。程序分析：用 ASCII 1 来输出笑脸；用i控制行，j来控制列，j根据i的变化来控制输出黑方格的个数。 ... [阅读全文]
算法笔记刷题6 ( PAT 1003我要通过 )

算法笔记刷题6 ( PAT1003我要通过 ) 题目本体 “ 答案正确 ”是自动判题系统给出的最令人欢喜的回复。本题属于 PAT 的“ 答案正确 ”大派... [阅读全文]
聚合类型与POD类型

Lippman在《深度探索C++对象模型》的前言中写道： I have heard a number of people over the years ... [阅读全文]
GetAsyncKeyState 获取键盘按键消息

1 #include <Windows.h> 2 #include <iostream> 3 using namespace s... [阅读全文]
c primer plus(中文版)第一章的一处错误

c primer plus(中文版)1.8.8 第三段第三段第一句：“UNIX系统内置Mac OS X”。这句话讲不通，UNIX系统内置MAC OS ... [阅读全文]
如何在没有core文件的情况下用dmesg+addr2line定位段错误

前言在现网环境下，程序奔溃后不一定会留下core文件，原因有很多，比如存储空间不足就是其中一个常见的原因。此时我们只能依据linux记录的错误日志来定位... [阅读全文]
用QT制作3D点云显示器——QtDataVisualization

因为QT的三维显示模块QtDataVisualization已经对个人开发免费开放了，所以在制作点云，地图，表格之类的东西的时候，其实我们都不需要使用Q... [阅读全文]
判断一个数是否为素数（质数）

质数是指在大于1的自然数中，除了1和它本身以外不再有其他因数的自然数。 ... [阅读全文]

网友评论


验证码：

CUDA 动态编译（NVRTC）简记

2018年11月20日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论