当前位置：移动技术网 > IT编程>开发语言>C/C++ > DirectX11 With Windows SDK--20 硬件实例化与视锥体裁剪

DirectX11 With Windows SDK--20 硬件实例化与视锥体裁剪

2018年09月26日 | 移动技术网IT编程 | 我要评论

qq猎鹰乐园,欧美伦理,妮可基德曼身高

前言

这一章将了解如何在directx 11利用硬件实例化技术高效地绘制重复的物体，以及使用视锥体裁剪技术提前将位于视锥体外的物体进行排除。

在此之前需要额外了解的章节如下：

章节回顾
18 使用directxcollision库进行碰撞检测
19 模型加载：obj格式的读取及使用二进制文件提升读取效率

github项目源码

硬件实例化(hardware instancing)

硬件实例化指的是在场景中绘制同一个物体多次，但是是以不同的位置、旋转、缩放、材质以及纹理来绘制(比如一棵树可能会被多次使用以构建出一片森林)。在以前，每次实例绘制(draw方法)都会引发一次顶点缓冲区和索引缓冲区经过输入装配阶段传递进渲染管线中，大量重复的绘制则意味着多次反复的输入装配操作，会引发十分庞大的性能开销。事实上在绘制同样物体的时候顶点缓冲区和索引缓冲区应当只需要传递一次，然后真正需要多次传递的也应该是像世界矩阵、材质、纹理等这些可能会经常变化的数据。

要能够实现上面的这种操作，还需要图形库底层api本身能够支持按对象绘制。对于每个对象，我们必须设置它们各自的材质、世界矩阵等，然后才是调用绘制命令。尽管在direct3d 10和后续的版本已经将原本direct3d 9的一些api重新设计以尽可能最小化性能上的开销，部分多余的开销仍然存在。因此，direct3d提供了一种机制，不需要通过api上的额外性能开销来实现实例化，我们称之为硬件实例化。

为什么要担忧api性能开销呢？direct3d 9应用程序通常因为api导致在cpu上遇到瓶颈，而不是在gpu。以前关卡设计师喜欢使用单一材质和纹理来绘制许多对象，因为对于它们来说需要经常去单独改变它的状态并且去调用绘制。场景将会被限制在几千次的调用绘制以维持实时渲染的速度，主要在于这里的每次api调用都会引起高级别的cpu性能开销。现在图形引擎可以使用批处理技术以最小化绘制调用的次数。硬件实例化是api帮助执行批处理的一个方面。

顶点着色器

硬件实例化需要在输入装配阶段额外提供以二进制数据流表示的实例数据才能工作，而不仅仅是提供顶点/索引数据。然后我们将通过调用对应的draw命令来告诉硬件需要绘制这个网格模型多少次，即绘制多少个这样的实例。对应顶点着色器来说，可以同时接受来自顶点信息和实例信息的数据作为输入：

struct instanceposnormaltex
{
    float3 posl : position;
    float3 normall : normal;
    float2 tex : texcoord;
    row_major matrix world : world;
    row_major matrix worldinvtranspose : worldinvtranspose;
};

其中前面三项数据来自顶点，后面两项数据则是来自一个实例，因为对于一个实例来说，在绘制的时候它的世界矩阵是不会发生变化的。

输出的结构体和以前一样：

struct vertexposhwnormaltex
{
    float4 posh : sv_position;
    float3 posw : position;  // 在世界中的位置
    float3 normalw : normal; // 法向量在世界中的方向
    float2 tex : texcoord;
};

顶点着色器代码变化如下：

vertexposhwnormaltex vs(instanceposnormaltex pin)
{
    vertexposhwnormaltex pout;
    
    row_major matrix viewproj = mul(gview, gproj);
    
    pout.posw = mul(float4(pin.posl, 1.0f), pin.world).xyz;
    pout.posh = mul(float4(pout.posw, 1.0f), viewproj);
    pout.normalw = mul(pin.normall, (float3x3) pin.worldinvtranspose);
    pout.tex = pin.tex;
    return pout;
}

至于像素着色器，和上一章为模型所使用的着色器的保持一致。

实例id

系统值sv_instanceid可以告诉我们当前进行绘制的顶点来自哪个实例。通常在绘制n个实例的情况下，第一个实例的索引值为0，一直到最后一个实例索引值为n - 1.它可以应用在需要个性化的地方，比如使用一个纹理数组，然后不同的索引去映射到对应的纹理，以绘制出网格模型相同，但纹理不一致的物体。

流式实例化数据

和之前顶点着色器的做法一样，我们需要使用d3d11_input_element_desc来描述实例的字节流对应的元素信息：

 typedef struct d3d11_input_element_desc
 {
    lpcstr semanticname;    // 语义名
    uint semanticindex;     // 语义名对应的索引值
    dxgi_format format;     // dxgi数据格式
    uint inputslot;         // 输入槽
    uint alignedbyteoffset; // 对齐的字节偏移量
    d3d11_input_classification inputslotclass;  // 输入槽类别(顶点/实例)
    uint instancedatasteprate;  // 实例数据步进值
 }  d3d11_input_element_desc;

最后两个成员与实例所有联系：
1.inputslotclass:指定输入的元素是作为顶点元素还是实例元素。枚举值含义如下：

枚举值	含义
d3d11_input_per_vertex_data	作为顶点元素
d3d11_input_per_instance_data	作为实例元素

2.instancedatasteprate:指定每份实例数据绘制出多少个实例。例如，假如你想绘制6个实例，但提供了只够绘制3个实例的数据，1份实例数据绘制出1种颜色，分别为红、绿、蓝。那么我们可以设置该成员的值为2，使得前两个实例绘制成红色，中间两个实例绘制成绿色，后两个实例绘制成蓝色。通常在绘制实例的时候我们会将该成员的值设为1，保证1份数据绘制出1个实例。对于顶点成员来说，设置该成员的值为0.

对于前面的结构体instanceposnormaltex，与之对应的输入成员描述数组如下：

d3d11_input_element_desc basicinstlayout[] = {
    { "position", 0, dxgi_format_r32g32b32_float, 0, 0, d3d11_input_per_vertex_data, 0 },
    { "normal", 0, dxgi_format_r32g32b32_float, 0, 12, d3d11_input_per_vertex_data, 0 },
    { "texcoord", 0, dxgi_format_r32g32_float, 0, 24, d3d11_input_per_vertex_data, 0 },
    { "world", 0, dxgi_format_r32g32b32a32_float, 1, 0, d3d11_input_per_instance_data, 1},
    { "world", 1, dxgi_format_r32g32b32a32_float, 1, 16, d3d11_input_per_instance_data, 1},
    { "world", 2, dxgi_format_r32g32b32a32_float, 1, 32, d3d11_input_per_instance_data, 1},
    { "world", 3, dxgi_format_r32g32b32a32_float, 1, 48, d3d11_input_per_instance_data, 1},
    { "worldinvtranspose", 0, dxgi_format_r32g32b32a32_float, 1, 64, d3d11_input_per_instance_data, 1},
    { "worldinvtranspose", 1, dxgi_format_r32g32b32a32_float, 1, 80, d3d11_input_per_instance_data, 1},
    { "worldinvtranspose", 2, dxgi_format_r32g32b32a32_float, 1, 96, d3d11_input_per_instance_data, 1},
    { "worldinvtranspose", 3, dxgi_format_r32g32b32a32_float, 1, 112, d3d11_input_per_instance_data, 1}
};

因为dxgi_format一次最多仅能够表达128位(16字节)数据，在对应矩阵的语义时，需要重复描述4次，区别在于语义索引为0-3.

除此之外，观察到有关顶点的数据占用输入槽0，而实例数据占用的则是输入槽1.这样就需要我们使用两个缓冲区以提供给输入装配阶段。第一个作为顶点缓冲区，而第二个作为实例缓冲区以存放有关实例的数据。

struct vertexposnormalcolor
{
    directx::xmfloat3 pos;
    directx::xmfloat3 normal;
    directx::xmfloat4 color;
    static const d3d11_input_element_desc inputlayout[3];
};

struct instanceddata
{
    xmmatrix world;
    xmmatrix worldinvtranspose;
};


// ...
uint strides[2] = { sizeof(vertexposnormaltex), sizeof(instanceddata) };
uint offsets[2] = { 0, 0 };
id3d11buffer * buffers[2] = { vertexbuffer.get(), minstancedbuffer.get() };

// 设置顶点/索引缓冲区
devicecontext->iasetvertexbuffers(0, 2, buffers, strides, offsets);
devicecontext->iasetinputlayout(instanceposnormaltexlayout.get());

绘制实例数据

id3d11devicecontext::drawindexedinstanced方法--带索引数组的实例绘制

通常我们使用id3d11devicecontext::drawindexedinstanced方法来绘制实例数据：

void id3d11devicecontext::drawindexedinstanced(
    uint indexcountperinstance,     // [in]每个实例绘制要用到的索引数目
    uint instancecount,             // [in]绘制的实例数目
    uint startindexlocation,        // [in]起始索引偏移值
    int basevertexlocation,         // [in]起始顶点偏移值
    uint startinstancelocation      // [in]起始实例偏移值
);

下面是一个调用示例：

devicecontext->drawindexedinstanced(part.indexcount, numinsts, 0, 0, 0);

id3d11devicecontext::drawinstanced方法--实例绘制

若没有索引数组，也可以用id3d11devicecontext::drawinstanced方法来进行绘制

void id3d11devicecontext::drawinstanced(
    uint vertexcountperinstance,    // [in]每个实例绘制要用到的顶点数目
    uint instancecount,             // [in]绘制的实例数目
    uint startvertexlocation,       // [in]起始顶点偏移值
    uint startinstancelocation      // [in]起始实例偏移值
);

实例缓冲区的创建

和之前创建顶点/索引缓冲区的方式一样，我们需要创建一个id3d11buffer，只不过在缓冲区描述中，我们需要将其指定为动态缓冲区(即d3d11_bind_vertex_buffer)，并且要指定d3d11_cpu_access_write。

// 设置实例缓冲区描述
d3d11_buffer_desc vbd;
zeromemory(&vbd, sizeof(vbd));
vbd.usage = d3d11_usage_dynamic;
vbd.bytewidth = count * (uint)sizeof(xmmatrix) * 2;
vbd.bindflags = d3d11_bind_vertex_buffer;
vbd.cpuaccessflags = d3d11_cpu_access_write;
// 新建实例缓冲区
hr(device->createbuffer(&vbd, nullptr, minstancedbuffer.releaseandgetaddressof()));

要注意这里bytewidth每个实例使用两个矩阵，一个世界矩阵，一个是世界矩阵求逆后的转置。

因为我们不需要访问里面的数据，因此不用添加d3d11_cpu_access_read标记。

实例缓冲区数据的修改

若需要修改实例缓冲区的内容，则需要使用id3d11devicecontext::map方法将其映射到cpu内存当中。对于使用了d3d11_usage_dynamic标签的动态缓冲区来说，在更新的时候只能使用d3d11_map_write_discard标签，而不能使用d3d11_map_write或者d3d11_map_read_write标签。

将需要提交上去的实例数据存放到映射好的cpu内存区间后，使用id3d11devicecontext::unmap方法将实例数据更新到显存中以应用。

d3d11_mapped_subresource mappeddata;
hr(devicecontext->map(minstancedbuffer.get(), 0, d3d11_map_write_discard, 0, &mappeddata));
instanceddata * iter = reinterpret_cast<instanceddata *>(mappeddata.pdata);
// 省略写入细节...

devicecontext->unmap(minstancedbuffer.get(), 0);

视锥体裁剪

在前面的所有章节中，顶点的抛弃通常发生在光栅化阶段。这意味着如果一份模型数据的所有顶点在经过矩阵变换后都不会落在屏幕区域内的话，这些顶点数据将会经历顶点着色阶段，可能会经过曲面细分阶段和几何着色阶段，然后在光栅化阶段的时候才抛弃。让这些不会被绘制的顶点还要走过这么漫长的阶段才被抛弃，可以说是一种非常低效的行为。

视锥体裁剪，就是在将这些模型的相关数据提交给渲染管线之前，生成一个包围盒，与摄像机观察空间的视锥体进行碰撞检测。若为相交或者包含，则说明该模型对象是可见的，需要被绘制出来，反之则应当拒绝对该对象的绘制调用，或者不传入该实例对象相关的数据。这样做可以节省gpu资源以避免大量对不可见对象的绘制，对cpu的性能开销也不大。

可以说，若一个场景中的模型数目越多，或者视锥体的可视范围越小，那么视锥体裁剪的效益越大。

查看上图，可以知道的是物体a和d没有与视锥体发生碰撞，因此需要排除掉物体a的实例数据。而物体b和e与视锥体有相交，物体c则被视锥体所包含，这三个物体的实例数据都应当传递给实例缓冲区。

视锥体裁剪有三种等价的代码表现形式。需要已知当前物体的包围盒、世界变换矩阵、观察矩阵和投影矩阵。其中投影矩阵本身可以构造出视锥体包围盒。

下面有关视锥体裁剪的方法都放进了collision.h中。

方法1

现在已知物体的包围盒位于自身的局部坐标系，我们可以使用世界变换矩阵将其变换到世界空间中。同样，由投影矩阵构造出来的视锥体包围盒也位于自身局部坐标系中，而观察矩阵实质上是从世界矩阵变换到视锥体所处的局部坐标系中。因此，我们可以使用观察矩阵的逆矩阵，将视锥体包围盒也变换到世界空间中。这样就好似物体与视锥体都位于世界空间中，可以进行碰撞检测了：

std::vector<xmmatrix> xm_callconv collision::frustumculling(
    const std::vector<xmmatrix>& matrices,const boundingbox& localbox, fxmmatrix view, cxmmatrix proj)
{
    std::vector<directx::xmmatrix> accepteddata;

    boundingfrustum frustum;
    boundingfrustum::createfrommatrix(frustum, proj);
    xmmatrix invview = xmmatrixinverse(nullptr, view);
    // 将视锥体从局部坐标系变换到世界坐标系中
    frustum.transform(frustum, invview);

    boundingorientedbox localorientedbox, orientedbox;
    boundingorientedbox::createfromboundingbox(localorientedbox, localbox);
    for (auto& mat : matrices)
    {
        // 将有向包围盒从局部坐标系变换到世界坐标系中
        localorientedbox.transform(orientedbox, mat);
        // 相交检测
        if (frustum.intersects(orientedbox))
            accepteddata.push_back(mat);
    }

    return accepteddata;
}

方法2

该方法对应的正是龙书中所使用的裁剪方法，基本思路为：分别对观察矩阵和世界变换矩阵求逆，然后使用观察逆矩阵将视锥体从自身坐标系搬移到世界坐标系，再使用世界变换的逆矩阵将其从世界坐标系搬移到物体自身坐标系来与物体进行碰撞检测。改良龙书的碰撞检测代码如下：

std::vector<directx::xmmatrix> xm_callconv collision::frustumculling2(
    const std::vector<directx::xmmatrix>& matrices,const directx::boundingbox& localbox, directx::fxmmatrix view, directx::cxmmatrix proj)
{
    std::vector<directx::xmmatrix> accepteddata;

    boundingfrustum frustum, localfrustum;
    boundingfrustum::createfrommatrix(frustum, proj);
    xmmatrix invview = xmmatrixinverse(nullptr, view);
    for (auto& mat : matrices)
    {
        xmmatrix invworld = xmmatrixinverse(nullptr, mat);

        // 将视锥体从观察坐标系(或局部坐标系)变换到物体所在的局部坐标系中
        frustum.transform(localfrustum, invview * invworld);
        // 相交检测
        if (localfrustum.intersects(localbox))
            accepteddata.push_back(mat);
    }

    return accepteddata;
}

方法3

这个方法理解起来也比较简单，直接将物体先用世界变换矩阵从物体自身坐标系搬移到世界坐标系，然后用观察矩阵将其搬移到视锥体自身的局部坐标系来与视锥体进行碰撞检测。代码如下：

std::vector<directx::xmmatrix> xm_callconv collision::frustumculling3(
    const std::vector<directx::xmmatrix>& matrices,const directx::boundingbox& localbox, directx::fxmmatrix view, directx::cxmmatrix proj)
{
    std::vector<directx::xmmatrix> accepteddata;

    boundingfrustum frustum;
    boundingfrustum::createfrommatrix(frustum, proj);

    boundingorientedbox localorientedbox, orientedbox;
    
    boundingorientedbox::createfromboundingbox(localorientedbox, localbox);
    for (auto& mat : matrices)
    {
        // 将有向包围盒从局部坐标系变换到视锥体所在的局部坐标系(观察坐标系)中
        localorientedbox.transform(orientedbox, mat * view);
        // 相交检测
        if (frustum.intersects(orientedbox))
            accepteddata.push_back(mat);
    }

    return accepteddata;
}

这三种方法的裁剪表现效果是一致的。

c++代码实现

gameapp::createrandomtrees方法--创建大量随机位置和方向的树

该方法创建了树的模型，并以随机的方式在一个大范围的圆形区域中生成了225棵树，即225个实例的数据（世界矩阵）。其中该圆形区域被划分成16个扇形区域，每个扇形划分成4个面，距离中心越远的扇面生成的树越多。

void gameapp::createrandomtrees()
{
    // 初始化树
    mobjreader.read(l"model\\tree.mbo", l"model\\tree.obj");
    mtrees.setmodel(model(md3ddevice, mobjreader));
    xmmatrix s = xmmatrixscaling(0.015f, 0.015f, 0.015f);
    
    boundingbox treebox = mtrees.getlocalboundingbox();
    // 获取树包围盒顶点
    mtreeboxdata = collision::createboundingbox(treebox, xmfloat4(1.0f, 1.0f, 1.0f, 1.0f));
    // 让树木底部紧贴地面位于y = -2的平面
    treebox.transform(treebox, s);
    xmmatrix t0 = xmmatrixtranslation(0.0f, -(treebox.center.y - treebox.extents.y + 2.0f), 0.0f);
    // 随机生成256颗随机朝向的树
    float theta = 0.0f;
    for (int i = 0; i < 16; ++i)
    {
        // 取5-125的半径放置随机的树
        for (int j = 0; j < 4; ++j)
        {
            // 距离越远，树木越多
            for (int k = 0; k < 2 * j + 1; ++k)
            {
                float radius = (float)(rand() % 30 + 30 * j + 5);
                float randomrad = rand() % 256 / 256.0f * xm_2pi / 16;
                xmmatrix t1 = xmmatrixtranslation(radius * cosf(theta + randomrad), 0.0f, radius * sinf(theta + randomrad));
                xmmatrix r = xmmatrixrotationy(rand() % 256 / 256.0f * xm_2pi);
                xmmatrix world = s * r * t0 * t1;
                minstanceddata.push_back(world);
            }
        }
        theta += xm_2pi / 16;
    }
}

gameobject::resizebuffer方法--重新调整实例缓冲区的大小

若实例缓冲区的大小容不下当前增长的实例数据，则需要销毁原来的实例缓冲区，并重新创建一个更大的，以确保刚好能容得下之前的大量实例数据。

void gameobject::resizebuffer(comptr<id3d11device> device, size_t count)
{
    // 设置实例缓冲区描述
    d3d11_buffer_desc vbd;
    zeromemory(&vbd, sizeof(vbd));
    vbd.usage = d3d11_usage_dynamic;
    vbd.bytewidth = count * (uint)sizeof(xmmatrix) * 2;
    vbd.bindflags = d3d11_bind_vertex_buffer;
    vbd.cpuaccessflags = d3d11_cpu_access_write;
    // 创建实例缓冲区
    hr(device->createbuffer(&vbd, nullptr, minstancedbuffer.releaseandgetaddressof()));
}

gameobject::drawinstanced方法--绘制游戏对象的多个实例

该方法接受一个装满世界矩阵的数组，把数据装填进实例缓冲区（若容量不够则重新扩容），然后交给设备上下文进行实例的绘制

void gameobject::drawinstanced(comptr<id3d11devicecontext> devicecontext, basicfx & effect, const std::vector<directx::xmmatrix>& data)
{
    std::vector<xmmatrix> accepteddata;
    d3d11_mapped_subresource mappeddata;
    uint numinsts = (uint)data.size();
    // 若传入的数据比实例缓冲区还大，需要重新分配
    if (numinsts > mcapacity)
    {
        comptr<id3d11device> device;
        devicecontext->getdevice(device.getaddressof());
        resizebuffer(device, numinsts);
    }

    hr(devicecontext->map(minstancedbuffer.get(), 0, d3d11_map_write_discard, 0, &mappeddata));

    instanceddata * iter = reinterpret_cast<instanceddata *>(mappeddata.pdata);
    xmmatrix worldinvtranspose;
    for (auto& mat : data)
    {
        worldinvtranspose = xmmatrixtranspose(xmmatrixinverse(nullptr, mat));
        iter->world = mat;
        iter->worldinvtranspose = worldinvtranspose;
        iter++;
    }

    devicecontext->unmap(minstancedbuffer.get(), 0);

    uint strides[2] = { sizeof(vertexposnormaltex), sizeof(instanceddata) };
    uint offsets[2] = { 0, 0 };
    id3d11buffer * buffers[2] = { nullptr, minstancedbuffer.get() };
    for (auto& part : mmodel.modelparts)
    {
        buffers[0] = part.vertexbuffer.get();

        // 设置顶点/索引缓冲区
        devicecontext->iasetvertexbuffers(0, 2, buffers, strides, offsets);
        devicecontext->iasetindexbuffer(part.indexbuffer.get(), part.indexformat, 0);

        // 更新数据并应用
        effect.settextureambient(part.texa);
        effect.settexturediffuse(part.texd);
        effect.setmaterial(part.material);
        effect.apply(devicecontext);

        devicecontext->drawindexedinstanced(part.indexcount, numinsts, 0, 0, 0);
    }
}

剩余的代码都可以在github项目中浏览。

效果展示

该项目展示了一个同时存在225棵树的场景，用户可以自行设置开启/关闭视锥体裁剪或硬件实例化。若关闭硬件实例化，则是对每个对象单独调用绘制命令。