文章目录

1. HFE
2. DOI

1. HFE

Hierarchical Feature Engineering，简写 HFE，包含四个阶段，分别是：

特征工程阶段（Feature engineering phase）
基于相关性的过滤阶段（Correlation-based filtering phase）
基于信息增益的过滤阶段（Information Gain based filtering phase）
基于信息增益的叶过滤阶段（IG-based leaf filtering phase）

1.1. Feature engineering phase

上图中，树结构共有 8 层。前七层是生物学的分类：界（Kingdom）、门（Phylum），纲（Class），目（Order）、科（Family）、属（Genus）和种（Species）。论文中额外在最底层增加了一层：OTU 层。

数据集中原有的特征向量表示为：

$(o^i_j)_{n \times m}= \begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m \\ o^2_1 & o^2_2 & \dots & o^2_m \\ \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m \\ \end{bmatrix}, i \in [1, 2, \dots, n], j \in [1, 2, \dots, m].$

将较高分类单元 $i_k$ 视为潜在特征，其相对丰度是自下而上的树遍历中各自孩子 $C$ 的相对丰度的累加和：

$o_{i_k} = \sum_{c \in C(i_k)} o_c.$

树结构中的某个非叶子节点，是一个具有较高层次的潜在特征，我们将其记为 $i_k$ ，它的孩子节点的集合记为 $C(i_k)$ ，则按照公式计算 $i_k$ 的相对丰度 $o_{i_k}$ ：

$o_{i_k} = \begin{bmatrix} o^1_{i_k} \\ o^2_{i_k} \\ \dots \\ o^n_{i_k} \\ \end{bmatrix} = \begin{bmatrix} \sum_{c \in C(i_k)} o^1_c \\ \sum_{c \in C(i_k)} o^2_c \\ \dots \\ \sum_{c \in C(i_k)} o^n_c \\ \end{bmatrix}.$

所有较高层次的潜在特征，组成一个内部节点的特征集合，表示如下：
$\begin{bmatrix} o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots \\ o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix}$

原始特征和内部节点衍生出来的特征，共同构成扩展特征向量，其表示形式如下所示：
$\begin{bmatrix} o^1_1 & o^1_2 & \dots & o^1_m & o^1_{i_1} & o^1_{i_2} & \dots & o^1_{i_{\overline{m}}} \\ o^2_1 & o^2_2 & \dots & o^2_m & o^2_{i_1} & o^2_{i_2} & \dots & o^2_{i_{\overline{m}}} \\ \dots & \dots & \dots & \dots & \dots & \dots & \dots & \dots \\ o^n_1 & o^n_2 & \dots & o^n_m & o^n_{i_1} & o^n_{i_2} & \dots & o^n_{i_{\overline{m}}} \\ \end{bmatrix}$

1.2. Correlation-based filtering phase

在这里插入图片描述
对于层级中每对 “父亲-孩子”，皮尔逊相关系数（Pearson correlation coefficient） $\rho$ 是父亲节点和孩子节点的一组向量计算出来的。
如果 $\rho$ 比预定义的阈值 $\theta_{p}$ 大，那么移除孩子节点；否则保留孩子节点作为层级结构的一部分。

$\text{operation} = \begin{cases} \text{remove}, \text{ if } \rho > \theta_{p}; \\ \text{retain}, \text{ otherwise.} \end{cases}$

对于任意的非叶子节点 $i_k$ ，它的孩子节点集合是 $C(i_k)$ ，则

$\forall i_k, c \in C(i_k)$ ,
$\text{operation } = \begin{cases} \text{remove } c, \text{ if } \rho(i_k, c) > \theta_{p}; \\ \text{retain } c, \text{ otherwise.} \end{cases}$

1.3. Information Gain ( $I G$ ) based filtering phase

在这里插入图片描述

根据上一阶段保留的节点，从叶子到根（即每个 OTU 的世系）构建所有路径。

对每条路径而言，计算路径上每个节点关于标签/类别 $L$ 的 $I G$ 。

平均 $I G$ 作为阈值 $\theta$ ，用于丢弃具有较小 $I G$ 值或者零值的节点。

需要注意的是，具有不完整路径上的叶子节点不参与这一步，这些叶子节点将在 1.4. 中处理。

公式表示如下：
$\theta_{ig} = \frac{\sum_{p \in P} IG(o_p, L)}{\left| P \right|}$

$\forall c \text{ in a complete leaf-root path } P \text{ in } T$ ,

$\text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_c, L) < \theta_{ig}; \\ \text{ retain } c, \text{ otherwise.} \end{cases}$

1.4. $I G$ -based leaf filtering phase

为了处理 OTUs 中完整的分类信息，
在这里插入图片描述
对于那些具有不完整分类信息的 OTU（路径不完整： incomplete paths），如果它的 $I G$ 大于 1.3. 中完整路径中所有节点的全局平均 $I G$ 值，那么保留该节点；否则，丢弃该节点。

用公式表示：

$\theta_{t} = \frac{\sum_{c \in T} IG(o_c, L)}{\left| T \right|}.$

$\text{operation } = \begin{cases} \text{ remove } c, \text{ if } IG(o_i, L) < \theta_{t}; \\ \text{ retain } c, \text{ otherwise.} \end{cases}$

2. DOI

https://doi.org/10.1186/s12859-018-2205-3

本文地址：https://blog.csdn.net/PursueLuo/article/details/108754772

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

论文阅读报告：Taxonomy-aware feature engineering for microbiome classification，Mai Oudah and Andreas Hen

2020年09月24日 | 移动技术网IT编程 | 我要评论

文章目录

1. HFE

1.1. Feature engineering phase

1.2. Correlation-based filtering phase

1.3. Information Gain ( $I G$ ) based filtering phase

1.4. $I G$ -based leaf filtering phase

2. DOI

您可能感兴趣的文章:

相关文章:

网友评论


验证码：

论文阅读报告：Taxonomy-aware feature engineering for microbiome classification，Mai Oudah and Andreas Hen

2020年09月24日 | 移动技术网IT编程 | 我要评论

文章目录

1. HFE

1.1. Feature engineering phase

1.2. Correlation-based filtering phase

1.3. Information Gain ( I G IG IG) based filtering phase

1.4. I G IG IG-based leaf filtering phase

2. DOI

您可能感兴趣的文章:

相关文章:

网友评论

1.3. Information Gain ( $I G$ ) based filtering phase

1.4. $I G$ -based leaf filtering phase