密歇根大学周翔课题组讨论有关处理空间转录组技术中零计数的问题
空间转录组技术 (spatial transcriptomics technology)使我们能够利用空间定位信息对许多组织位置进行基因表达谱分析,从而能够表征空间组织结构。不同技术得到的空间转录组数据的分辨率也各有不同,低分辨率技术,例如spatial transcriptomics [1] 的每个空间直径约100 μm,包含大约10-40个细胞。高分辨率技术,例如Seq-Scope [2] 能够达到细胞甚至亚细胞水平。尽管技术各不相同,绝大多数基因表达数据中都含有大量的零计数。不同方法对于零计数的处理也不尽相同:使用标准化(normalize)后的数据、直接拟合原始数据(count data)或者数据填充(imputation)均有相应合理的解释。其中考虑最多的模型是泊松分布(Poisson model)以及考虑了零膨胀现象(zero inflation)或者过度离散现象(over dispersion)的泊松分布模型。由此引发的问题,是否需要用考虑零膨胀相关的模型来拟合大量的零计数。
为了讨论基因表达数据中对于零计数的处理,2022年5月18日,美国密歇根大学、生物统计系周翔副教授课题组(https://www.xzlab.org;博士研究生赵培瑶为第一作者)在Genome Biology杂志(IF =13.54)上发表方法研究型长文(Article):Modeling zero inflation is not necessary for spatial transcriptomics,讨论了空间转录组技术得到的基因表达数据中的零计数与零膨胀之间的关系,并给出零膨胀现象可能的解释。
文章对来自11种不同空间转录组技术的20个原始数据(Counts)进行分析来理解其分布特性,发现大多数基因都会存在大量零计数的情况。文章通过似然比检验定义了过度离散的基因(over-dispersed gene)和零膨胀基因(zero-inflated gene)并且发现两者重合率较高,因此提出过度离散现象(over dispersion)和零膨胀现象(zero inflation)只是描述大量零计数现象的两种说法。同时,文章中指出考虑了过度离散现象的负二项分布模型(negative binomial model)和考虑了零膨胀现象的零膨胀泊松回归模型(zero-inflated Poisson model) 都可以对数据中大量的零计数进行较好地拟合。其中,负二项分布模型可以同时解释零膨胀现象,反之则不成立。因此,大多数基因均可以用泊松模型和负二项分布模型进行拟合。文章也通过模型选择(model selection)证明了这一点。
通过进一步分析,文章提出过度离散现象和/或零膨胀现象主要由基因表达的异质性(heterogeneous)和组织位置中的细胞类型的分布所导致。文章通过对同质(homogeneous)的组织位置,即相同的细胞类型或是含有相同细胞构成的组织位置,进行分析或者在建模时考虑每个组织位置中不同细胞类型所占的比例(cell type proportion)发现,泊松模型大多数时候能够很好地拟合基因表达数据,即相较于不考虑细胞类型比例的所有的组织位置的基因表达,需要考虑过度离散现象和零膨胀现象的表达数据的基因所占比例减少。同时,通过似然比检验发现,过度离散的基因和零膨胀基因所占比例同样减少。
总之,本文较为全面地分析了当前11种空间转录组技术提出考虑过度离散现象即可解释基因表达数据中大量零计数现象。文中的数据及分析代码可从网站https://doi.org/10.5281/zenodo.6503597 下载。
参考文献:
1.Ståhl, P.L., et al., Visualization and analysis of gene expression in tissue sections by spatial transcriptomics. Science, 2016. 353(6294): p. 78.
2.Cho, C.S., et al., Microscopic examination of spatial transcriptome using Seq-Scope. Cell, 2021. 184(13): p. 3559-3572.e22.
Genome Biology
doi:10.1186/s13059-022-02684-0
点击此处阅读英文原文:Modeling zero inflation is not necessary for spatial transcriptomics
发布于 上海