查看“︁加权相关网络分析”︁的源代码
←
加权相关网络分析
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
[[File:WGCNA outline (russian).png|thumb|加权相关网络分析]] '''加权相关网络分析'''也称为'''加权基因共表达网络分析''',是一种广泛使用的[[数据挖掘]]方法,它用两两变量间[[皮尔逊积矩相关系数|相关系数]]研究[[生物网络]]。它适用于[[高维数据聚类|高维度]]数据集,在[[基因組學]]领域应用的最为广泛。 此分析假定基因网络服从[[无尺度分布]],定义基因共表达相关矩阵,计算生成[[邻接矩阵]],然后计算各个节点的相异系数,建立分层聚类树。此树不同分支代表不同的基因模块,模块内基因有较高的共表达水平,从中可以鉴定出枢纽基因。可通过基因网络与表型之间联系,最终找到表型的靶点基因、基因网络<ref>宋长新,雷萍,王婷. 基于WGCNA算法的基因共表达网络构建理论及其R软件实现[J]. 基因组学与应用生物学,2013,(01):135-141.</ref>。此分析还可以用于研究共表达模块之间的关系、比较不同网络的网络拓扑学(差异网络分析)。加权基因共表达网络分析可以进行数据提炼(与斜交[[因子分析]]相关)、[[聚类分析]](模糊聚类)、[[特征选择]]方法(比如,进行基因筛选)、综合互补(基因组)数据的框架(根据数量变量之间的加权相关性)和探索性数据分析。<ref name="Horvath2011" /> 虽然加权基因共表达网络分析结合了很多传统数据探索技术,易于理解的网络语言和分析框架使它优于任何标准的分析方法。由于使用网络方法,同时适合整合互补基因组的数据,它可认为是一种系统生物学或系统遗传数据的分析方法。加权基因共表达网络分析通过在相似的模块间选择模块间枢纽基因,也使基于网络的[[元分析]]技术成为可能<ref name="Langfelder2013" />。 == 历史 == 加权基因共表达网络分析方法是[[加州大学洛杉矶分校]]大卫·格芬医学院人类遗传学教授、[[加州大学洛杉矶分校]]菲尔丁公共卫生学院[[生物統計學]]教授Steve Horvath、他在加州大学洛杉矶分校的同事、实验室成员(主要有Peter Langfelder、Bin Zhang、Jun Dong)联合创立的。研究的很大部分是应用领域的研究者合作产生的。加权相关网络是与癌症研究者Paul Mischel、Stanley F. Nelson和神经科学家Daniel H. Geschwind、Michael C. Oldham的讨论后发明的(根据<ref name="Horvath2011"/>里的致谢章节)。存在很多关于依赖网络、自由尺度网络和共表达网络的研究文献{{citation needed|date=April 2014}}。 == 方法 == 第一,指定基因共表达相似性指标来定义网络。我们用<math>s_{ij}</math>表示基因i和j之间的基因共表达相似性。很多共表达研究都使用相关性的绝对值,作为无符号共表达相似指标, <math> s^{unsigned}_{ij}=|cor(x_i,x_j)|</math> 公式里,多个样本中基因表达量构成了基因表达谱<math>x_{i}</math>和<math>x_{j}</math>。然而,使用相关性的绝对值就不区分基因的抑制和激活,造成了生物学信息的损失。而在有符号网络中,基因之间的相似性表达了其表达谱的相关方向。为定义基因表达谱<math>x_{i}</math>和<math>x_{j}</math>之间一个有符号共表达指标,我们可以使用对相关性的简单转换: <math> s^{signed}_{ij}=0.5+0.5 cor(x_i,x_j)</math> 与无符号指标<math> s^{unsigned}_{ij}</math>一样,有符号相似性<math> s^{signed}_{ij}</math>取0和1之间的值。请注意,两个表达量相反的基因在无符号时等于1,有符号时等于0;两个表达量无相关性的基因,无符号时等于0,有符号时等于0.5。 下一步,使用邻接矩阵(网络)<math>A=[a_{ij}]</math>定量确定两个基因相互连接的程度。将共表达相似性矩阵<math> S = [s_{ij}] </math>设定阈值定义为<math>A</math>。对相似性指标<math>S</math>设立固定的阈值会将数据分为两组,生成无权重基因共表达网络。如果<math>s_{ij}>\tau </math>,无权重网络邻接矩阵设定为1,否则设定为0。因为设定固定的阈值会将基因连接分成两组,对阈值的选择较为敏感,造成共表达信息的损失<ref name="Zhang2005"/>。如果不设固定阈值,共表达信息连续的特性就得以保留。加权基因共表达网络分析使用以下的幂函数评估连接强度: <math display="inline"> a_{ij} = (s_{ij})^\beta </math>, 幂<math>\beta </math>是不固定阈值的参数。无符号和有符号网络分别使用<math> \beta=6 </math>和<math> \beta=12 </math>作为默认值。<math> \beta </math>也可以使用无尺度拓扑标准进行选择,即选择<math> \beta </math>可达成[[无尺度网络]]的最小值 <ref name="Zhang2005"/>。 由于<math> log (a_{ij}) = \beta log (s_{ij}) </math>,加权网络邻接矩阵与共表达相似矩阵线性的对数值相关。<math> \beta </math>取高值,会将高度相似性转换为高度邻接矩阵、低相似度推向0。由于这种应用于成对相关矩阵的不固定阈值的步骤会产生加权邻接矩阵,随后的分析称为加权基因共表达网络分析。 模块中心分析的重要一步是:用网络拓扑指标将基因集聚为网络模块。简单来说,一对基因如果相互连接,距离会較近。按照惯例,两个基因的距离在0到1之间。通常来说,加权基因共表达网络分析使用拓扑重叠指标作为距离<ref name="Ravasz2002"/><ref name="Yip2007"/>。 拓扑重叠指标将两个基因之间的邻接矩阵和两个基因与其他基因之间的连接强度混合,是网络相互连接性稳健的指标。将此指标输入平均连锁层级聚类。动态分支切割法生成的聚类结果中的分支,就成了模块<ref name="Langfelder2007"/>。之后,在特定模块内的基因与模块特征向量一起,可以被视为标准模块表达数据最好的总结<ref name="Horvath2008"/>。标准化表达谱的第一个主成分定义为模块特征向量。为了寻找与感兴趣的临床性状相关的模块,模块特征向量之后与其进行相关性比较,得出特征向量显著指标。人们可以在模块特征向量之间建立共表达网络,即以节点为模块的网络<ref name="Langfelder2007Eigengene"/>。 为了判断特定模块的模块间枢纽基因,可以使用两种连接指标。第一种称为<math>kME_i=cor(x_i,ME) </math>,是将基因与相关模块的特征向量进行相关定义的。第二种称为kIN,定义为邻接矩阵相关模块基因的和。实际运用中,两种指标是等同的<ref name="Horvath2008"/>。为了测试一个模块是否存在于另一个数据集,可以使用多种网络统计量,如<math>Zsummary</math><ref name="Langfelder2011"/>。 == 加权和未加权相关网络的比较 == 可以将加权相关网络理解成特殊形式的加权网络、依赖网络或者相关网络。加权相关网络分析由于以下几点,很具吸引力: *网络建设(基于对[[皮尔逊积矩相关系数]]设定不固定阈值)保留了背后相关信息的连续性特征。比如,根据数值变量的相关性建立的加权相关网络不需要选择固定阈值。设固定阈值将信息分为两组可能会导致信息削减<ref name="Zhang2005"/>。 *对于设定不同的不固定阈值,网络建设十分稳健<ref name="Zhang2005"/>。这与对称对相关性设定阈值的不加权网络的结果相反,其通常受阈值影响很大。 *可以根据相关性角度的解读对加权相关网络进行几何解读<ref name="Horvath2008"/>。 *算出的网络统计结果可以用来提升标准的数据挖掘方法(如聚类分析),因为相似性指标通常可转换为加权网络。<ref name="Oldham2012"/><ref name="Horvath2008"/> *加权基因共表达网络分析提供强大的模块保留统计量,可用来定量预测,在其他条件下能否找到的可能性。模块保留统计量允许研究者研究网络间模块结构的差别<ref name="Langfelder2011"/>。 *加权网络和相关网络可以由“可因子分解”网络近似计算<ref name="Horvath2008"/><ref name="Dong2007"/>。稀疏的、无权重的网络通常难以进行此种近似。因此,加权(相关)网络允许吝啬参数化(就模块和模块资格而言)<ref name="Horvath2011"/><ref name="Ranola2013"/>。 == 应用 == 加权基因共表达网络分析被广泛应用于在分析表达数据(即转录数据)。如,寻找模块间枢纽基因。<ref name="Langfelder2013"/><ref name="Horvath2006"/> 在系统遗传学应用中,此分析常用于数据提炼步骤,模块由“模块特征向量”表示<ref name="Chen2008"/><ref name="Plaisier2009"/>。可用模块特征向量将模块与临床性状相关联。特征向量网络是模块特征向量之间的共表达网络(即节点为模块的网络)。 神经科学应用加权基因共表达网络分析<ref name="Voineagu2011"/><ref name="Hawrylycz2012"/>,分析微阵列数据<ref>{{cite journal|url=http://pubs.rsc.org/en/Content/ArticleLanding/2011/MB/C0MB00190B|title=Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers|first1=Haja N.|last1=Kadarmideen|first2=Nathan S.|last2=Watson-Haigh|first3=Nicholas M.|last3=Andronicos|date=1 January 2011|publisher=|journal=Mol. BioSyst.|volume=7|issue=1|doi=10.1039/C0MB00190B|pages=235–246|access-date=2017-07-24|archive-date=2018-06-11|archive-url=https://web.archive.org/web/20180611124823/http://pubs.rsc.org/en/Content/ArticleLanding/2011/MB/C0MB00190B|dead-url=no}}</ref>、单细胞[[RNA测序]]数据<ref>{{cite journal|url=http://dx.doi.org/10.1186/1755-8794-7-57|title=Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model|first1=Lisette J. A.|last1=Kogelman|first2=Susanna|last2=Cirera|first3=Daria V.|last3=Zhernakova|first4=Merete|last4=Fredholm|first5=Lude|last5=Franke|first6=Haja N.|last6=Kadarmideen|date=1 January 2014|publisher=|journal=BMC Medical Genomics|volume=7|pages=57|via=BioMed Central|doi=10.1186/1755-8794-7-57|pmid=25270054|pmc=4183073}}</ref><ref name="Xue2013"/>、[[DNA甲基化]]数据<ref name="Horvath2012aging"/>、miRNA数据、肽计数<ref name="Shirasaki2012"/>、[[人类微生物组计划]]数据(16S rRNA基因序列)的基因组数据<ref name="Tong2013"/>。其他的应用包括:脑影像数据,如[[功能性磁共振成像]]数据<ref name="Mumford2010"/>。 == R软件包 == 加权基因共表达网络分析的[[R语言|R软件]]包<ref name="Langfelder2008"/>提供了加权网络分析所有功能(模块建立、节点基因选择、模块保存统计、差异网络分析、网络统计)的函数。可以通过CRAN下载加权基因共表达网络分析包。 == 参考资料 == {{reflist|2|refs= <ref name="Zhang2005">Zhang B, Horvath S (2005) A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology: Vol. 4: No. 1, Article 17 {{PMID|16646834}} [http://dibernardo.tigem.it/files/papers/2008/zhangbin-statappsgeneticsmolbio.pdf] {{Wayback|url=http://dibernardo.tigem.it/files/papers/2008/zhangbin-statappsgeneticsmolbio.pdf |date=20200928092935 }}</ref> <ref name="Horvath2006">{{cite journal | last1 = Horvath | first1 = S | last2 = Zhang | first2 = B | last3 = Carlson | first3 = M | last4 = Lu | first4 = KV | last5 = Zhu | first5 = S | last6 = Felciano | first6 = RM | last7 = Laurance | first7 = MF | last8 = Zhao | first8 = W | last9 = Shu | first9 = Q | last10 = Lee | first10 = Y | last11 = Scheck | first11 = AC | last12 = Liau | first12 = LM | last13 = Wu | first13 = H | last14 = Geschwind | first14 = DH | last15 = Febbo | first15 = PG | last16 = Kornblum | first16 = HI | last17 = Cloughesy | first17 = TF | last18 = Nelson | first18 = SF | last19 = Mischel | first19 = PS | year = 2006 | title = Analysis of Oncogenic Signaling Networks in Glioblastoma Identifies ASPM as a Novel Molecular Target | url = | journal = PNAS | volume = 103 | issue = 46| pages = 17402–17407 | doi=10.1073/pnas.0608396103}}</ref> <ref name="Dong2007">Dong J, Horvath S (2007) Understanding Network Concepts in Modules, BMC Systems Biology 2007, 1:24 {{PMID|17547772}} {{open access}}</ref><ref name="Horvath2008">{{cite journal | last1 = Horvath | first1 = S | last2 = Dong | first2 = J | year = 2008 | title = Geometric Interpretation of Gene Coexpression Network Analysis | journal = PLoS Comput Biol | volume = 4 | issue = 8| page = e1000117 | pmid = 18704157 | doi=10.1371/journal.pcbi.1000117 | pmc=2446438}} {{open access}}</ref> <ref name="Horvath2011">Horvath S (2011). Weighted Network Analysis: Applications in Genomics and Systems Biology. Springer Book. 1st Edition., 2011, XXII, 414 p Hardcover {{ISBN|978-1-4419-8818-8}} [http://www.springer.com/new+&+forthcoming+titles+(default)/book/978-1-4419-8818-8?changeHeader|Springer website]</ref><ref name="Langfelder2007">{{cite journal | last1 = Langfelder | first1 = P | last2 = Zhang | first2 = B | last3 = Horvath | first3 = S | year = 2007 | title = Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R. | url = | journal = Bioinformatics | volume = 24| issue = | pages = 719–20| pmid = 18024473 | doi=10.1093/bioinformatics/btm563}}</ref> <ref name="Langfelder2007Eigengene">{{cite journal | last1 = Langfelder | first1 = P | last2 = Horvath | first2 = S | year = 2007 | title = Eigengene networks for studying the relationships between co-expression modules | journal = BMC Systems Biology | volume = 2007 | issue = 1| page = 54 | pmid = 18031580 | doi=10.1186/1752-0509-1-54 | pmc=2267703}} {{open access}}</ref> <ref name="Yip2007">Yip A, Horvath S (2007) Gene network interconnectedness and the generalized topological overlap measure. ''BMC Bioinformatics'' 2007, 8:22 {{PMID|17250769}} PMCID: PMC1797055 [http://www.biomedcentral.com/content/pdf/1471-2105-8-22.pdf BMC Bioinformatics] {{Wayback|url=http://www.biomedcentral.com/content/pdf/1471-2105-8-22.pdf |date=20150924044401 }} {{open access}}</ref> <ref name="Ravasz2002">{{cite journal | last1 = Ravasz | first1 = E | last2 = Somera | first2 = AL | last3 = Mongru | first3 = DA | last4 = Oltvai | first4 = ZN | last5 = Barabasi | first5 = AL | year = 2002 | title = Hierarchical organization of modularity in metabolic networks | url = | journal = Science | volume = 297 | issue = 5586| pages = 1551–1555 | doi=10.1126/science.1073374}}</ref> <ref name="Langfelder2008">Langfelder P, Horvath S (2008) WGCNA: an R package for weighted correlation network analysis. ''BMC Bioinformatics'' 2008, 9:559 {{PMID|19114008}} PMCID: PMC2631488 [http://www.biomedcentral.com/1471-2105/9/559 BMC Bioinformatics] {{Wayback|url=http://www.biomedcentral.com/1471-2105/9/559 |date=20151209014942 }} {{open access}}</ref> <ref name="Langfelder2011">Langfelder P, Luo R, Oldham MC, Horvath S (2011) Is my network module preserved and reproducible? PloS Comp Biol. 7(1): e1001057 {{PMID|21283776}} PMCID:PMC3024255 [http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1001057 PloS Comp Biol] {{Wayback|url=http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1001057 |date=20141111002739 }} {{open access}}</ref> <!--ref name="Song2013">Song L, Langfelder P, Horvath S (2013) Random generalized linear model: a highly accurate and interpretable ensemble predictor. BMC Bioinformatics 14:5 PMID 23323760 DOI: 10.1186/1471-2105-14-5.[http://www.biomedcentral.com/1471-2105/14/5 |BMC Bioinformatics] {{open access}}</ref--> <ref name="Ranola2013">Ranola JM, Langfelder P, Lange K, Horvath S Cluster and propensity based approximation of a network. BMC Syst Biol. 2013 Mar 14;7(1):21 {{PMID|23497424}} [http://www.biomedcentral.com/1752-0509/7/21/ BMC Systems Biology] {{Wayback|url=http://www.biomedcentral.com/1752-0509/7/21/ |date=20150924042211 }} {{open access}}</ref> <ref name="Langfelder2013">Langfelder P, Mischel PS, Horvath S (2013) When Is Hub Gene Selection Better than Standard Meta-Analysis? ''PLoS ONE'' 8(4): e61505. doi:10.1371/journal.pone.0061505 PMCID: PMC3629234 [http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0061505 PloS One] {{Wayback|url=http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0061505 |date=20141121055223 }} {{open access}}</ref> <ref name="Oldham2012">Oldham MC, Langfelder P, Horvath S (2012) Network methods for describing sample relationships in genomic datasets: application to Huntington's disease. BMC Syst Biol. 2012 Jun 12;6(1):63. {{PMID|22691535}} 46(11) 1-17 {{open access}}</ref> <!--ref name="Oldham2008">Oldham MC, Konopka G, Iwamoto K, Langfelder P, Kato T, Horvath S, Geschwind DH (2008) Functional organization of the transcriptome in human brain. Nature Neuroscience. Nature Neuroscience 11, 1271 - 1282 (2008) doi:10.1038 nn.2207 [http://www.nature.com/neuro/journal/v11/n11/abs/nn.2207.html Nature Neuroscience]</ref--> <ref name="Chen2008">Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008 Mar 27;452(7186):429-35.</ref> <ref name="Plaisier2009">Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P (2009) A systems genetics approach implicates USF1, FADS3 and other causal candidate genes for familial combined hyperlipidemia. PloS Genetics;5(9):e1000642 {{open access}}</ref> <ref name="Voineagu2011">Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor R, Blencowe BJ, Geschwind DH (2011) Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. {{PMID|21614001}}</ref> <ref name="Hawrylycz2012">Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, Daly BD, Dang C, Datta S, et al, Koch C, Grant SG, Jones AR (2012) An anatomically comprehensive atlas of the adult human brain transcriptome. Nature. 2012 Sep 20;489(7416):391-9. doi: 10.1038 nature11405. {{PMID|22996553}} [http://www.nature.com/nature/journal/v489/n7416/full/nature11405.html Nature]</ref> <ref name="Mumford2010">Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (2010) Detecting network modules in fMRI time series: A weighted network analysis approach. Neuroimage. 2010 Oct 1;52(4):1465-1476. Epub 2010 May 27.{{PMID|20553896}}. [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3632300/ PMC]</ref><ref name="Xue2013">Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G. (2013) Genetic programs in human and mouse early embryos revealed by single-cell RNA?sequencing. Nature. 2013 Jul 28. doi: 10.1038/nature12364 {{PMID|23892778}} [http://www.nature.com/nature/journal/v500/n7464/full/nature12364.html Nature]</ref> <ref name="Shirasaki2012">Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW. (2012) Network organization of the huntingtin proteomic interactome in Mammalian brain. Neuron. 2012 Jul 12;75(1):41-57. {{PMID|22794259}} [http://www.cell.com/neuron/retrieve/pii/S0896627312005132 Neuron] {{Wayback|url=http://www.cell.com/neuron/retrieve/pii/S0896627312005132 |date=20140104224959 }}</ref> <ref name="Horvath2012aging">Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA. Aging effects on DNA methylation modules in human brain and blood tissue. Genome Biol. 2012 Oct 3;13(10):R97. {{PMID|23034122}} [http://genomebiology.com/2012/13/10/R97/abstract Genome Biology] {{Wayback|url=http://genomebiology.com/2012/13/10/R97/abstract |date=20150922141351 }}</ref> <ref name="Tong2013">Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013) A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease. PLoS One. 2013 Nov 19;8(11):e80702. doi: 10.1371/journal.pone.0080702. {{PMID|24260458}} [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3834335/ PMC] {{open access}}</ref> }} [[Category:生物信息学]] [[Category:数据挖掘]]
该页面使用的模板:
Template:Citation needed
(
查看源代码
)
Template:Cite journal
(
查看源代码
)
Template:Reflist
(
查看源代码
)
返回
加权相关网络分析
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息