服务热线:18061729102/ 025-85380280
技术支持

代谢组学常见问题汇总(一)

发布日期:2020-12-05 浏览次数:1244


代谢组学常见问题汇总(一)





       代谢组学代谢组是指基因组的所有下游产物也即最终产物的组合,这些产物是一些参与生物新陈代谢、维持生物体正常功能和生长发育的小分子化合物,主要是相对分子量小于1000Da的内源性小分子。



       代谢组学是对某一生物体组份或细胞在一特定生理时期或条件下所有代谢产物同时进行定性和定量分析,以寻找出目标差异代谢物。可用于疾病早期诊断、药物靶点发现、疾病机理研究及疾病诊断等。



       不懂代谢组学怎么办,没关系的,除了日常公众号我们编辑的代谢组学知识外,我们还有网上培训课,专业技术全面讲解代谢组学,也可以在我们线上培训群里随时提问,我们随时解答。



Q&A



1.我想开展代谢组学研究,如何设计实验?有哪些地方需要特别注意?

       第一明确实验目的:需要检查哪些样本设置正确的组别;样本的采集的部位、数量和处理方 法;需要检测哪些物质;定性、定量的精度要求等 第二选择合适的平台:根据实验目的选择合适实验平台,不同平台对物质的检测以及定性定 量能力不同:GC-MS 适合挥发性物质,LC-MS 适合极性物质;盲筛适合差异化合物的筛选, 靶标适合准确定量。 第三选择合适的分析方案:结合科研目的和意义的解读选择适合的分析方案。是单纯的筛选 差异物、关注特定物质的表达差异、还是需要查询代谢通路以及做多组学的关联分析等。



2.为什么需要这么多生物学重复?

       由于代谢组处于所有组学的最下游,个体间的差异较大,动态波动性大。因此需要很多生物学重复 来增加数据的可靠性和说服力。对于生物学重复的数目要求会比转录组、蛋白组的其他组学要求更多。


       一般来说,植物、细胞、微生物等最少6个生物学重复;动物样本,由于其个体化差异较大,包括组织、血、尿液等至少10个生物学重复;临床样本,个体差异更大,血浆、尿液等要在30个生物学重复左右,无上限。



3.有哪些质控手段?

        内标和 QC。内标可以用来观察保留时间是否偏移,以及对数据做规一化处理。QC 用来反 映仪器的稳定性,批间矫正,筛选 feature。


       检测前:代谢物不像DNA、RNA、蛋白质这类单一物质在做完提取处理之后可以对其进行总量与浓度的定量,复杂的代谢物是无法进行科学定量的。因此,为了得到理想的结果,建议按照要求的样本量进行制备。在样本检测前,会对仪器进行调试与矫正,以保证仪器稳定工作。


       检测中:准备好足够的QC样本,分成多份,在样本数目多时,会在样本中间穿插多个QC样本,并且及时清理仪器,以QC样本的一致性来判断仪器在样本检测中的稳定性。



4.如何说明实验没问题?

       QC 稳定、样品聚类,内标保留时间偏差小,物质的检出率高等都可以说明实验没问题。



5.为什么正式实验检出物质数量比预实验少很多?

       预实验只是对检测出的物质进行简单的定性,没有对数据做任何处理。而在做正式的实验时, 我们是会利用 QC(来自于各个样本的混样)来进行筛选物质。首先 QC 样本中检出率<50% 的物质会被去掉。QC 样本的 RSD>30% (GC-MS)或者 20%(LC-MS)也都会被剔除掉。对 于单个样本定性来说,只有 QC 里存在的,我们才会列举出来。因此经过这样的层层把控之 后,看到的物质要比预实验少。此外,样本的差异、仪器的响应都会对实验的重复性带来干 扰,但一般来说,预实验和正式实验的结果不会相差太多。



6.GC数据表怎么看?表头分别是什么意义?

       Fig:单个样本的总离子流图以及所有样本的总离子流图。single/compare 表格中:name:peak 匹配的名称;uniquemass:特征离子的相对分子质量;rt:出峰时间 ;similarity:跟数据库 中的匹配度;area:峰面积,即相对定量结果;cas,KEGG,PubChem:三个数据库该物质 的相关信息;Retention Index:仪器检测得到的该 peak 的保留时间指数;Fiehn RI:Fiehn 数 据库中该物质的保留时间指数,如果与 Retention Index 差值在正负 5000 以内,认为该 peak 定性成这个物质是有意义的。之后再看 similarity 值。满足了正负 5000 这个条件之后,按照 similarity从高到底排列就是 hit1,hit2 这样了。



7.为什么定性出来的物质这么少?

       同一物质可能在多个 Peaks 被检测出来,在数据表里是会删除这些重复检出的物质,只保留 similarity高的检出物。此外数据库中没有的物质,虽然能被检出,但却无法定性,以 analyte 表示。由于代谢物分子量小,结构复杂,只通过分子量和电荷数(一级质谱)鉴定是十分不准确的,因此更依赖标准品二级谱图数据库,而像常用的HMDB、Metlin等公共数据库中约有90%的已知代谢物都没有标准的二级谱图。有二级信息的公共库,其代谢物的碎片离子谱来自于不同的质谱仪器,仪器的种类与检测模式设置不同,同一个代谢物产生的谱图也都存在偏差。因此代谢物虽然种类多数量多,但是注释出来的却相对较少。



8、统计分析结果如何理解?

       单元变量统计分析: P-value,FDR,Fold-Change,Q-value 等 多元变量统计分析: PCA 用于观察样本的总体分布情况,是对原始数据样品分布的一个总体呈现;其中 A 表示 主成分个数,N 表示观测对象(样本)个数,R2 代表模型的可解释性,Q2 代表模型的可预 测性。 OPLS-DA 用于组与组的对比;A 表示主成分个数,N 表示观测对象(样本)个数,R2X 代 表 X 变量,可解释率,R2Y 代表这些变量对模型的解释率,Q2 代表模型的可预测性。该模 型引入分组变量 Y,将分组变量 Y 定为使 A 组和 CK 组分开的因素,根据该因素,最大化 地凸显不同组别之间的差异。 结合 OPLS-DA 模型给出 VIP 值(大于 1)和单元变量统计分析的 P-value 值(小于 0.05) 进行差异代谢物的筛选。



9.同一物质为什么正负离子模式下分子量差别那么大?

       在不同的模式下,物质被检测到的是加合物的形式(经过离子源的时候,带有一定电荷、具 有一定质量的离子基团螯合到分析物上),给到您的结果里是 mzmed(质合比的中值),这 是加合物的质合比信息,与分析物的质合比是有一定差异的。如果 正负离子模式下的同一物 质分子量差别较大的话,这一现象是能够反应出检测到的加合物的形式不同,那么主要原因 是可以归结为在不同模式下所带的基团不同。



10.如何对差异代谢物做进一步的筛选?

       显著差异代谢物的筛选标准除了fold change 与P value之外,VIP值也是鉴定差异代谢物非常重要的指标。VIP(Variable important in projection)是(O)PLS-DA模型变量的变量权重值,可用于衡量各代谢物积累差异对各组样本分类判别的影响强度和解释能力,VIP≥1为常见的差异代谢物筛选标准。


       一般是使用 P 值<0.05 & VIP>1 这样的卡值来进行差异物的筛选, P 值来源单元变量统计分析,VIP 值来源于多元变量统计分析(来源于 OPLS-DA 模型)表 征该变量对两组差异的贡献值,当然 VIP 值越大对差异贡献越大。 使用 P 值<0.05 & (FC>2 或 FC<0.5) [FC= Fold change]来进行差异物筛选也是有这样的做法, 但是 P 值和 FC 值都来源单元变量统计分析。 推荐使用 P 值<0.05 & VIP>1 的筛选方法。


       在此基础上要做进一步的筛选的话,有以下几个方法: 1, P 值<0.05,对 VIP 值做排序(VIP 值越大,差异代谢物越有意义) 2, VIP>1,对 P 值做排序(P 值越小,差异代谢物越有意义) 3, 在 P 值<0.05 & VIP>1 的范围内,对 FC 值做排序(大于 2 的 FC,越大越有意义;小于 0.5 的 FC,越小越有意义) 4, 限定更严格的基础筛选条件,比如:P 值<0.01 & VIP>2。重做以上三种方法。

   


END







如有需要,请联系当地销售工程师,或拔打025-85381280,欢迎来电咨询。







       集思慧远南京集思慧远生物科技有限公司是一家国家级高新技术企业,公司专注于生物技术开发、技术服务、技术咨询。自成立以来,秉承“创新生物科技,服务惠及于民”的宗旨,依托前沿的基因测序技术和大数据分析平台,逐步建立一整套完善的分子生物学实验平台,打造真正的生命科学高新技术研发中心,推进生命科学、农业育种、食品安全和医疗健康等领域的研究与应用。



       产品涵盖基因组学、蛋白组学、代谢组学、微生物组学、转录组学、表观组学、理化检测、分子实验服务等八大领域 ,尤其在群体遗传、细胞器基因组及基因家族分析方面具有显著的技术和服务优势。目前已获得25项软件著作权授权,相关技术成功用于两百余家科研院所的研发项目,发表SCI论文累计影响因子412.814分,已形成独立自主的核心知识产权优势,并于2019年12月获得栖霞区重点研发与技术创新项目立项支持!