21.什么是RPKM、FPKM
RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百万个map上的reads中map到外显子的每1K个碱基上的reads个数。假如有1百万个reads映射到了人的基因组上,那么具体到每个外显 子呢,有多少映射上了呢,而外显子的长度不一,那么每1K个碱基上又有多少reads映射上了呢,这大概就是这个RPKM的直观解释。
如果对应特定基因的话,那么就是每1000000 mapped到该基因上的reads中每kb有多少是mapped到该基因上的exon的readTotal exon reads,映射到外显子上总的reads个数。
这个是映射到某个区域上的reads个数,这个区域或者是已知注释的基因或者跨两个外显子的边界或者是某个 基因已经注释的转录本的内含子、外显子。对于真核生物来说,外显子和它们自己内部的关系由某类型的mRNA来注释。
计算时,计算所有某个基因已注释的所有外显子长度的总和。即使某个基因以多种注释的转录本呈现,这个外显子在求和时只被包含 一次。即使部分重叠的外显子共享相同的区域,重叠的外显子以其总长来计算。report).map的reads总和。映射到某个基因上的所有reads总数。因此这包含所有的唯一映射到这个区域上的reads。
举例:比如对应到该基因的read有1000个,总reads个数有100万,而该基因的外显子总长为5kb,那么它的RPKM 为:10^9*1000(reads个数)/10^6(总reads个数)*5000(外显子长度)=200或者:1000(reads个数)/1(百 万)*5(K)=200这个值反映基因的表达水平。
FPKM(fragments per kilobase of exon per million fragments mapped). FPKM与RPKM计算方法基本一致。不同点就是FPKM计算的是fragments,而RPKM计算的是reads。Fragment比read的含义 更广,因此FPKM包含的意义也更广,可以是pair-end的一个fragment,也可以是一个read。
22.什么是转录本重构
用测序的数据组装成转录本。有两种组装方式:1,de-novo构建;2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸, 拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将 read贴回到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、 cufflinks。
23.什么是genefusion
将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。
24.什么是表达谱
基因表达谱(geneexpression profile):指通过构建处于某一特定状态下的细胞或组织的非偏性cDNA文库,大规模cDNA测序,收集cDNA序列片段、定性、定量分析其 mRNA群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。