PNAS:利用long-read生成个人转录组

斯坦福大学医学院的遗传学教授Michael Snyder及其同事利用Pacific Biosciences系统,对三个家庭成员的类淋巴母细胞转录组进行了测序,并将获得的reads与Illumina平台上获得的较短reads进行比较。通过这些转录组,他们开发出一名家庭成员的等位基因特异的全长转录组。

斯坦福大学的研究人员利用一种基于long-read的方法,生成了个人的转录组。这项成果于近日发表在《美国国家科学院院刊》上。

文章的通讯作者是斯坦福大学医学院的遗传学教授Michael Snyder。他的实验室主要利用各种方法来分析基因组及调控网络。他们的研究对象包括酵母和人类。Snyder教授曾在《Cell》、《Science》、《Nature》等杂志上发表了多篇具有影响力的文章。

在这项研究中,Snyder及其同事利用Pacific Biosciences系统,对三个家庭成员的类淋巴母细胞转录组进行了测序,并将获得的reads与Illumina平台上获得的较短reads进行比较。通过这些转录组,他们开发出一名家庭成员的等位基因特异的全长转录组。他们能够区分两个等位基因,即使是复杂的基因如HLA。
 
研究人员在文章中写道:“据我们所知,我们生成了最深且最长的单分子long-read数据集。”他们认为,这种个人的转录组,将对了解个体生物学和疾病很重要。

Snyder及其同事利用PacBio平台,对GM12878细胞系的大约711,000个环化一致分子(circular consensus read molecules)进行测序。他们产生了较长的reads(平均读长为1,188 bp),这比去年他们在《Nature Biotechnology》上展示的人体器官panel的数据集更长(平均读长为999.9 bp)。
 
他们也指出,尽管两个数据集都同样产生了较短的分子(长度介于0.8 kb和1.3 kb),但是现有的数据集更好地代表了长于1.7 kb的分子。
此外,这个斯坦福的团队也在Illumina的平台上对100 M个101 bp的双端reads进行测序,并利用Cufflinks开展分析。
 
这两种技术都发现了约99,000个带注释的外显子-外显子接头,且Illumina的reads发现了额外92,000个注释接头,而PacBio的reads发现了额外992个。此外,对于22,600个被Gencode归为蛋白编码基因或lincRNA的剪接基因,long-read的单分子测序和101 bp的双端测序同时鉴定出其中的9,200个。long-read还发现了40个基因,双端测序发现了6,400个基因,而还有7,000个基因利用两种方法都未发现。

研究人员推测,由于环状一致read的产生需要读长至少是cDNA长度的两倍,故consensus split-mapped molecules(CSMM)不包含大量较长的基因。
 
研究人员表示,转录组学研究的目标是能够指定表达RNA分子的等位基因。他们认为,long-read测序应该能够确定影响单个RNA分子的每个SNV。

为了追踪在GM12878子细胞系中发现的这些等位基因的来源,他们合并了GM12891和GM12892母细胞系的数据,并研究了子代中存在的SNV是否存在于亲代数据中。
 
通过主成分分析,他们能够分离出两个等位基因。对于166个注释有两个杂合SNP的基因,研究人员发现其中的158个有两个或以上的SNP,2个基因有一个SNP,而6个基因似乎不是杂合的。

一些基因,尤其是HLA基因,包含多个SNP,而对于它们,研究人员基本能够确定相位。“即使是复杂的基因(如HLA基因,其序列可能与参考序列相差甚远),两个等位基因通常也是清晰可辨的,”Snyder及其同事写道。
 
原文检索
Defining a personal, allele-specific, and single-molecule long-read transcriptome
Published online before print June 24, 2014, doi: 10.1073/pnas.1400447111 PNAS June 24, 2014

了解PacBio单分子测序仪的更多信息

 

Drawer Safe

Drawer Safe,Lock Safe,Anti Theft Safe,Portable Cash Safe Money Box

Ningbo Reliance Security Technology CO.,Ltd , https://www.reliancesafes.com