从基因组、转录组、表观基因组、调控组、宏基因组等各个生物层面上对生物体进行信息解读,是理解复杂生命机理的关键。新一代测序技术的飞速发展,为我们从各个角度观测生命系统提供了可能。新一代测序技术又称高通量测序,是对第一代DNA测序技术颠覆性革命,以2005年454公司推出基于焦磷酸测序技术的454测序仪为标志,代表着新一代测序技术的推广和应用。随后的2006年,美国Illumina公司进军新一代DNA测序市场,研发出了自己测序平台—Solexa测序仪。2007年,美国ABI公司也推出了他们的第二代测序平台—SOLiD测序仪。目前这三大测序平台是普遍使用的DNA测序仪,从市场销售情况来看,illumina测序仪成为测序领域主流。每年发表的测序文章中,基于illumina测序平台占了绝大部分。
高通量测序技术的风起云涌,测序价格的一降再降,各个测序公司的激烈竞争,使得新一代测序已然成为分子生物学实验室中的平民化工具。该技术极大推动了生命科学的发展,让人们可以更方便快捷地洞察生物学的奥秘。由于仪器设备和专业的生物信息分析团队限制,很多老师的项目都只能与公司合作。现在市场上与测序相关公司近百家,虽然高通量测序本身是一项高端技术,需要一定的实力,但跟其他行业一样,也是鱼龙混杂、泥沙俱下,因此选择合适的测序方案,性价比高的测序公司对项目的顺利开展至关重要。与各位老师接触的过程中,发现了一些问题,整理一下作为给即将利用该技术老师一个参考。
首先是公司的选择。对于任何一家公司都有其优势和不足,选择时主要有两点可供参考:第一该公司是否有自己的测序平台?目前有自己测序平台的公司并不多,如果没有自己的测序平台,争取到项目后就要交给别的公司去测序,这样在测序质量和项目周期上就没法保证,有时会严重耽误项目的进程,延误文章的发表,甚至被别人抢发。光有测序平台还不成,还要看是什么样的测序平台?很多老师都有个误区,觉得测序质量各个公司都差不多,其实这样的想法是不正确的。不同的测序平台数据质量和产出量是不一样的,甚至同样的Hiseq2000测序平台,前年买的和今年买的测序仪在测序质量上都会有一定出入。可以让公司提供已完成项目的数据Q30和Q20,作为一个参考,公司自己制定其他数据评判标准与标准的Q30是两个概念,结果很漂亮但不代表真实数据质量。
第二是公司是否有强大的生物分析团队?有时花了不菲的价格,测了一堆数据,却无法完成后续数据挖掘分析,将其转化成可靠的结果,只能困在电脑里面,眼看着数据资源的优势在一点点流逝而毫无办法。曾经碰到一个老师,测了上百张生物芯片的数据,却没有给分析出结果,守着一堆数据不断找公司进行后续挖掘。生物信息分析不是简单的跑跑流程,靠某一软件进行简单基因功能预测,这样得出的结果到底有多大的可信度,没人敢保证。比如基因组从头测序,目前有很多公司提供该项服务,但真正有实力做好这项工作的公司有几家?从公司有无从头测序文章,文章发在什么杂志上就能知道这家公司是否有雄厚的生物信息分析功底,是否可以做相关项目。
其次是价格的衡量。无论什么样的交易,价格永远是核心问题中的核心。俗话说,一分钱一分货,便宜的但不一定是好的。比如说同样的4Gb转录组测序分析,不同的公司价格相差很多,这是为什么?站在老师的角度,可以考虑一下几点。样品检测是否使用了目前标准的四种检测方法,并将检测报告及时发送给老师?测序文库构建是否采用了illumina Truseq RNA/Samll RNA Sample Pre Kit及其推荐的配套试剂,而不是使用其他试剂公司提供的配套试剂?比如说有的公司会说建库按照illumina Truseq RNA指定方法进行建库,这里面就存在着问题,可能是采用了illumina Truseq RNA的protocol,但并没有采用原装试剂。如果样品的质量和建库质量无法保证,会从数据源头上导致低丰度转录本信息的丢失和数据偏好性。替代试剂的采用虽然降低了成本,但同时也降低了测序质量。4Gb的数据质量是clean data还是Raw data。clean data是指除去了接头及低质量序列的数据,跟raw data完全两码事。同样,后面生物信息分析要看公司提供的仅仅是简单跑流程,还是根据科研目标,选择分析软件,调整参数,对结果提出合理的解释,给出最出色的问题解决方案。
最后是后续服务。合同没有签时,可能将老师当上帝,小心伺候着。但一旦签了合同,打了项目款,后面就没有了保证。最后结题报告发给老师,如何解读报告以及相关问题,可能连人都找不到了,因此后续服务也是非常重要的一点。
以上是自己工作时的一点感悟,希望能够给各位准备或者打算做高通量测序老师和同学一些参考。我会随时更新这篇博文,将相关问题罗列出来,在做相关项目时少走或者不走弯路。