章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。
听完钱余的问题,博士生率先开了口。不过他并没有提太多建议,反而有些抱怨。
“我认为,这一计划自然是要找现成的突变体,或者……由我们自己‘诱发’斑马鱼突变咯。”
“只可惜我们研究的斑马鱼——现有的突变体库实在太少。”
“我女朋友在高校研究肿瘤细胞,她从网上那些可用的数据库里筛选,基本上能够‘一抓一个准’,可令我眼红啦!”
博士生说着说着,忽然感觉自己是“输在了起跑线上”。
钱余也不禁笑着点了点头,算是同意了他的说法。
确实,说起大型的“库藏”资源受益者,最令钱余羡慕的,当属陈幸和郭子昱。
这小两口都研究癌症,而公共医疗数据库收集的资源,大多包括癌症患者的基因组数据——癌症患者通常会出现某些肿瘤相关基因的突变,当这些基因呈现表达异常的时候,人类体内便可能出现肿瘤细胞,继而形成癌症。
这些患者对于其他“无瘤”的健康人来说,也就称得上是“突变体”了。
钱余接着评价道:“不过呀,肿瘤的数据资源虽然有,但是要完成数据处理,科研人员也必须经历一番周折。”
于是,钱余向学生们解释了何为“一番周折”。
多年以前,郭子昱刚考上研究生。
当时他的硕士导师,手头上积累的临床数据不足,又没有多余的经费请公司做生物芯片。因此导师希望能从公共数据库中,获取可用的数据资源,从而挖掘潜在的“肺癌耐药相关因子”——于是,刚入学不久的郭子昱,接受了这项重要的任务。
在全球范围内,能够免费获取的医学公共数据库的确不少。
当年肿瘤医生用得最多的,是美国国家癌症研究所开发的“癌症基因组图谱”数据库,又称“TCGA”。
该数据库涵盖了33种肿瘤类型,收录并上传了多方研究者提供的癌症临床数据,包括肿瘤组织、正常组织、癌旁对照组的各项图谱——基因组、转录组、表观组、蛋白组数据,以及患者的肿瘤病理、癌症分期、生存情况等。
从网上获取原始数据并下载,倒也难不倒郭子昱,令他头疼的,主要是后期数据的处理问题。
TCGA提供的数据集,样本量非常大。每一个样本,均以字母和数字的组合来命名,以便于相互区分并归类。因此,数据使用者需要有一定的计算机编程基础,例如掌握R语言、Python、Perl或Linux操作系统等。同时,使用者必须具备扎实的统计学理论知识,才能利用上述语言编辑器,从庞大的数据中获取自己想要的“精髓”部分。
郭子昱虽然有统计学的底子,本科也修过《生物信息学》,但他的信息学基础相对薄弱——如今让郭子昱这只“菜鸟”直接上升到应用层面,他自然是吃不消的。
“我每天看着这一行接一行的R语言代码就‘头大’。”当时郭子昱向陈幸诉苦,“还不如让我值一周的大夜班呢!”
陈幸建议道:“问问你的师兄师姐呀,他们应该也做过类似的数据处理吧。”
“做倒是做过,不过啊——他们用的那些代码,基本都是从网上‘复制粘贴、生搬硬套’的,没有多少是属于‘自己的东西’。”
网上的相关代码“满天飞”,可谓五花八门——虽然大多也能“殊途同归”,将各类数据进行归类处理。但这些代码毕竟是“提供者”自己写的,需要“使用者”逐字逐句看懂。有时一旦更改了某个看似无关紧要的代码,便可能出现“系统报错”,或者得出“南辕北辙”的处理结果。
还有不少生物相关行业,开始专程开班授课,教授广大科研人员如何利用R语言,对各大数据库的数据进行分析处理。
当时陈幸进实验室也才半年,尽管她自己的信息学基础扎实,但她也从未接触过如此庞大的数据处理。于是,陈幸求助于实验室的各位“前辈”。
“TCGA提供的代码有些繁琐,而这网上的呀,终归不是自己写的,用着总是有些不放心的。”
“我们手头上都有现成的代码,你到电脑上拷贝一份就行——不过呢,你最好还是自己写一套,这样以后用着也安心不是?”
师兄师姐们都很热心,陈幸就顺势拷贝了一份代码,交给了郭子昱。
但郭子昱最终还是听从了“前辈们”的建议——他咬了咬牙,充值了某个生物培训机构的“VIP终身会员”,下决心从头学起,一步一个脚印。
陈幸也陪着他,两人一路扶持——从基础R语言学习,到一字一句自写代码,接着利用代码处理数据,直至从数据库中,发现潜在的癌症相关因子——最终,郭子昱总算是“过五关、斩六将”,解决了自己科研生涯的“第一道难题”……
“研究肿瘤等疾病的科研人员,确实很有优势,他们可以从现有的资源库中获取课题——不过这现成的‘果实’啊,也不是这么容易到手的。”
可惜,钱余的一番言论没起到什么作用,博士生依旧一脸难过,钱余真不忍心再继续打击他。
“除了TCGA,还有源自欧洲的Oncomine癌症基因芯片数据库,国际癌症基因组数据库ICGC等等。”
“再结合NCBI开发的高通量基因表达数据库GEO,以及基于上述数据库开发的各类网站、软件——譬如,cBioPortal癌症基因组数据探索,UCSCXena基因组浏览器,miRCancer癌症小RNA数据库,TIMER肿瘤免疫浸润数据库,Kaplan-Meier生存曲线绘图仪,GEPIA数据库可视化网站……可谓数不胜数。”
“这些‘工具’能够给使用者提供帮助,便于他们将各大数据库的数据进行分类、汇总,大大节省了分析时间。因此,光是某一癌症的单一基因数据,就足以让科研人员眼花缭乱啦。”
博士生听了钱余的详细介绍,越发觉得自己不走运了。
“当然了,若是课题组有条件,也可以不依赖这些资源。”
“例如,直接将体外培养的肿瘤细胞,进行药物等特殊处理,交予生物公司做测序分析,再与对照组做对比,寻找感兴趣的癌症相关因子。”
钱余补充道:“不过啊,哪怕不额外花钱,肿瘤研究者从上述的数据库中,将同类型的数据自行做几个交集,也能筛选到一星半点的候选基因,有那么一些眉目。”
学生们不禁有些意外:“钱老师,你怎么……如此了解肿瘤方面的研究体系呀?”
“我也有同学和朋友是做这个的呀。”钱余摇了摇头,他并不认为这有什么值得惊讶之处。
“除了研究肿瘤的同行,其次能让我羡慕的,就是我之前的一位室友了——他是研究拟南芥的。”
钱余口中的这位室友,自然是帅小伙了。
当年,小帅整日在温室的花丛中“拈花惹草”,实验操作愈发熟练。晚上回到宿舍,他也常跟钱余唠嗑,聊一聊拟南芥和自己所做的工作。
“我听我的室友做过介绍。”
“千禧年伊始,人们就完成了野生型拟南芥Columbia-0的全基因组测序,名为‘拟南芥基因组计划’。于是,SALK研究所着手对其基因组的各个基因,进行了T-DNA插入和鉴定,构建了一个较为完整的突变体库,并且将突变体种子进行共享,让研究者们能够在‘拟南芥信息资源网站TAIR’上进行购买。”
研究人员可以根据染色体号、基因名等,在网站上寻找自己需要突变体,接着加入购物车、下单。之后,突变体种子就能从大洋彼岸运过来,经过海关检疫,最后来到自己的实验室。
“想要买哪个基因的突变体啊,只要课题组舍得付钱就行。”小帅曾经和钱余念叨,“其实在欧洲也有一个突变体库,名为‘欧洲拟南芥储存中心uNASC’。只不过我们实验室在那儿买得比较少,多数都在TAIR购买。”
但是小帅也有自己的烦恼。
“事实上,拟南芥研究了这么多年,那些常见的基因,基本都被研究‘透’了。虽然还有一些功能未知的基因,但我们也不能凭空去瞎猜它们的作用。如果贸然把这些突变体的种子都买回来,那不是浪费钱嘛——万一这些基因没有功能呢?”
“所以啊,我们就自行将野生型的拟南芥种子,开展‘EMS化学诱变’,然后筛选突变体,再接着进行基因鉴定。”
EMS,全称为“甲基磺酸乙酯”,是一种常用的化学诱变剂,能够诱发DNA分子产生较多的碱基突变。所以EMS属于致癌物,使用者必须做好安全防护。
不过小帅总有些大大咧咧,拿他的话来说,也不外乎是“把种子用EMS泡一泡”——如此简单。
“但是后面这筛选、鉴定的工序也挺繁琐的,还好拟南芥生长周期比较短。若是让我做其它的农作物啊,估计我要打退堂鼓咯……”
说到这儿,钱余朝几位学生摇了摇头:“实际上,无论针对哪一物种的研究,都会有各自的优势和不足之处——我们也无需妄自菲薄。”
那么,“斑马鱼的突变体库”又是怎样的情况呢?
钱余继续开了口:“虽然早有欧洲、美国、澳大利亚的研究机构,设立了斑马鱼突变体资源库,但若想从这些机构手中获得特定的斑马鱼突变体,并不是一件容易的事情,需要使用者解决运输、专利等等问题。”
对于我国大多研究者而言,这鱼的“长途跋涉”,自然比不上“干巴巴”的拟南芥种子运输,需要多花一番心思——斑马鱼资源通常以“冻存的精子”、“可复苏的胚胎”或者“成鱼”的形式进行发货,一般20尾左右起订。
况且,除了远洋运输、海关检疫,我们还需面临知识产权、价格高等难题。
“现如今,我们从‘国家斑马鱼资源中心CZRC’处,也能买到不少斑马鱼品系的胚胎或者成鱼,还有一些‘转基因鱼’的鱼苗——但这些都还远远不够。”
“于是从2013年开始,国内的24家科研机构联手合作,开展‘斑马鱼1号染色体全基因敲除’计划,称为‘ZAKOC联盟’(ZebrafishAllGenesKOConcortiumforChromosome1)——历时6年多,终于完成了我国首个大规模斑马鱼定向突变体库。”
该项目运用“CRISPR/Cas9”技术,针对斑马鱼1号染色体上的1333个基因进行敲除,成功编辑了其中的1029个基因,并且获得636个基因的1039个可传代突变体。在这些突变体中,约有1/4与人类的疾病相关。
2019年,我国将这一项目的学术成果进行了发表,同时对学术界公开了所有突变品系和遗传信息。这些突变体统称为“ZKO品系”,可供研究者进行订购,同时收取使用者一定的费用。
关于斑马鱼突变体库的背景知识,钱余也大多由顺际宁处获知。
当年众人谈及这一项目,顺际宁曾兴致勃勃。
“斑马鱼有1~25号染色体,‘ZAKOC联盟’的这项工作,也只是一个开端而已。不过这一里程碑式的项目,给了广大科研人员很大的启发——这是利用‘CRISPR/Cas9’技术开展的‘基因精准敲除’,相当有前景。”
“自2012年,‘CRISPR/Cas9’系统的功能机制被完整诠释,到如今也不过短短4年时间,此技术已风靡全球。”