大数据期刊《GigaScience》喜迎创刊一周年

2013712日,由华大基因和生物医学中心(BioMed Central)联合创办的大数据期刊《GigaScience》正式创刊一周年。在这一年的创刊实践中,《GigaScience》突破了传统出版业束缚,开创了以大数据为导向的创新型发表模式,为数据全面公开与共享提供了一个优秀平台,有助于实现科研人员对数据资源最大可能的合理利用,为克服目前研究成果普遍缺乏可重复性的问题提供了一条很好的解决途径。

GigaScience》采用标准全文文献、数据库信息以及信息分析工具相结合的崭新模式,来发表大规模的生物学研究成果,使读者不仅可以着眼于文献中所得到的科学结论,还可直接通过文献所提供的数据和分析工具对结果进行测试和验证,实现了数据的透明、公开及可重现性。其数据库GigaDBhttp://GigaDB.org)已采用数字对象唯一标识符(DOIs)对杂志数据库中的所有数据进行标识,使数据保存更加永久,实现可追踪、可检索、可链接、可引用,而之前这些功能仅能用于学术文献。

在过去一年中,GigaDB共存储50多个数据集,数据量达25TB。其中,华大基因很多未发表的数据集都先在该平台上进行发布,以供其他项目使用,这并未影响到日后文章的发表,例如鸽子基因组数据首先于20117月在《GigaScience》公布,随后其文章于20132月在《科学》杂志上发表,而从数据公布到文章发表期间,其他的科研工作者可不受限制的使用基因组数据,且发布了与鸽乳相关基因的研究;北极熊基因组在《GigaScience》发布后,有几个研究组也使用了已经发布但未发表的北极熊基因组数据,用于几个熊属物种的比较基因组和群体遗传学研究。

近日,GigaDB数据库以崭新的面孔、全新的功能及浏览选项进行了重新发布,并可提供比FTP传输速度快100倍的Aspera数据传输。另外,《GigaScience》新开发的数据分析平台GigaGalaxy为共享计算工具和流程提供了一种全新的途径,可以更好地支持数据分析的可重现性。通过GigaGalaxy,《GigaScience》提供了一种以透明和可执行的方式发表和共享工作流程和分析的方法:http://galaxy.cbiit.cuhk.edu.hk/