国际交流
您当前的位置 > 首页 > 国际交流
名称 国际大洋科学钻探的数据资源与共享现状
发布机构 科技外事处 索引号 2189234/2020-00331
主题分类 国际交流 文号
发布日期 2020-12-30 主题词

国际大洋科学钻探的数据资源与共享现状

发布日期:2020-12-30 15:27 信息来源:科技外事处 访问量:? 字体 :[ 大 ][ 中 ][ 小 ]

国际大洋科学钻探的数据资源与共享现状

1国际大洋科学钻探简介

深海是当今地球表面的主体,水深超过2000m的深海占据了地球面积的60%:深海沉积物由亿万年的陆源输入物质和海洋自生物质积累、压实而成,所包含的物理、化学、生物信息是地质历史时期气候、生物以至整个地球生态的重要纪录。此外,这些沉积物还记录了洋壳的形成、扩张和消亡过程,是研究固体地球壳幔循环和地球动力学的有力证据。国际大洋科学钻探是特别针对深海研究所设计的一项国际海洋研究合作计划,通过专业的远洋作业平台获取深海的沉积样本和岩石标本,记录钻孔的地球物理和地球化学信息,观测海底环境,揭示地球的演化历史及其动力学机制。

大洋钻探的每一个航次都有预先设定的科学目标,通过丰富的观测数据和样品资料,支撑了众多重大科学发现,例如证明了洋底扩张和洋陆交界的俯冲(Mulleteta1.,2008),发现了“地中海变干事件”(Hsueta1.,1982),揭示了5500万年前由海底温室气体溢出引起的高温事件(Kennettand Stort1991;Zachoseta1.,2008),等等。在资源勘查方面,大洋钻探也发挥了关键作用,例如,经过对大陆边缘连续21年的勘查,揭示出大陆岩石圈的破裂过程以及大陆裂解早期的地壳变化,这对于了解全球大型油田的形成至关重要(Peroneta1.,2013)2004年钻人北冰洋底的破冰船发现了该地5000万年前处于湖泊环境,在此基础上的古生物学、地层学、古气候学研究揭示出该地区是一个理想的生油环境(Moraneta1.,2006;汪品先,2008)。由此可见,大洋钻探作为一项执行超过半个世纪的国际合作计划,其获得的样品和数据早已不再限于为某一学科领域服务,而是与地质学、生命科学、资源工程等数个学科领域都息息相关。

大洋钻探最早可以追溯到1961年开始的“莫霍钻”计划(Mohole Project),旨在从深海底部钻穿地壳,获取地幔样品。然而技术的不成熟导致该计划到1966年仍未达到预期效果,从而失去了政府资助并最终夭折(Beckeretal.,2019)。从1966年起,科学家将目光放到了洋壳玄武岩之上较易钻探的沉积岩层(金性春等,1995),经过两年的筹备,19688月,深海钻探计划正式启动(Deep Sea Drilling Project,简称DSDP),由“挑战者号”钻探船执行航次任务,大洋钻探的数据记录也由此开始。1983年,新一代钻探船“决心号”被启用,项目进一步发展为大洋钻探计划(Ocean Drilling Program,简称ODP)。相较于之前的“挑战者号”钻探船,“决心号”搭配了更为先进的设备,钻探深度也有了很大的提升。大洋钻探计划期间,“决心号”共执行了110个航次,在全球各大洋钻井2000口,取回岩芯22.3万米,科研人员使用大洋钻探数据发表的国际学术论文达到7200篇(汪品先,2018)。至ODP末期(2003年),参与项目的国家和地区已经达到了22(Smithetal.,2010)20032013年期间,在DSDPODP的科研成就和广泛的国际合作关系基础上,新一代的钻探计划——综合大洋钻探计划(Integrated Ocean Drilling Program,简称IODP)开启了新世纪深海科技的竞赛,并最终于2013年发展为目前正在进行的国际大洋发现计划(International Ocean Discovery Program,简称IODP)

至今执行已超过半个世纪的大洋钻探计划,获取了海量的来自深海的珍贵数据。在数据科学日益成熟的时代,如何对大洋钻探数据进行深度的融合、利用,发掘它们的深层价值,是一个值得探索的问题。而进行这个探索,首先需要深度理解大洋钻探的数据,明了它们的类型、结构、特征,进而发掘应用前景。

2大洋钻探的数据类型

从深海钻探计划(1968年)到国际大洋发现计划的50余年里,大洋钻探共进行了300余次远洋考察,钻井广布在全球各大洋,获得的岩芯总长度已达40余万米。这些岩芯通常在船上进行常规测试,随后运送至特定的岩芯库中保存,后续可供科学家开展航次后研究(中国大洋发现计划办公室等,2018)。

20世纪60年代后期,深海钻探计划建立了数据库管理系统,对所获岩芯的各项测试结果以及每个站位的钻井数据进行统一、规范的记录和存储。数据的获取和存储需要经历船只定位、钻探取芯、样品测试和数据存储四个过程。在钻探船定位和钻探取芯的过程中,由于海底环境变化以及取芯过程存在丢失的问题,因此每一个站位通常有多个钻孔,不同钻孔的数据获取量也伴随钻探的进行程度有所不同。钻探时,钻头取芯的位置和长度根据钻探时的具体情况决定,获得的岩芯会被记录钻取位置,其长度被称为取芯长度,它和钻头前进总长度的比值称为岩芯取芯率。每个岩芯被取出后都会获得专属编号,并产生一系列相关的标识信息,称为岩芯概况信息,包括航次号、站位号、钻孔号、经纬度、获取位置等。在钻探船上,岩芯通常会被切割成多个岩芯段保存,并取指定间隔进行更为细致的观察。这些岩芯段就成为后续分析的样品,因此岩芯概况信息是样品的“身份证”,样品在后续部分所有的测试结果都会与这些标识信息关联。在切割过程中产生的岩芯切割后样品数量、样品位置、长度、体积等数据,保存在“样品报告”和“监管报告”中。之后对样品进行各种物理、化学等检测,还会陆续获得“样品图像”、“物理属性”、“化学与微生物属性”和“X射线分析结果”等数据。这些数据构成了大洋钻探数据库的基本数据内容。

国际大洋科学钻探的数据按照类型分集,被保存在平台的数据库中,特定学科的数据,如古生物学、地球化学、岩石学数据等,具有较强的研究和再利用价值,被各个专业科学数据库整理、归纳和存储。

值得注意的是,每当航次结束后,获取的样品及数据会进入约一年的保护期,期间仅船上科学家团队成员可以对样品和数据申请访问。因此,大洋钻探的数据具有一定的延时性,即最新航次的数据和样品公众不能即时获得。

3数据的储存

3.1岩芯数据库及其建立背景

2003年开始的综合大洋钻探计划共有三个钻探平台,由两艘固定的钻探船及少量租用的研究船完成钻探任务。美国主导的钻探平台是最活跃的大洋钻探平台,其使用的“乔迪斯·决心号”(JOIDES Resolution,简称JR)进行无立管的传统钻探,井深一般不超过2000m。日本的钻探平台始于2007年,其旗下的“地球号”(Chikyu)钻探船设备更加先进。相较于“决心号”,它具有一个可选用的立管和防喷装置,钻杆由外壳包裹,以提供泥浆回流。泥浆在钻井过程中具有护壁、携渣、冷却和润滑的作用,使得“地球号”的作业深度更深更安全。欧洲所主导的“特定任务平台”(Mission Specific Platfonn,简称MSP)并不拥有专属的钻探船,而是根据具体的科学目标,在市场上租用适用的钻探船或钻井平台。

从“决心号”和“地球号”这两个平台取得的岩芯通常在船上就开展常规分析和测试,“特定任务平台”获取的岩芯在船上开展少量的测试,多数则是安排在岸上集中描述和测试。通过测试可以获得岩芯段样品的常规的物理、地球化学和古生物学等信息,如磁化率、颜色反射率、岩芯碳总量和碳同位素分析以及内含的微体化石等。这些数据被存储在相应平台的独立数据库中,分别为美国的实验数据信息管理系统(Laboratory Information Management System,简称UMS)、日本数据库系统(Japanese Database System,简称J-CORES)和特定任务平台航次数据库(Mission-Specifc Platformexpeditionsdatabase,简称MSP)

3.2数据的储存特点

基于大洋钻探的平台设置和运作方式,大洋钻探的数据储存具有明显的特点。首先,数据存储分散。从空间上来看,综合大洋钻探计划开始后,大洋钻探任务被交由三个钻探平台分别实施,取得的数据在各自平台的独立数据库中存储。从时间上来看,大洋钻探发展至今,经历了4个阶段(深海钻探计划、大洋钻探计划、综合大洋钻探计划、国际大洋发现计划),不同阶段获得的数据类型以及之后的存储均各具特色。例如综合大洋钻探时期样品的编码、数量等基本信息被单独存储,而在国际大洋发现计划时期这些数据连同样品的标识信息(包括样品位置信息、体积信息等)一起整合为“样品报告”存储,用户只需查看报告就可以一览所需样品的所有标识信息。其次,航次数据相互独立。大洋钻探的每个航次都是立足于不同的科学提案,探索不同的区域,获得的岩芯以及数据都是独立的,不同航次之间一般没有直接联系。再次,数据类型多样。对数据库中的每一段岩芯来说,其数据全面描述岩芯沉积物的各方面属性,导致数据类型多样化,包含文本、图表、照片等等。这些数据相互补充,基本可以满足用户的一般需求。

4岩芯数据库

4.1“决心号”平台数据库-JanusLIMS

“决心号”的数据最初被存储在Janus数据库中,2009年后,平台开始使用LIMS作为新的数据库,并整合了Janus数据库的数据内容。LIMS是美国主导的实验数据信息管理系统,储存了1966—2003年期间执行的深海钻探计划、大洋钻探计划航次的数据。进入综合大洋钻探计划阶段,随着三个独立钻探平台先后建成,数据开始分散储存到各自的平台系统中。因此,该数据库此后仅储存由“决心号”获得的样品数据。

大洋钻探数据库的数据存储结构是基于样品的,即各类数据籍由样品存储。在LIMS中,所有测试数据和结果数据基于样品以动态表的形式存储在数据库中。通过编辑器LIMS Editor,用户可对数据进行查找和修改。LIMS Editor提供一个辅助的Oracle型数据库ASMAN,管理者通过它上传图像、Excel工作表等信息来编辑主数据库中的数据。

在数据检索和共享方面,LIMS提供LIMS ReportsLIMSInformation Viewer两种数据检索方式及相应的阅览和下载服。用户可以通过对具体航次的钻孔号、岩芯段等信息进行多种组合检索,从而准确获得所需的数据。

数据库中的岩芯数据(coredata)包括了岩芯的钻取位置、长度、深度等概况数据,岩芯段样品取样信息、长度和分类等样品统计数据,样品普通照片、显微镜下照片和扫描电镜照片等图像数据,样品的物理、化学属性、岩石类型、所含的微体古生物类型与数量、X射线检测结果以及污染物信息(miCrobiologydata)等各方面属性数据。其中,样品岩性、所含古生物化石、包含的接触关系等数据被称为岩芯描述信息,以电子表的形式存储,需要通过数据库内置程序——DESCReports进行检索和下载。

数据的检索结果通常以两种形式呈现,“标准报告”(StandardReport)和“扩展报告”(ExpandedReport),均可以选择并与数据主题组合进行输出。

“标准报告”提供常用和必要的数据。以“岩芯综合信息及图像”为例,标准报告提供的数据有航次、站点、钻孔、岩芯号、取芯工具、岩芯段样品位置、样品图像、文件名、取样分析时间、样品数据ID、测试工具号码和样品备注。“扩展报告”则提供所有与“岩芯综合信息及图像”相关的数据,包括四个部分:样品信息,包含样品的标识和属性;测试信息,包含所有与样品测试方法和有关的设备的信息;位置信息,包含岩芯取样详细位置信息;结果信息,包含样品的所有测试细节以及结果信息。“扩展报告”涵盖了“标准报告”提供的所有数据,同时补充了更多细节信息,例如样品取自的岩芯编号、长度、截取后的长度等。

“标准报告”或“扩展报告”均免费向所有用户开放。数据库建立这两种不同检索结果的目的在于提供不同用户以合适的信息。“标准报告”主要面向一般用户,而“扩展报告”则主要面向更有经验的专业科研人员,使得他们可以获取更多的细节数据探究具体的专业问题。

相较于上一代Janus数据库,LIMS数据库的整体体系已较为成熟,所含数据类型及共享方式也日趋完善和体系化。数据库包含数据类型丰富,多样的数据筛选方式有利于用户精准获取所需数据,虽然库中少量较早航次的部分数据存在丢失现象,但是可以通过航次后报告获取。

4.2“地球号”平台数据库-J-CORES

“地球号”钻探船于2007年正式投入使用,截至2019年,共参与了综合大洋钻探计划与国际大洋发现计划两个阶段的任务,累计执行航次17个,其中在前一阶段航行12次,后一阶段5次。就钻探船的性能而言,“地球号”无论是在钻探深度亦或是设备多样性上都领先于“决心号”。但是“地球号”执行的任务数量并不多,产生的数据总量也与“决心号”有较大差距,这在一定程度上与其每年高达8000万美元的平台运行费用以及21世纪以来日本的经济波动有很大关系(汪品先,2018)

“地球号”属于国有资产,每年运行费用主要来自日本文部省的拨款,并由日本海洋研究开发机构(Japan Agencyfor Marine-Earth Scienceand Technology,简称JAMSTEC)负责日常运营。因此,“地球号”所获得的数据均保存在日本数据库系统(Japanese Database System,简称J-CORES)中。J-CORES中的数据以数据文件的形式存储,并通过Bulk Export函数输出在SI07网站上,因此SI07网站上数据文件名常由“bulk”和延伸名称组成。用户可以在SI07网站中查询“地球号”的数据,并对数据文件进行下载(http://si07.jamstec.go.jp/contents/)。此外,由JAMSTEC负责的全航次信息数据查询网站(Data Researchfor Whole Cruise Information,简称DARWIN)中也储存有“地球号”的数据,并且提供数据查询和下载服务。需注意的一点是,大洋钻探的航次编号基本依据执行时间排列,永不重复。因此连续号码的航次可能由不同平台执行,数据保存在相应的数据库中。例如IODP358的样品由“地球号”采集,数据存储在J-CORES数据库中;IODP359则由“决心号”采集,数据存储在LIMS数据库中,在依照航次查询数据时需要注意。

SI07网站中,同样可以根据航次及具体钻孔号对数据进行组合搜索。所含数据包括岩芯的钻取位置、长度、深度等概况数据,岩芯与样品照片等图像信息,以及岩芯的物理、化学和污染物属性等。这些数据按照航次整理,代表对岩芯开展常规测试获得的所有数据。但在SI07网站上用户无法直接对数据类型进行检索,这在一定程度上影响“地球号”数据查询的便利性。

相较而言,“地球号”数据库受限于航次数量及平台建设时间,包括检索在内的数据库基本功能并不完备,数据库界面也较为原始。在数据类型方面,数据库的数据类型较为齐全,但是缺乏古生物化石数据。

4.3特定任务平台数据库-MSP数据库

MSP数据库由世界数据中心海洋分中心(World Data Center-Marine,简称WDC-MARE)和地球科学与环境数据发布网(Publishing Networkfor Geoscientific&Environmental Data,简称PANGAEA)提供支持。从综合大洋钻探计划时期至今,MSP累计执行航行任务8次,包括综合大洋钻探计划5次,国际大洋发现计划3次。虽然资金投入少于“决心号”和“地球号”,但是由于钻探目标常常选择“决心号”和“地球号”不能钻探的浅水和极地冰区,往往取得科学上突出的成果。

MSP数据库中的数据根据航次分集。在指定航次后,用户可输入钻孔号、数据类型、时间等检索指令来检索相应数据。检索到的数据可以选择网页格式浏览,也可以文本文件的格式下载。前者数据格式规范,排列整齐,便于阅读;后者相较而言格式并不规整,偶有错行错列的现象,并且是“.tab”格式的只读文件。

MSP数据库中存储了丰富的沉积学、古生物学、地层学和地球化学数据。相较于“决心号”数据库,这些数据在MSP数据库中分类更为详细、多样,如古生物数据被细分为微体化石、超微化石、孢粉数据等。MSP获得的数据直接支撑了一些重要的针对北冰洋的研究。例如,对新生代北冰洋的气候、生态和水文学等特征的了解均是基于MSP所存储的海底沉积记录,包括北冰洋始新世的间歇性淡水(Brinkhuiseta1.,2006)、北冰洋新生代的古环境(Moraneta1.,2006)、古新世始新世之交极热事件期间的北极水文学研究(Paganietal.,2006),以及古新世始新世之交极热事件期间亚热带北冰洋温度的探究(Sluijseta1.,2006)等,均是IODP302航次获得的海底沉积记录的研究结果。

4.4三个岩芯数据库的数据内容以及类型对比

三个数据库提供的数据内容总体可以划分为以下几类:岩芯或样品的概况数据(包括钻孔信息、岩芯与岩芯段基本信息等),岩芯图像数据,岩芯物理属性(包括磁性属性)与化学属性,古生物化石信息,通过X射线衍射得到的矿物学信息,通过CT扫描得到的显微结构信息,钻井中松散沉积物的温度、孔隙水、顶部气体等。相比较而言,“决心号”的数据类型更为完整;“地球号”数据库缺少古生物地层数据,含污染物信息;MSP数据库则缺少了岩芯磁性数据。就数据量而言,“决心号”数据库的量值远大于“地球号”数据库和MSP数据库。并且,“决心号”数据库的建设完整度、交互友好度和数据多样性也是三个数据库中最好的。因此,“决心号”数据库的数据架构在一定程度上,可以视为后期三个数据库间数据对比、整合的基准。

4.5测井数据库

三个钻探平台的测井数据(logging data)统一存储在哥伦比亚大学的大洋科学钻探(Scientific Ocean Drilling)在线数据库中。从深海钻探计划至今所有的测井数据都在该数据库储存,而“地球号”和“特定任务平台”仅有综合钻探计划期间获得的测井数据被收录。

该数据库提供了针对项目名称、航次号、钻孔、所属大洋、数据类型及测试工具等的检索,也可通过组合检索进行。数据内容包括测井的各种物理参数,例如波速、导电性、流体参数、孔隙度、电阻系数等。

5国际大洋科学钻探与专业数据库

国际大洋科学钻探的数据除在数据库中保存外,通常还附于相关的出版物中发表。其中的古生物学、岩石学、地球化学等数据被部分专业科学数据库整理并收录。这些数据大多来自于大洋钻探各时期的出版物,类型丰富多样。然而值得注意的是,这些数据按学科分散存储在各个数据库中,不同航次间的数据也基本没有关联性,因此在综合使用时还需要进行一定量的数据整合工作。

5.1古生物数据

大洋钻探的古生物化石数据大部分储存在Neptune数据库和MikrotaxNannotax数据库中。Neptune数据库是基于DSDPODP出版物中的微体化石记录(occurrence records)建立的数据库,截至2019年止,收录了61139个超微化石样品和768057条化石产出记录,包含了18915个分类单元名称,以及458个钻孔的659个年龄模型(Lazarus,1994Renaudieeta1.,2019)。数据库中按照物种信息进行分类、收录和共享。数据库的物种分类名单也由“大洋钻探古生物协作组”持续更新。Mikrotax是微体生物及化石分类群的网上数据库系统,目前包含四个数据库,Nannotaxpforams@mikrotaxradiolaria@mikrotaxAcritax,分别保存超微生物、浮游有孔虫、放射虫和疑源类化石的有关数据记录。Nannotax储存的主要类群是颗石藻。大洋钻探美国执行机构数据库系统(United States Implementing Organization Database System,简称IODPJANUS)超微化石的分类汇编工作为Nannotax提供了部分基础,因此大洋钻探的超微化石产出记录在Neptune中的数据也被用于Nannotax数据库。

5.2地球化学与岩石学数据

JAMSTEC负责“地球号”钻探船的运行,它旗下的航次信息数据库中储存了来自“地球号”钻探船的数据,如地球化学数据等。在其数据库网站中可以根据航次对这些数据进行检索和查询,也可以在Earth Chem(https://www.earthchem.org/)中通过地球化学数据一站式服务:Earth Portal检索到。PetDBEarth Chem中的一个海底岩石学数据库,其中存储了全球海底岩石、矿物和包裹体等的元素化学数据、同位素数据和矿物学数据等(Lehnerteta1..2000)PetDB通过对DSDPODP的出版物进行数字化,收录、整理了大洋钻探的地球化学和岩石学数据。这些数据在PetDB中可通过具体的航次号进行检索。

6大洋钻探数据的现状和展望

在过去的半个多世纪里,大洋钻探计划已经获得了海量的全球海洋数据,并且完成了数据的数字化工作。然而,三大官方数据库却彼此独立,对数据需求量较大的科研用户常常需要在各个数据库间来回查询检索,耗时费力,不利于数据的再挖掘和应用。为此,IODP国际管理公司(IODP Management International,简称IODP-MI)建立了数据的一站式检索服务——地球科学钻探信息服务(Scientific Earth Drilling Information Service,简称SEDISMivilleetal.,2006)。该服务通过对航次、站点、地理位置和时间的检索,可以实现跨平台的数据收集,一定程度上缓解了繁琐的多平台检索问题。但是,相较于各平台数据库,SEDIS很难提供诸如数据参数注释、数据类型筛选等精细的数据检索与其他服务,更多的是对数据集按照航次的简单罗列。

大洋钻探的站点涵盖了各大洋,获得海量的洋壳数据信息,这些信息的整合、挖掘和充分利用应当是今后工作一个重要方面。综合大洋钻探计划已将“地球系统科学”列为指导思想,追求横向的学科综合。2013年开启的国际大洋发现计划设立了更为宏伟的综合目标,即“照亮地球的过去、现在和未来”,旨在实现纵向上贯穿地球历史并延续至未来的跨学科综合研究。宏伟的跨学科目标是实现大洋钻探重大科学发现的关键(Witze2009)。但这一目标的实现需要大数据的支撑,需要跨学科跨平台的数据的集成与互联互通,需要建立公开共享的数据获取方式,具体建议如下。

(1)数据类型需统一,平台需整合。目前大洋钻探的数据被分别存储在不同平台数据库中,由于平台之间数据参数和精度不同,造成数据的获取和综合利用都极不便利。因此,需要建立协作机制,对现有的三个平台数据库的数据进行有效的质量控制和整合。数据类型需要规范,定义和格式均需要统一。三大平台如果使用同一种数据库管理系统,在此基础上,彻底打通各平台间的数据沟通,建立各平台之间的数据关联体系。

(2)建立多模式的数据检索系统。现有的几个数据库建设较早,其数据检索和使用的方式相对简单。各平台主要的检索方式还是基于航次和样品号,缺少基于数据其他属性的检索方式,如在岩石学研究中,岩芯的岩性检索需求可能比航次号更为普遍。如果能提供不同的数据检索模式,提供不同的检索选择与组合,将有助于用户更加高效地查询和获取数据,提高数据的使用效率。

(3)集成多样化的数据处理工具。目前,信息科学领域已经发展出很多成熟的数据可视化、挖掘和分析工具,这些工具如果可以有效地集成在统一的平台体系中,对大洋钻探所获得的海量数据中隐含规律的识别和分析,将发挥巨大的作用。

摘自:《高校地质学报》2020年第4

扫一扫在手机打开当前页

国际大洋科学钻探的数据资源与共享现状

科技外事处 2020-12-30

国际大洋科学钻探的数据资源与共享现状

1国际大洋科学钻探简介

深海是当今地球表面的主体,水深超过2000m的深海占据了地球面积的60%:深海沉积物由亿万年的陆源输入物质和海洋自生物质积累、压实而成,所包含的物理、化学、生物信息是地质历史时期气候、生物以至整个地球生态的重要纪录。此外,这些沉积物还记录了洋壳的形成、扩张和消亡过程,是研究固体地球壳幔循环和地球动力学的有力证据。国际大洋科学钻探是特别针对深海研究所设计的一项国际海洋研究合作计划,通过专业的远洋作业平台获取深海的沉积样本和岩石标本,记录钻孔的地球物理和地球化学信息,观测海底环境,揭示地球的演化历史及其动力学机制。

大洋钻探的每一个航次都有预先设定的科学目标,通过丰富的观测数据和样品资料,支撑了众多重大科学发现,例如证明了洋底扩张和洋陆交界的俯冲(Mulleteta1.,2008),发现了“地中海变干事件”(Hsueta1.,1982),揭示了5500万年前由海底温室气体溢出引起的高温事件(Kennettand Stort1991;Zachoseta1.,2008),等等。在资源勘查方面,大洋钻探也发挥了关键作用,例如,经过对大陆边缘连续21年的勘查,揭示出大陆岩石圈的破裂过程以及大陆裂解早期的地壳变化,这对于了解全球大型油田的形成至关重要(Peroneta1.,2013)2004年钻人北冰洋底的破冰船发现了该地5000万年前处于湖泊环境,在此基础上的古生物学、地层学、古气候学研究揭示出该地区是一个理想的生油环境(Moraneta1.,2006;汪品先,2008)。由此可见,大洋钻探作为一项执行超过半个世纪的国际合作计划,其获得的样品和数据早已不再限于为某一学科领域服务,而是与地质学、生命科学、资源工程等数个学科领域都息息相关。

大洋钻探最早可以追溯到1961年开始的“莫霍钻”计划(Mohole Project),旨在从深海底部钻穿地壳,获取地幔样品。然而技术的不成熟导致该计划到1966年仍未达到预期效果,从而失去了政府资助并最终夭折(Beckeretal.,2019)。从1966年起,科学家将目光放到了洋壳玄武岩之上较易钻探的沉积岩层(金性春等,1995),经过两年的筹备,19688月,深海钻探计划正式启动(Deep Sea Drilling Project,简称DSDP),由“挑战者号”钻探船执行航次任务,大洋钻探的数据记录也由此开始。1983年,新一代钻探船“决心号”被启用,项目进一步发展为大洋钻探计划(Ocean Drilling Program,简称ODP)。相较于之前的“挑战者号”钻探船,“决心号”搭配了更为先进的设备,钻探深度也有了很大的提升。大洋钻探计划期间,“决心号”共执行了110个航次,在全球各大洋钻井2000口,取回岩芯22.3万米,科研人员使用大洋钻探数据发表的国际学术论文达到7200篇(汪品先,2018)。至ODP末期(2003年),参与项目的国家和地区已经达到了22(Smithetal.,2010)20032013年期间,在DSDPODP的科研成就和广泛的国际合作关系基础上,新一代的钻探计划——综合大洋钻探计划(Integrated Ocean Drilling Program,简称IODP)开启了新世纪深海科技的竞赛,并最终于2013年发展为目前正在进行的国际大洋发现计划(International Ocean Discovery Program,简称IODP)

至今执行已超过半个世纪的大洋钻探计划,获取了海量的来自深海的珍贵数据。在数据科学日益成熟的时代,如何对大洋钻探数据进行深度的融合、利用,发掘它们的深层价值,是一个值得探索的问题。而进行这个探索,首先需要深度理解大洋钻探的数据,明了它们的类型、结构、特征,进而发掘应用前景。

2大洋钻探的数据类型

从深海钻探计划(1968年)到国际大洋发现计划的50余年里,大洋钻探共进行了300余次远洋考察,钻井广布在全球各大洋,获得的岩芯总长度已达40余万米。这些岩芯通常在船上进行常规测试,随后运送至特定的岩芯库中保存,后续可供科学家开展航次后研究(中国大洋发现计划办公室等,2018)。

20世纪60年代后期,深海钻探计划建立了数据库管理系统,对所获岩芯的各项测试结果以及每个站位的钻井数据进行统一、规范的记录和存储。数据的获取和存储需要经历船只定位、钻探取芯、样品测试和数据存储四个过程。在钻探船定位和钻探取芯的过程中,由于海底环境变化以及取芯过程存在丢失的问题,因此每一个站位通常有多个钻孔,不同钻孔的数据获取量也伴随钻探的进行程度有所不同。钻探时,钻头取芯的位置和长度根据钻探时的具体情况决定,获得的岩芯会被记录钻取位置,其长度被称为取芯长度,它和钻头前进总长度的比值称为岩芯取芯率。每个岩芯被取出后都会获得专属编号,并产生一系列相关的标识信息,称为岩芯概况信息,包括航次号、站位号、钻孔号、经纬度、获取位置等。在钻探船上,岩芯通常会被切割成多个岩芯段保存,并取指定间隔进行更为细致的观察。这些岩芯段就成为后续分析的样品,因此岩芯概况信息是样品的“身份证”,样品在后续部分所有的测试结果都会与这些标识信息关联。在切割过程中产生的岩芯切割后样品数量、样品位置、长度、体积等数据,保存在“样品报告”和“监管报告”中。之后对样品进行各种物理、化学等检测,还会陆续获得“样品图像”、“物理属性”、“化学与微生物属性”和“X射线分析结果”等数据。这些数据构成了大洋钻探数据库的基本数据内容。

国际大洋科学钻探的数据按照类型分集,被保存在平台的数据库中,特定学科的数据,如古生物学、地球化学、岩石学数据等,具有较强的研究和再利用价值,被各个专业科学数据库整理、归纳和存储。

值得注意的是,每当航次结束后,获取的样品及数据会进入约一年的保护期,期间仅船上科学家团队成员可以对样品和数据申请访问。因此,大洋钻探的数据具有一定的延时性,即最新航次的数据和样品公众不能即时获得。

3数据的储存

3.1岩芯数据库及其建立背景

2003年开始的综合大洋钻探计划共有三个钻探平台,由两艘固定的钻探船及少量租用的研究船完成钻探任务。美国主导的钻探平台是最活跃的大洋钻探平台,其使用的“乔迪斯·决心号”(JOIDES Resolution,简称JR)进行无立管的传统钻探,井深一般不超过2000m。日本的钻探平台始于2007年,其旗下的“地球号”(Chikyu)钻探船设备更加先进。相较于“决心号”,它具有一个可选用的立管和防喷装置,钻杆由外壳包裹,以提供泥浆回流。泥浆在钻井过程中具有护壁、携渣、冷却和润滑的作用,使得“地球号”的作业深度更深更安全。欧洲所主导的“特定任务平台”(Mission Specific Platfonn,简称MSP)并不拥有专属的钻探船,而是根据具体的科学目标,在市场上租用适用的钻探船或钻井平台。

从“决心号”和“地球号”这两个平台取得的岩芯通常在船上就开展常规分析和测试,“特定任务平台”获取的岩芯在船上开展少量的测试,多数则是安排在岸上集中描述和测试。通过测试可以获得岩芯段样品的常规的物理、地球化学和古生物学等信息,如磁化率、颜色反射率、岩芯碳总量和碳同位素分析以及内含的微体化石等。这些数据被存储在相应平台的独立数据库中,分别为美国的实验数据信息管理系统(Laboratory Information Management System,简称UMS)、日本数据库系统(Japanese Database System,简称J-CORES)和特定任务平台航次数据库(Mission-Specifc Platformexpeditionsdatabase,简称MSP)

3.2数据的储存特点

基于大洋钻探的平台设置和运作方式,大洋钻探的数据储存具有明显的特点。首先,数据存储分散。从空间上来看,综合大洋钻探计划开始后,大洋钻探任务被交由三个钻探平台分别实施,取得的数据在各自平台的独立数据库中存储。从时间上来看,大洋钻探发展至今,经历了4个阶段(深海钻探计划、大洋钻探计划、综合大洋钻探计划、国际大洋发现计划),不同阶段获得的数据类型以及之后的存储均各具特色。例如综合大洋钻探时期样品的编码、数量等基本信息被单独存储,而在国际大洋发现计划时期这些数据连同样品的标识信息(包括样品位置信息、体积信息等)一起整合为“样品报告”存储,用户只需查看报告就可以一览所需样品的所有标识信息。其次,航次数据相互独立。大洋钻探的每个航次都是立足于不同的科学提案,探索不同的区域,获得的岩芯以及数据都是独立的,不同航次之间一般没有直接联系。再次,数据类型多样。对数据库中的每一段岩芯来说,其数据全面描述岩芯沉积物的各方面属性,导致数据类型多样化,包含文本、图表、照片等等。这些数据相互补充,基本可以满足用户的一般需求。

4岩芯数据库

4.1“决心号”平台数据库-JanusLIMS

“决心号”的数据最初被存储在Janus数据库中,2009年后,平台开始使用LIMS作为新的数据库,并整合了Janus数据库的数据内容。LIMS是美国主导的实验数据信息管理系统,储存了1966—2003年期间执行的深海钻探计划、大洋钻探计划航次的数据。进入综合大洋钻探计划阶段,随着三个独立钻探平台先后建成,数据开始分散储存到各自的平台系统中。因此,该数据库此后仅储存由“决心号”获得的样品数据。

大洋钻探数据库的数据存储结构是基于样品的,即各类数据籍由样品存储。在LIMS中,所有测试数据和结果数据基于样品以动态表的形式存储在数据库中。通过编辑器LIMS Editor,用户可对数据进行查找和修改。LIMS Editor提供一个辅助的Oracle型数据库ASMAN,管理者通过它上传图像、Excel工作表等信息来编辑主数据库中的数据。

在数据检索和共享方面,LIMS提供LIMS ReportsLIMSInformation Viewer两种数据检索方式及相应的阅览和下载服。用户可以通过对具体航次的钻孔号、岩芯段等信息进行多种组合检索,从而准确获得所需的数据。

数据库中的岩芯数据(coredata)包括了岩芯的钻取位置、长度、深度等概况数据,岩芯段样品取样信息、长度和分类等样品统计数据,样品普通照片、显微镜下照片和扫描电镜照片等图像数据,样品的物理、化学属性、岩石类型、所含的微体古生物类型与数量、X射线检测结果以及污染物信息(miCrobiologydata)等各方面属性数据。其中,样品岩性、所含古生物化石、包含的接触关系等数据被称为岩芯描述信息,以电子表的形式存储,需要通过数据库内置程序——DESCReports进行检索和下载。

数据的检索结果通常以两种形式呈现,“标准报告”(StandardReport)和“扩展报告”(ExpandedReport),均可以选择并与数据主题组合进行输出。

“标准报告”提供常用和必要的数据。以“岩芯综合信息及图像”为例,标准报告提供的数据有航次、站点、钻孔、岩芯号、取芯工具、岩芯段样品位置、样品图像、文件名、取样分析时间、样品数据ID、测试工具号码和样品备注。“扩展报告”则提供所有与“岩芯综合信息及图像”相关的数据,包括四个部分:样品信息,包含样品的标识和属性;测试信息,包含所有与样品测试方法和有关的设备的信息;位置信息,包含岩芯取样详细位置信息;结果信息,包含样品的所有测试细节以及结果信息。“扩展报告”涵盖了“标准报告”提供的所有数据,同时补充了更多细节信息,例如样品取自的岩芯编号、长度、截取后的长度等。

“标准报告”或“扩展报告”均免费向所有用户开放。数据库建立这两种不同检索结果的目的在于提供不同用户以合适的信息。“标准报告”主要面向一般用户,而“扩展报告”则主要面向更有经验的专业科研人员,使得他们可以获取更多的细节数据探究具体的专业问题。

相较于上一代Janus数据库,LIMS数据库的整体体系已较为成熟,所含数据类型及共享方式也日趋完善和体系化。数据库包含数据类型丰富,多样的数据筛选方式有利于用户精准获取所需数据,虽然库中少量较早航次的部分数据存在丢失现象,但是可以通过航次后报告获取。

4.2“地球号”平台数据库-J-CORES

“地球号”钻探船于2007年正式投入使用,截至2019年,共参与了综合大洋钻探计划与国际大洋发现计划两个阶段的任务,累计执行航次17个,其中在前一阶段航行12次,后一阶段5次。就钻探船的性能而言,“地球号”无论是在钻探深度亦或是设备多样性上都领先于“决心号”。但是“地球号”执行的任务数量并不多,产生的数据总量也与“决心号”有较大差距,这在一定程度上与其每年高达8000万美元的平台运行费用以及21世纪以来日本的经济波动有很大关系(汪品先,2018)

“地球号”属于国有资产,每年运行费用主要来自日本文部省的拨款,并由日本海洋研究开发机构(Japan Agencyfor Marine-Earth Scienceand Technology,简称JAMSTEC)负责日常运营。因此,“地球号”所获得的数据均保存在日本数据库系统(Japanese Database System,简称J-CORES)中。J-CORES中的数据以数据文件的形式存储,并通过Bulk Export函数输出在SI07网站上,因此SI07网站上数据文件名常由“bulk”和延伸名称组成。用户可以在SI07网站中查询“地球号”的数据,并对数据文件进行下载(http://si07.jamstec.go.jp/contents/)。此外,由JAMSTEC负责的全航次信息数据查询网站(Data Researchfor Whole Cruise Information,简称DARWIN)中也储存有“地球号”的数据,并且提供数据查询和下载服务。需注意的一点是,大洋钻探的航次编号基本依据执行时间排列,永不重复。因此连续号码的航次可能由不同平台执行,数据保存在相应的数据库中。例如IODP358的样品由“地球号”采集,数据存储在J-CORES数据库中;IODP359则由“决心号”采集,数据存储在LIMS数据库中,在依照航次查询数据时需要注意。

SI07网站中,同样可以根据航次及具体钻孔号对数据进行组合搜索。所含数据包括岩芯的钻取位置、长度、深度等概况数据,岩芯与样品照片等图像信息,以及岩芯的物理、化学和污染物属性等。这些数据按照航次整理,代表对岩芯开展常规测试获得的所有数据。但在SI07网站上用户无法直接对数据类型进行检索,这在一定程度上影响“地球号”数据查询的便利性。

相较而言,“地球号”数据库受限于航次数量及平台建设时间,包括检索在内的数据库基本功能并不完备,数据库界面也较为原始。在数据类型方面,数据库的数据类型较为齐全,但是缺乏古生物化石数据。

4.3特定任务平台数据库-MSP数据库

MSP数据库由世界数据中心海洋分中心(World Data Center-Marine,简称WDC-MARE)和地球科学与环境数据发布网(Publishing Networkfor Geoscientific&Environmental Data,简称PANGAEA)提供支持。从综合大洋钻探计划时期至今,MSP累计执行航行任务8次,包括综合大洋钻探计划5次,国际大洋发现计划3次。虽然资金投入少于“决心号”和“地球号”,但是由于钻探目标常常选择“决心号”和“地球号”不能钻探的浅水和极地冰区,往往取得科学上突出的成果。

MSP数据库中的数据根据航次分集。在指定航次后,用户可输入钻孔号、数据类型、时间等检索指令来检索相应数据。检索到的数据可以选择网页格式浏览,也可以文本文件的格式下载。前者数据格式规范,排列整齐,便于阅读;后者相较而言格式并不规整,偶有错行错列的现象,并且是“.tab”格式的只读文件。

MSP数据库中存储了丰富的沉积学、古生物学、地层学和地球化学数据。相较于“决心号”数据库,这些数据在MSP数据库中分类更为详细、多样,如古生物数据被细分为微体化石、超微化石、孢粉数据等。MSP获得的数据直接支撑了一些重要的针对北冰洋的研究。例如,对新生代北冰洋的气候、生态和水文学等特征的了解均是基于MSP所存储的海底沉积记录,包括北冰洋始新世的间歇性淡水(Brinkhuiseta1.,2006)、北冰洋新生代的古环境(Moraneta1.,2006)、古新世始新世之交极热事件期间的北极水文学研究(Paganietal.,2006),以及古新世始新世之交极热事件期间亚热带北冰洋温度的探究(Sluijseta1.,2006)等,均是IODP302航次获得的海底沉积记录的研究结果。

4.4三个岩芯数据库的数据内容以及类型对比

三个数据库提供的数据内容总体可以划分为以下几类:岩芯或样品的概况数据(包括钻孔信息、岩芯与岩芯段基本信息等),岩芯图像数据,岩芯物理属性(包括磁性属性)与化学属性,古生物化石信息,通过X射线衍射得到的矿物学信息,通过CT扫描得到的显微结构信息,钻井中松散沉积物的温度、孔隙水、顶部气体等。相比较而言,“决心号”的数据类型更为完整;“地球号”数据库缺少古生物地层数据,含污染物信息;MSP数据库则缺少了岩芯磁性数据。就数据量而言,“决心号”数据库的量值远大于“地球号”数据库和MSP数据库。并且,“决心号”数据库的建设完整度、交互友好度和数据多样性也是三个数据库中最好的。因此,“决心号”数据库的数据架构在一定程度上,可以视为后期三个数据库间数据对比、整合的基准。

4.5测井数据库

三个钻探平台的测井数据(logging data)统一存储在哥伦比亚大学的大洋科学钻探(Scientific Ocean Drilling)在线数据库中。从深海钻探计划至今所有的测井数据都在该数据库储存,而“地球号”和“特定任务平台”仅有综合钻探计划期间获得的测井数据被收录。

该数据库提供了针对项目名称、航次号、钻孔、所属大洋、数据类型及测试工具等的检索,也可通过组合检索进行。数据内容包括测井的各种物理参数,例如波速、导电性、流体参数、孔隙度、电阻系数等。

5国际大洋科学钻探与专业数据库

国际大洋科学钻探的数据除在数据库中保存外,通常还附于相关的出版物中发表。其中的古生物学、岩石学、地球化学等数据被部分专业科学数据库整理并收录。这些数据大多来自于大洋钻探各时期的出版物,类型丰富多样。然而值得注意的是,这些数据按学科分散存储在各个数据库中,不同航次间的数据也基本没有关联性,因此在综合使用时还需要进行一定量的数据整合工作。

5.1古生物数据

大洋钻探的古生物化石数据大部分储存在Neptune数据库和MikrotaxNannotax数据库中。Neptune数据库是基于DSDPODP出版物中的微体化石记录(occurrence records)建立的数据库,截至2019年止,收录了61139个超微化石样品和768057条化石产出记录,包含了18915个分类单元名称,以及458个钻孔的659个年龄模型(Lazarus,1994Renaudieeta1.,2019)。数据库中按照物种信息进行分类、收录和共享。数据库的物种分类名单也由“大洋钻探古生物协作组”持续更新。Mikrotax是微体生物及化石分类群的网上数据库系统,目前包含四个数据库,Nannotaxpforams@mikrotaxradiolaria@mikrotaxAcritax,分别保存超微生物、浮游有孔虫、放射虫和疑源类化石的有关数据记录。Nannotax储存的主要类群是颗石藻。大洋钻探美国执行机构数据库系统(United States Implementing Organization Database System,简称IODPJANUS)超微化石的分类汇编工作为Nannotax提供了部分基础,因此大洋钻探的超微化石产出记录在Neptune中的数据也被用于Nannotax数据库。

5.2地球化学与岩石学数据

JAMSTEC负责“地球号”钻探船的运行,它旗下的航次信息数据库中储存了来自“地球号”钻探船的数据,如地球化学数据等。在其数据库网站中可以根据航次对这些数据进行检索和查询,也可以在Earth Chem(https://www.earthchem.org/)中通过地球化学数据一站式服务:Earth Portal检索到。PetDBEarth Chem中的一个海底岩石学数据库,其中存储了全球海底岩石、矿物和包裹体等的元素化学数据、同位素数据和矿物学数据等(Lehnerteta1..2000)PetDB通过对DSDPODP的出版物进行数字化,收录、整理了大洋钻探的地球化学和岩石学数据。这些数据在PetDB中可通过具体的航次号进行检索。

6大洋钻探数据的现状和展望

在过去的半个多世纪里,大洋钻探计划已经获得了海量的全球海洋数据,并且完成了数据的数字化工作。然而,三大官方数据库却彼此独立,对数据需求量较大的科研用户常常需要在各个数据库间来回查询检索,耗时费力,不利于数据的再挖掘和应用。为此,IODP国际管理公司(IODP Management International,简称IODP-MI)建立了数据的一站式检索服务——地球科学钻探信息服务(Scientific Earth Drilling Information Service,简称SEDISMivilleetal.,2006)。该服务通过对航次、站点、地理位置和时间的检索,可以实现跨平台的数据收集,一定程度上缓解了繁琐的多平台检索问题。但是,相较于各平台数据库,SEDIS很难提供诸如数据参数注释、数据类型筛选等精细的数据检索与其他服务,更多的是对数据集按照航次的简单罗列。

大洋钻探的站点涵盖了各大洋,获得海量的洋壳数据信息,这些信息的整合、挖掘和充分利用应当是今后工作一个重要方面。综合大洋钻探计划已将“地球系统科学”列为指导思想,追求横向的学科综合。2013年开启的国际大洋发现计划设立了更为宏伟的综合目标,即“照亮地球的过去、现在和未来”,旨在实现纵向上贯穿地球历史并延续至未来的跨学科综合研究。宏伟的跨学科目标是实现大洋钻探重大科学发现的关键(Witze2009)。但这一目标的实现需要大数据的支撑,需要跨学科跨平台的数据的集成与互联互通,需要建立公开共享的数据获取方式,具体建议如下。

(1)数据类型需统一,平台需整合。目前大洋钻探的数据被分别存储在不同平台数据库中,由于平台之间数据参数和精度不同,造成数据的获取和综合利用都极不便利。因此,需要建立协作机制,对现有的三个平台数据库的数据进行有效的质量控制和整合。数据类型需要规范,定义和格式均需要统一。三大平台如果使用同一种数据库管理系统,在此基础上,彻底打通各平台间的数据沟通,建立各平台之间的数据关联体系。

(2)建立多模式的数据检索系统。现有的几个数据库建设较早,其数据检索和使用的方式相对简单。各平台主要的检索方式还是基于航次和样品号,缺少基于数据其他属性的检索方式,如在岩石学研究中,岩芯的岩性检索需求可能比航次号更为普遍。如果能提供不同的数据检索模式,提供不同的检索选择与组合,将有助于用户更加高效地查询和获取数据,提高数据的使用效率。

(3)集成多样化的数据处理工具。目前,信息科学领域已经发展出很多成熟的数据可视化、挖掘和分析工具,这些工具如果可以有效地集成在统一的平台体系中,对大洋钻探所获得的海量数据中隐含规律的识别和分析,将发挥巨大的作用。

摘自:《高校地质学报》2020年第4