新材料大数据中心(以下简称“中心”)建设过程中,需重点解决材料类别多、应用场景多、数据多源异构等原因导致的存储低效、治理困难、流通受阻等难题。数据模板作为保障材料数据全链路一致性的核心,用于确保数据在采集、存储、交换、处理过程中保持一致性、有效性、可用性和可解释性,是中心数据流通和价值共创的关键核心。为让相关主体更清晰地掌握数据模板的设计逻辑、创建流程与实操方法,本文将以《金属材料电化学腐蚀性能数据模板》为具体案例,对数据模板相关名词、设计原则、设计依据及创建步骤等内容进行详细拆解,为材料数据模板的规范化创建提供实操参考。
一、 数据模板相关名词介绍
· 术语:材料科学中的某个术语名词。
· 数据基元(字段):术语及对字段内容和单位的描述。
· 模板片段:由多个数据基元构成。
· 数据模板:数据模板是预先定义好的数据组织方式、格式、类型、约束条件及各部分之间关系的结构化模型,由数据基元或模板片段构成,具备多粒度、多层次、自设计、可复用、可拼接、可计数等特点。数据模板能够完整描述材料事件所需的数字化信息,须包含三大要素:材料对象(成分牌号)、对对象的操作(条件、工艺、状态等)、产生的结果(性能、性质、表现、反馈等)。
· 一条材料数据:依托材料数据模板,以电子化形式记录的描述一个材料学事件所需的最小可用数字化信息。

图1 相关名词关系

图2 名词概念及示例
二、模板设计原则
1. 构建通用框架
数据模板应涵盖从基础信息到具体性能等多方面内容,对于相同的材料对象,应尽量使用同一模板进行描述,以确保数据的可比性。
2. 统一字段描述
在进行不同的模板设计时,应采用统一的术语、数据基元和数据格式,保证数据的一致性和规范性。
3. 标明数据来源
在进行数据模板“对象”部分设计时,宜设计“数据来源”相关字段,用于明确标注数据集内每一条数据的来源,辅助确权存证。
三、模板设计依据
1. 明确模板用途及核心内容
根据不同材料数据特性与应用场景,明确数据模板的用途与核心内容,将模板适配到合适的数据资源目录,提升管理效率,促进模板复用。
2. 依据相关国家及行业标准
数据模板的设计宜遵循现有国家和行业相关标准,或遵循达到领域共识的相关资料,确保模板内容的权威性和通用性。
3. 借鉴现有成果并优化完善
在模板设计过程中,应积极借鉴国内外成功经验和成熟模板,以及中心标准化模板库,结合具体需求,进行有针对性的改进和优化。
四、模板创建步骤
1. 基础设置
填写模板信息:包括模板名称、标签、说明、可见范围等。
模板名称应确保能清晰、准确地反映模板的核心内容与用途,体现“对象、操作、结果”等关键信息。如在《金属材料电化学腐蚀性能数据模板》中,明确指出该模板适用的材料类别为金属材料,主要用于电化学腐蚀性能数据。

图3 基础设置页面
2. 模板设计
根据领域知识及数据的应用场景,从控件类型区选择合适的控件,拖拽至模板设计区,并对控件对应的字段进行设置。

图4 模板设计页面
数据模板字段的命名要具体、统一、见名知义,对于可采用不同表示形式的字段,应在字段设置时予以明确表示。通过规范字段设置,保障数据共享交流顺畅,为后续依托“关联字段”开展数据融合工作提供坚实基础。
例如,《金属材料电化学腐蚀性能数据模板》使用“材料名称”“材料牌号”等进行材料对象描述,避免使用“名称”、“ID”等笼统词语。

图5 设置字段名称
对于化学成分字段,在模板设计时规定采用质量分数表示,并限制精度要求为两位小数。

图6 规范表述方式
数据模板设计时,应考虑数据的应用场景,满足人工智能就绪度和FAIR原则,选择合适的控件类型进行字段设计。如 在图6中,“化学成分”使用表格型控件,每添加一行“化学成分”,都会包含元素名称、元素符号以及占比等信息;在图7中,“材料形状、规格”使用生成器型控件,可向其中拖入棒材、线材等选项,填写数据时,选择其中一个选项进行填写。

图7 生成器型控件示例
3. 数据量规则配置
模板字段设计完成后,须设定数据量统计规则,以便捷统使用此模板创建的数据集包含的有效数据量。
针对不同的模板字段类型,支持按整个模板计数、按整个控件计数,以及按输入内容的控件个数计数。在配置《金属材料电化学腐蚀性能模板》的计数规则时,选择数值型控件“开路电位”、容器型内的数值型控件“腐蚀电流密度”和“腐蚀电位”计为数据量。配置完成后,可点击页面右上角“模拟”按钮,进行数据量统计规则验证。例如,在以上三个字段内填入内容后,顶部显示“本行数据的数据量为:3”,即按照本模板填写的一行数据,其数据量为3条。

图8 数据量规则配置
五、模板审核管理
为确保模板的质量和合规性,模板创建完成后,需要通过系统内多级审核,审核通过后方可用于数据集创建;其中,面向新材料大数据中心进行数据融通的模板,还需额外完成专家线下评审环节。
六、总结
本文以《金属材料电化学腐蚀性能数据模板》为例,梳理并阐释了材料数据模板相关名词概念、模板设计的核心原则与依据,详细介绍了模板从基础设置、字段设计到数据量规则配置的全流程实操方法,旨在为材料数据模板的规范化创建提供清晰、可落地的案例参考。本文案例谨用于展示数据模板相关字段类型的常见使用场景和对应数据量统计规则的配置方法,未经过严格的论证和领域专家评审,不可直接用于新材料大数据中心数据融通过程。
数据模板制定的具体规范,可详细参考《新材料大数据中心公益数据融通共享流程(征求意见稿)》、《新材料大数据中心数据模板制定通用要求(征求意见稿)》等文件。未来,随着新材料大数据中心的不断建设与发展,相关文件将不断进行修订完善,助力数据模板在材料数据的整合、共享与应用中发挥重要的作用。
新材料大数据中心将持续优化材料数据库系统功能,完善数据模板相关标准规范,同时欢迎广大用户通过反馈邮箱(fsx@mbd.org.cn)提出宝贵意见与建议。我们诚挚欢迎社会各界指导和参与新材料大数据中心建设,助力构筑覆盖面最广、规模最大的全球材料数据资源领先优势。
请您先登录
