当前位置: 首页 > 新闻中心 > 中心动态
新材料大数据中心数据模板制定通用要求(征求意见稿)
发布机构:新材料大数据中心 发布时间:2026-02-09 15:40:00

一、引言

新材料大数据中心(以下简称“中心”)建设过程中,需重点解决材料类别多、应用场景多、数据多源异构等原因导致的存储低效、治理困难、流通受阻等难题。为破解上述困局,深度响应《新材料大数据中心总体建设方案》等国家战略部署,面向“物理分散、逻辑统一”的“1+N”分布式材料数据资源体系,中心通过研发统一材料数据资源目录构建、基于标准化数据模板的数据治理存储、安全可信数据融通应用等技术,形成了材料数据库与融通器双载体驱动的全链路方案,推动材料数据从分散存储向逻辑统一、有序流通转型,实现数据共享流通与价值共创。

数据模板是预先定义好的数据组织方式、格式、类型、约束条件及各部分之间关系的结构化模型,具备多粒度、多层次、自设计、可复用、可拼接、可计数等特点,用于确保数据在采集、存储、交换、处理过程中保持一致性、有效性、可用性和可解释性,贯穿材料数据存储-治理-流通-应用全链条,是中心数据流通和价值共创的关键核心,其设计质量直接影响到数据资源的整合效率与利用价值。本文件旨在结合中心的实际需求,对数据模板的设计、审核、应用及反馈等环节提出通用要求,确保数据模板的科学性、规范性和实用性。

二、模板制定基本原则

1.遵循国标与行标,积极制定团标

数据模板的设计宜遵循现有国家和行业相关标准,或遵循达到领域共识的相关资料,确保模板内容的权威性和通用性。例如,在材料数据中涉及到的化学成分数据,应遵循国家化学物质相关标准中对化学成分表示、精度等方面的规定;对于材料的力学性能数据,要符合相关力学性能测试标准中对数据记录和呈现的要求。模板设计应符合国家关于数据安全、隐私保护及信息共享的法律法规要求,保障数据在合法合规的前提下流通。推荐中心各数据资源节点优先通过中国材料与试验团体标准委员会材料数据标准化委员会(CSTM/FC93)发布本领域相关的材料数据模板标准。

2.借鉴已有模板成果

在模板设计过程中,应积极借鉴国内外已有的成功经验和成熟数据模板。通过调研和分析现有模板的优缺点,结合中心的具体需求,参照中心标准化模板库,进行有针对性的改进和优化。例如,参考国际上知名新材料数据库在数据分类、字段设置等方面的先进做法,同时分析国内其他类似项目在数据处理上的特色经验。对于一些在特定新材料领域应用或数据资源节点广泛且效果良好的模板,深入剖析其设计思路和适用场景,将其精华部分融入到本领域的数据模板设计中。

三、模板设计参考规范

1.数据模板命名与标签

数据模板的名称应确保能清晰、准确地反映模板的核心内容与用途。命名应包含对象类别(材料类别、关键属性或应用场景等),宜体现对对象的操作和操作的结果等关键信息,以便用户能够迅速识别并选用合适的模板,提升模板的管理效率与使用便捷性。数据模板宜适配到数据资源节点的三级或二级目录,如6XXX铝合金、轨道交通用铜及铜合金等,以确保模板的针对性、领域通用性和实用性。命名用词应优先参照《工业战略性新兴产业分类目录(2023)》和《材料大辞典(第二版)》,应避免使用过于复杂或晦涩的词汇,确保命名易于理解和记忆。

例如,针对某类特定合金材料的力学性能测试数据模板,其命名可设定为“XX合金力学性能测试数据模板”,其标签可以设置为“6XXX铝合金(二级目录)”或者“汽车板用6XXX铝合金(三级目录)”。其中“XX合金”明确了材料类别,“力学性能测试数据”则描述了模板的主要用途。从领域知识角度,对于一些具有特殊性能或应用的新材料,命名中可以适当体现其独特之处。如“高导热石墨烯复合材料热性能测试数据模板”,既明确了材料类别,又突出了关键属性和测试内容。

2.数据模板设计基本原则

从模板设计的角度,对于相同的材料对象,应尽量使用同一模板进行描述,以确保数据的一致性和可比性。数据模板宜尽量包含能够完整描述材料事件所需的数字化信息的数据要素,即具有确定性对应关系三部分:材料对象(成分牌号)+对对象的操作(条件、工艺、状态等)+产生的结果(性能、性质、表现、反馈等),涵盖从基础信息到具体性能等多方面内容,从而确保基于数据模板创建的数据的完整性和有效性。中心相关系统通过支持对数据集的动态显示控制,即当整列数据为空时,该列不显示,提高数据展示的清晰度和易用性。

模板设计应注重复用性和灵活性,使模板能够适应多种类似材料或应用场景的数据描述需求。在进行不同的模板设计时,应采用统一的术语、数据基元和数据格式,保证数据的一致性和规范性,便于数据的共享和交流。“术语”指材料科学中的某个术语名词,例如“化学成分”、“元素符号”、“热处理温度”、“抗拉强度”等。在术语的基础上,添加上所描述的详细内容及单位,例如“抗拉强度,300 ±10 MPa”,则构成了一个“数据基元”,也即数据模板一个字段。“模板片段”是多个数据基元的有机组合,可当作一个整体进行复用,从而提升模板的标准化程度,降低模板设计难度。在进行数据模板“对象”部分设计时,宜设计“数据来源”相关字段,用于明确标注数据集内每一条数据的来源,辅助确权存证。推荐基于材料数据库系统内置的标准化数据模板片段拼接形成材料数据模板。

3.数据模板字段设计

数据模板由多种字段/控件类型组合而成,约定了数据集的格式类型和数据结构,能够兼容字符串、数值、表格、图像、文件等十大类常见材料数据存储格式,在进行数据模板设计时,应从领域知识出发,考虑数据的应用场景,进行模板字段的设计。

数据模板字段的命名要具体、统一、见名知义,避免使用“名称”、“ID”等笼统词语。对于可采用不同表示形式的字段,应在字段命名时予以明确表示。例如对于化学成分字段,要明确其表示方法,如采用质量分数还是摩尔分数,以及精度要求。不同模板中同一化学成分字段的表示方法不一致,会导致融合后的数据出现混乱,影响后续的数据分析和挖掘。对于材料牌号字段,要遵循国家或行业统一的牌号命名规则,确保不同模板中的材料牌号能够准确对应和识别。

数据模板设计时,应考虑数据的应用场景,以及满足人工智能就绪度和FAIR原则、便于用户认识查看等维度进行字段的具体设计。数据模板可用字段类型如下:

(1)字符串型。用于录入文本内容,可用于描述性字段、公式计算等场景。支持使用公式编辑器录入公式,支持多行文本。 

image.png

(2)数值型。仅支持输入数值,适用于物理量、指标值等纯数值数据描述场景。可设置小数位数、单位及数值范围,上传数据时则仅允许输入符合范围约束的数字。 

image.png

(3)范围型。支持输入范围或误差型数值,适用于材料性能范围、误差区间等场景,仅支持数值输入。 

image.png

(4)候选型。也即选择型,适用于分类、方法选择等场景。在模板设计时预设选项,上传数据时从下拉菜单中选择。 

image.png

(5)图片型。支持上传多种图片格式,适用于实验照片、显微结构图等场景。可设置允许多张图片上传,只允许上传限定格式的图片等。 

image.png

(6)文件型。支持上传多种文件格式,适用于报告、原始数据文件等场景。可设置允许多文件上传,只允许上传限定格式的文件等。 

image.png

(7)数组型。支持录入多组同类型数据,适用于序列数据、曲线数据等场景,如应力-应变曲线数据点坐标等。数组型字段可嵌套除数组型外的所有控件类型。 

image.png

(8)表格型。支持嵌套多种控件类型,形成多行多列的表格结构,适用于成分表、性能表等结构化数据的描述场景。可嵌套字符串型、数值型、范围型、下拉菜单、图片型、文件型字段。 

image.png

(9)容器型。用于合并多个字段,适用于复杂数据结构组织,可用于分组字段、简化表单结构等场景,提高数据组织清晰度。支持嵌套所有控件类型。 

image.png

(10)生成器型。在模板设计时预设不同选项对应不同的数据表单,适用于多形态数据录入场景。用户上传数据时根据所选的选项自动生成对应的表单进行填写。可嵌套除生成器型外的所有控件。 

image.png

4.数据量规则配置

为确保数据的完整性和人工智能可用性,新材料大数据中心对一条完整的材料数据的定义为,包含描述一个材料事件所需的最小可用数字化信息,即具有确定性对应关系材料对象(成分牌号等)、对对象的操作(条件、工艺、状态等)和产生的结果(性能、性质、表现、反馈等)三部分。通过设定明确的数据量统计规则,可精准计算数据集的有效信息量,全面评估数据规模与丰富度,强化数据资源价值,为新材料研发提供可靠的数据支撑与决策依据。

数据量规则配置是数据模板设计的核心环节,所有使用相同模板创建的数据集,均将按照模板预设的统计规则自动计算数据量。目前,从人工智能可用的角度出发,数据量统计规则仅面向结果区域的字段控件,数据集的数据量为结果区域内所有有效数据量的总和。数据模板对应数据量统计规则支持根据实际情况进行自主配置。目前,针对不同的模板字段类型,支持如下数据量统计规则配置方式:

(1)按整个模板计数(不推荐)。此时,完整填写内容后整体计为1条数据。

(2)按整个控件计数。对于数组型、表格型、容器型和生成器型这四种可嵌套其他字段类型的控件,支持按照整个控件计数。特别的,对于数组型控件,支持按照数组内的元素个数进行计数;对于表格型控件,支持按照表格的行数进行计数。

(3)按照输入内容的控件个数计数。对于字符串型、数值型、范围型、候选型、图片型和文件型控件,支持按照输入内容的控件个数进行计数。特别地,对于图片型和文件型控件,支持按照上传的图片/文件的个数精细计数。

在进行具体的统计量配置时,应严格遵循领域共识进行设置,兼顾数据完整性与人工智能可用性,既要避免因统计粒度过粗导致的信息丢失,也要防止因过度拆分引发的数据虚增与分析失真。合理的统计规则应以“对象”、“操作”、“结果”的最小数字化信息为边界,确保统计结果既反映实际样本量,又保留结果内部的关联性。

例如,对于金属材料力学性能测试,正确的数据量统计规则可配置为将结果区域中的数值型字段(“抗拉强度310 MPa”、“屈服强度275 MPa”等)和范围型字段(“断裂延伸率(12%~15%)”等)按控件个数统计为3个数据单元,既明确了材料在特定操作下的性能结果,又通过最小单元统计支持人工智能模型对热处理工艺与力学性能的关联分析。相反,若将应力应变曲线数组型控件中的每个数据点(如200个应力-应变坐标)单独计为一条数据,会导致数据量虚增至200条,既违反领域常识,又将导致人工智能模型误将离散点视为独立样本,最终引发过拟合或分析逻辑混乱。正确的做法是将整个曲线数组整体计为1条数据,同时通过字段标注数据点数(如“数据点数:200”)辅助分析,既保留批量测试信息,又符合最小数字化信息原则。

相反,若错误地将多行多列的表格型对比数据整体计为1条数据,也可能会严重掩盖材料性能的内在差异与变化规律,导致人工智能模型无法识别关键的构效关系。以新型陶瓷材料的添加剂配方筛选实验为例,研究人员需在同一烧结工艺下测试三种不同稀土氧化物(添加剂X、Y、Z)对材料维氏硬度和断裂韧性的影响。若在结果区域配置了一个包含3行4列的表格(列分别为:添加剂类型、硬度值、韧性值、备注),如果错误地将整个表格配置为“按表格整体计数”,系统仅会记录为1条数据,导致人工智能模型只能学到“该材料做过添加剂实验”这一模糊事实,而无法学到“添加剂X能显著提升硬度但降低韧性”这一核心规律。正确的做法是将配置为勾选“硬度值”和“韧性值”两个空间,选择“按单元格计数”,则此表格可准确计量为6条独立数据,每条数据都携带明确的添加剂标签与对应的性能数值,从而支持相关模型进行精准的特征重要性分析与配方优化预测。

综上,准确合理的数据量统计规则不仅是量化数据资产价值的核心标尺,更是决定人工智能模型训练质量与新材料研发效率的关键基石。统计规则的任何偏差——无论是因粒度过粗导致的信息淹没,还是因过度拆分引发的数据虚增——都将直接破坏材料构效关系的挖掘精度,甚至误导研发决策。因此,数据模板中统计量规则的配置绝非简单的技术参数设置,而是深度融合材料学领域知识的严谨科学决策,必须经过领域专家的严格评审,确保每一条数据都能为新材料大数据中心建设提供坚实、可靠的高质量支撑。

5.基于数据模板的数据融合

新材料大数据中心以数据模板为数据集构建依托,并支持通过数据模板的关联字段进行数据集的融合。在进行数据模板设计时,可大致按照应用范围将数据模板划分为领域通用模板和特定应用模板。领域通用模板字段应经过严格筛选,确保90%以上场景无需修改,避免过度设计。模板内宜包含如材料牌号、化学成分等标准化关联字段,便于通过其进行模板关联。对于某些特定材料领域、特定应用场景等情形,宜单独设计特定应用模板,并支持通过关联字段(如材料牌号等)与领域通用模板动态绑定,该模板在字段命名、字段单位、字段精确度等维度应尽可能与领域通用模板保持高度一致,以确保整个数据模板体系的规范性和数据的一致性、可比性,满足人工智能可用。

例如,针对“高温合金”三级目录的领域通用模板可能包含材料牌号、材料名称、密度、熔点、导电性等通用字段。而例如航空发动机涡轮叶片用高温合金数据模板可仅包含材料牌号(关联字段)、叶片形状、叶片尺寸、工作温度范围、应力水平等专有字段。在叶片尺寸字段上,要与领域通用模板中类似相关字段在命名方式上保持一致,比如都用“长度”“宽度”“厚度”等规范表述;单位统一采用国际通用单位,如长度用“mm”;精确度也根据实际测量精度和行业要求,与领域通用模板中相应字段宜保持相同水平,如精确到小数点后两位。

四、模板审核与管理

为确保模板的质量、准确性和合规性,用于向新材料大数据中心融通数据的模板应经过节点内部的多级审核(含专家评审环节)。可将模板应用于实际数据集中进行测试,验证其有效性和稳定性。节点应记录好模板的修改历史,追踪模板的演变过程,便于在出现问题时进行回溯和修复。审核人员应具备本领域较丰富的专业知识,能够对模板中字段设置的合理性、数据记录方式的准确性等进行审核。在模板测试过程中,要选择具有代表性的实际数据集,涵盖不同类型、不同性能的材料数据,以充分验证模板在各种情况下的适用性。

五、总结

本文件描述了新材料大数据中心数据模板制定通用要求,为模板设计和评价提供基本参考与指导。本文件的附录提供了《金属材料电化学腐蚀性能数据模板(样例)》,谨用于展示数据模板相关字段类型的常见使用场景和对应数据量统计规则的配置方法,未经过严格的论证和领域专家评审,不可直接用于新材料大数据中心数据融通过程。

未来,随着新材料大数据中心的不断建设与发展,本文件将不断进行修订完善,助力数据模板在材料数据的整合、共享与应用中发挥重要的作用。如您有针对此文件或新材料大数据中心数据融通相关的意见或建议,请发送邮件至新材料大数据中心数据资源部(联系邮箱:fsx@mbd.org.cn),邮件主题请标注“新材料大数据中心数据模板制定通用要求”相关字样。我们诚挚欢迎社会各界指导和参与新材料大数据中心建设,共同推动AI赋能材料高质量发展。

新材料大数据中心

2026年1月27日

系统提示
请您先登录
提示

您访问的链接即将离开“新材料大数据中心”网站
是否继续?