近日,国家新材料大数据中心统一服务门户在首届中国“AI+新材料”大会开幕式上正式发布(【最新动态】重磅!新材料大数据中心在首届中国 “AI + 新材料” 大会上线发布)。其中,全新上线的用户空间功能,旨在面向广大用户提供个人数据管理与在线开发一体化服务。为便于广大用户快速上手应用,现结合实际应用场景,详细介绍从数据准备到在线开发的全流程操作。
一、用户空间简介
目前,用户空间功能包含个人数据管理、在线开发空间、应用任务列表管理、互动反馈列表管理等功能,本次重点介绍个人数据模块和开发空间模块。

新材料大数据中心统一服务门户——用户空间
1、个人数据
「我的数据」:集中管理用户研发相关数据,涵盖我的数据集、我的应用数据、我的收藏数据;
「我的模板」:数据模板是预先定义好的数据组织方式、格式、类型、约束条件及各部分之间关系的结构化模型,用于确保数据在采集、存储、交换、处理过程中保持一致性、有效性、可用性和可解释性,贯穿材料数据存储-治理-流通-应用全链条。目前,支持用户自定义创建模板以及复用中心已有模板。
2、开发空间
「机器学习」:可一键跳转至机器学习平台,系统自动完成身份校验与权限匹配,支持直接调用用户空间数据集开展在线建模;
「任务列表」:统一管理各数据产品的执行任务,当前版本开通机器学习工作流任务管理,可实时查看任务执行结果、下载成果数据、追溯历史任务,实现开发成果的一站式归档与复用。

数据流
二、用户空间数据在线开发案例流程
(一)数据准备
1、获取数据集
用户空间目前支持用户在"数据检索”、“数据资源”等模块进行目标数据集的订阅或者基于数据模板上传个人数据。
1)订阅数据集
在数据资源->专题数据集进行目标数据集的订阅。

用户订阅数据至用户空间
2)上传个人数据
在用户空间->个人数据进行数据集模板创建、数据上传。
01 创建数据模板
· 基础设置:填写模板名称、标签、说明等信息;
· 模板设计:拖拽字段控件搭建模板结构,也可导入已有模板;
· 规则配置:设置数据量统计规则,完成模板创建。

用户空间创建数据模板
02上传个人数据
· 创建数据集:填写名称、摘要,选择已建好的模板;
· 上传数据:支持在线填写或 Excel 批量上传两种方式。

用户空间数据上传
详细操作可参照 :【案例分享】材料数据库系统:模板创建到数据发布全流程操作案例
(二)在线开发
本次案例应用个人上传的【铜合金冷轧工艺性能】数据集进行基本的材料机器学习开发流程演示。
第一步:数据获取
点击左侧菜单开发空间->机器学习,即可直接进行在线开发,系统自动校验权限,无需二次导入数据,可直接拖拽用户空间数据集开展开发。

用户空间跳转至在线开发
第二步:数据预处理
对接入的数据集进行精细化清洗与优化。平台已封装40 余项数据预处理算子,支持用户针对性处理数据问题:
[剔除冗余字段]:使用 “删除” 组件移除实验编号、备注等无关字段;
[清洗无效数据]:使用 “去空值” 组件删除成分或性能缺失的样本,使用 “列类型转换” 组件统一成分、性能数据格式;
[优化训练数据]:使用 “数据分割” 组件按 8:2 划分训练集与测试集,若要优化训练模型效果,使用 “过滤” 组件优化训练数据。

数据预处理
第三步:机器学习算子选定
根据研发目标,选择适配的算子组件,搭建核心机器学习分析模型。本案例演示预测材料性能功能,因此选用回归类算子。拖拽「XGBoost 回归」或「随机森林回归」等算子至画布。
第四步:模型参数配置
点击已接入的算子组件,进行可视化参数配置。
变量配置:将数据集的非目标性能列(一次时效温度、一次时效时间、二次时效温度等)设为预测变量,目标性能列(抗拉强度)设为目标变量,完成模型关联;
超参数微调:可采用平台默认参数(适配材料场景),也可根据研发需求微调线程数、学习率、迭代次数等参数;

参数配置
执行训练:右键点击「XGBoost 回归」组件“执行”,系统自动运行模型训练,生成初步分析结果。

xgboost执行训练
第五步:模型验证与成果应用
完成模型训练后,进行有效性验证并生成标准化开发成果。
模型验证:添加「回归交叉验证」、「回归评估」、「应用」组件,再次执行,系统自动生成残差分布图、评估指标等,核验模型拟合效果与可靠性;
成果生成:三个节点模型验证节点,均右键单击 “执行”,系统将生成材料性能预测结果表、高强度配方筛选清单、分析报告、模型文件等开发成果;
也可以在画布顶部点击“一键执行”按钮,执行画布中所有流程节点。

一键执行工作流
详细流程可参照 :【案例分享】材料机器学习平台:拖拽式机器学习工作流设计操作案例
(三)结果保存
执行完成的结果数据实时保存到用户空间任务列表,用户可以进行结果在线查看和下载。

返回查看结果数据
总结
新材料大数据中心将持续优化升级用户空间与机器学习平台在线开发的功能,深化与机器学习平台的协同联动,加快推进材料逆向设计等专业算子组件、高值数据隐私计算等功能的研发落地,为广大材料用户提供更高效、更便捷、更安全的数据管理与在线开发服务。
欢迎广大用户在使用过程中积极反馈体验问题与优化建议,相关意见可发送至邮箱:cxr@mbd.org.cn,中心将及时响应、持续改进,不断提升平台服务能力与用户体验。
请您先登录
