新材料大数据中心_站点信息

【案例分享】材料机器学习平台：拖拽式机器学习工作流设计操作案例

发布机构：新材料大数据中心发布时间：2025-11-28 08:00:00

第九届材料基因工程国际论坛期间，新材料大数据中心公开发布了材料机器学习平台，并在现场设置了专属产品演示与交互区域，直观呈现产品核心功能与技术价值，吸引了众多专家学者的广泛关注。为了便于各位专家学者更好地了解系统功能，本文以两个实战案例介绍平台的实际使用流程和操作。

访问入口

官方网址：http://mldevelop.matbd.cn，可自行注册与登录。

案例一基于支持向量机的7XXX 铝合金抗拉强度预测

案例1图1.png

工作流总览（全组件拖拽实现）

1、数据导入与清洗

拖拽「导入Excel文件」组件，上传“7XXX铝合金成分数据集”，系统可自动识别Zn、Mg等成分列与抗拉强度、延伸率等性能列；调用「删除」组件剔除“id”及非目标性能列（如断裂韧性），「列类型转换」组件将抗拉强度列设为整数型，确保计算有效，最终保留12列核心数据（11种成分+抗拉强度）。

案例1图2.png

删除列配置

2、数据标记与平衡

通过「过滤」组件设置条件 “抗拉强度≥550 MPa”，锁定高强度配方研究范围；因高强度样本占比仅 42%，启用「过抽样少数类」组件，设置“目标值550、最小比例0.5”，平衡数据分布，避免模型偏倚。

案例1图3.png

过滤节点配置

3、数据分割与模型构建

「数据分割」组件按2:8比例划分测试集与训练集，确保数据分布一致性；

拖拽「支持向量机回归」组件，设置 Zn、Mg 等11种成分为预测变量，抗拉强度为目标变量，配置核函数为多项式、成本参数C=1.2、Gamma=0.15，其余参数自适应优化。

案例1图4.png

支持向量机回归节点参数配置

4、模型验证与结果输出

使用「回归交叉验证」组件执行10折验证，输出模型核心指标；

案例1图5.png

回归交叉验证输出试验报告

右键「回归评估」组件输出端口，生成模型诊断图；

案例1图6.png

回归评估输出端口获取的模型诊断图

选择「应用」组件导入待预测成分表，快速得出抗拉强度预测结果。

案例1图7.png

应用端口输出的预测结果

案例二基于XGBoost的7XXX系铝合金高抗拉强度成分筛选

案例2图1.png

工作流总览（全组件拖拽实现）

1、数据导入与清洗

使用「导入Excel文件」组件上传数据集，「删除」组件剔除冗余列，「去空值」组件删除3组成分缺失样本，最终保留166组完整数据，确保分析可靠性。

案例2图2.png

去空值配置

2、数据标记与平衡

通过「列派生」组件新建“is_true”标签列，设置条件函数，将抗拉强度≥550MPa标记为“1”（高强度），否则为“0”（非高强度），快速实现分类目标定义。

案例2图3.png

列派生节点配置

3、数据分割与模型构建

使用「数据分割」组件按8:2比例划分训练集与测试集，聚焦核心成分特征；拖拽「XGBoost 分类」组件，配置预测变量为 Zn、Mg 等成分，目标变量为“is_true”，加速器设为gbtree、线程数5、学习率0.15、回合数20，构建高效分类模型。

案例2图4.png

XGBoost分类节点参数配置

4、模型验证与结果输出

使用「分类交叉验证」组件执行5折验证，输出ROC图；

分类交叉验证输出端口获取的ROC图

右键「分类评估」组件输出端口，生成LIFT图（最大提升度2.94），直观证明模型区分能力；输出核心指标准确率91%、精确率90.9%、高强度配方召回率95.6%，确保筛选无遗漏；

案例2图6.png

分类评估输出端口获取的LIFT图

案例2图7.png

分类评估报告

「应用」组件导入全量数据集，快速筛选出24组高强度配方，其中2组为传统方法未发现的潜在优质方案。

案例2图8.png

应用端口输出的预测结果

材料机器学习平台以低代码智能化为核心导向，将人工智能与机器学习算法封装为“拖拉拽”式的算子组件，支持用户快速搭建自定义的材料领域机器学习模型，深度服务材料性能预测、成分设计及机理分析等关键任务。为提升服务水平，测试和优化功能，敬请广大用户对材料机器学习平台的设计、功能、内容、页面等提出意见与建议（反馈邮箱：cxr@mbd.org.cn）。新材料大数据中心将认真研究、积极改进，努力提升服务质量。