当前位置: 首页 > 首页滚动新闻
【案例分享】新材料大数据中心-材料科技论文数据抽取系统:材料论文曲线数据一键抽取(附三大典型案例)
发布机构:新材料大数据中心 发布时间:2026-06-03 08:30:00

引言

为满足用户对材料研发和数据应用全方位需求,贯通“设计—研发—制造—应用”全链条,新材料大数据中心通过自主研发、联合开发等模式,持续扩展数据产品供给能力,覆盖材料数据采集处理、计算分析、设计、特色大模型与智能体等。中心依托统一服务门户打造“数据产品”模块,目前已上线多款面向材料领域的专业化数据产品软件,其中,针对数据采集的材料科技论文数据抽取系统近日完成功能升级。

f6e3b042f0d92dac9477b6dbe6708fd0.png

图1 抽取系统整体功能示意图

材料科技论文数据抽取系统通过集成文献管理、主题分析、数据自动抽取和结果可视化等功能,实现了从材料科技论文到结构化数据的自动转换。

· 论文库:支持PDF、XML和HTML等多源异构文献的导入与管理,帮助用户构建个性化的知识库;

· 主题分析:可基于文献内容自动分析研究主题和相关热度,辅助用户确定相关的抽取目标;

· 数据抽取:自动识别并提取文献文本、表格中的关键信息,包括成分、合成与制备工艺,以及物理和化学性能等核心要素,并互相关联形成结构化数据集;针对曲线图,自动识别并提取图题、横纵轴名称、图例以及曲线中数据点的横纵坐标信息;

·可视化:提供抽取结果可视化功能,支持条形图与散点图的生成,帮助用户深入理解整体数据分布和特征间的关联关系。

本次功能升级,特别强化了 PDF文献曲线数据专项抽取能力,支持从 PDF格式文献中自动识别并提取材料成分、制备工艺、测试条件、性能指标及曲线坐标点等关键信息,实现从“曲线图像”到“结构化数据”的高效转化。

为帮助用户更直观地了解系统的操作流程与应用价值,本文选取钢铁材料应力应变曲线、Co基高温合金DSC曲线和钢铁材料极化曲线三个典型案例,分别展示本系统在力学性能、热分析性能和腐蚀电化学性能曲线数据抽取中的效果。通过这三个案例,用户可掌握系统在多场景下的数据抽取能力,切实提升科研数据整合与再分析的效率,为论文图表数据复用提供坚实的技术支撑。

案例一:钢铁应力应变曲线数据抽取

在先进高强钢和中锰钢研究中,应力-应变曲线是评价材料强塑性匹配、加工工艺有效性和变形机制的重要数据来源。与单一性能数值相比,应力-应变曲线不仅可以提供屈服强度、抗拉强度和总延伸率等基础力学指标,还能够反映屈服平台、加工硬化行为、断裂前塑性变形能力等连续变化特征。本案例以两阶段温轧中锰钢文献为示例,展示如何从文献中的工程应力-应变曲线及相关力学性能图中抽取曲线坐标点、样品标签、测试条件和关键性能参数。

通过对钢铁材料应力-应变曲线进行结构化抽取,可将原本以图像形式存在的力学性能数据转化为可计算、可复核、可入库的数据资源,为不同钢种、不同热加工工艺和不同组织调控策略之间的性能对比、强塑性协同分析以及后续机器学习建模提供支撑。

文献示例

“C-modified stacking-fault networks inducing the excellent strength-plasticity combinations of medium manganese steel by simple two-stage warm rolling without annealing”(DOI: 10.1016/j.scriptamat.2023.115372)

1、文献上传与解析

用户上传PDF文献后,系统不仅会解析其题目、作者、发表期刊等基本信息和章节、图表内容,还能自动定位论文中的关键曲线图。本案例中可定位到的曲线包括:Fig. 2(a)工程应力-应变曲线,以及Fig. 2(b)真应力-真应变曲线和加工硬化率曲线。

image.png

图2 案例一文献选择页面

2、主题分析

系统能够基于文献内容自动识别研究主题,涵盖材料、工艺和性能等方面。以本案例为例,系统自动识别出:

· 材料对象:medium manganese steel

· 工艺目标:two-stage warm rolling

· 性能目标:yield strength、tensile strength、total elongation、strain-hardening ability等

image.png

图3 案例一主题分析页面

3、数据抽取

用户既可根据主题分析结果选择材料、工艺和性能等抽取目标,也可自行输入。以本案例为例,所选材料类别为medium manganese steel,工艺目标为 two-stage warm rolling,性能目标为 yield strength 和 tensile strength。点击【下一步】后,系统将自动执行数据抽取,并对含有曲线的图像进行识别、裁剪及数字化处理。

image.png

图4 案例一抽取目标选择页面

4、结果展示

文献数据抽取结束后,可以得到不同钢铁样品的材料名称、加工工艺、拉伸测试条件、曲线系列名称以及已选择抽取性能的数值、单位和图源信息等数据。所有信息在【结果管理】页面呈现,用户可一键导出 .xlsx 文件,实现从文献到结构化力学数据的高效转化。

image.png

图5 案例一文本和表格抽取结果展示页面

曲线数据抽取完成后,系统将在【结果管理】-【图片抽取结果】页面展示每条应力-应变曲线的样本信息、数据点坐标、图题、坐标轴名称及单位(图6)。同时,系统会根据抽取的数据点坐标信息自动绘制并数值化展示曲线,并与原图同步展示以便用户进行直观比对。用户还可导出图片抽取结果的表格文件,用于后续获取曲线中的关键性能特征值(如峰值、极值、拐点等)、开展进一步分析或直接入库。

image.png

图6 案例一 图片抽取结果展示页面

如图7所示,结果文件以表格形式呈现了系统对文献中应力-应变曲线图像的识别、裁剪、数字化和结构化输出过程。表格左侧为基础字段,包括材料类别、样品编号、工艺状态、曲线标签和图源位置等;中间的point_coordinates字段保存了系统从曲线中抽取出的坐标点数据,可用于后续重绘工程应力-应变曲线或导入数据库;右侧依次保留Original_figure、Cropped_Chart和Digitized_curve三类图像结果,分别对应原始文献图、系统裁剪后的目标曲线区域,以及最终数字化得到的曲线轨迹。

image.png

图7 案例一输出结果文件展示

图中可重点展示三个核心结果:一是曲线坐标点序列,说明系统已经将文献图像中的应力-应变曲线转化为可计算的数据;二是原始图像和裁剪图像来源,便于用户核查抽取结果是否来自正确图表;三是数字化后的曲线图,直观展示系统对不同工艺状态下钢铁材料应力-应变曲线形貌的识别效果。


案例二:Co基高温合金DSC曲线数据抽取

在γ′强化Co基高温合金的研究中,除了相变温度外,γ′体积分数、密度以及显微组织稳定性是决定合金综合性能的关键参数。γ′体积分数直接影响强化效果,密度关系到合金的轻量化潜力,而显微组织稳定性则决定合金在高温长时服役过程中的组织演变行为,如γ′相的粗化或筏排化倾向。本案例展示如何从文献中系统整理上述三项数据,并建立其与合金成分、热处理工艺之间的关联。通过统一提取γ′体积分数、密度及显微组织稳定性指标,可为新型γ′强化Co基高温合金的成分设计与工艺优化提供重要依据。

文献示例

“Machine learning assisted design of γ′-strengthened Co-base superalloys with multi-performance optimization”(DOI: 10.1038/s41524-020-0334-5)

1、文献上传与解析

用户上传PDF文献后,系统将自动解析论文的基本信息与图表对象,识别论文中DSC曲线。

image.png

图8 案例二文献选择页面

2、主题分析

系统可从文献内容中识别合金类型、热处理工艺和性能等研究主题。

· 材料对象:Co-base superalloy

· 性能目标:γ′ solvus temperature、solidus、liquidus、processing window、freezing rang等

image.png

图9 案例二主题分析页面

3、数据抽取

用户根据解析结果选择材料、工艺和性能等抽取目标,也可自行输入抽取目标,如选择Co-base superalloy材料、microstructural stability(显微组织稳定性)、γ' solvus temperature(γ' 相溶解温度)、γ' volume fraction(γ' 相体积分数)、density(密度)等性能,点击【下一步】,系统开始自动抽取上述数据。

image.png

图10 案例二抽取字段选择页面

4、结果展示

image.png

图11 案例二文本和表格抽取结果展示页面

image.png

图12 案例二图片抽取结果展示页面

image.png

图13 案例二输出结果文件展示

图中红框重点标出了三个核心结果:一是曲线坐标点序列,说明系统已经将图像中的曲线转化为可计算的数据;二是原始图像来源,便于用户核查抽取结果是否来自正确图表;三是数字化后的曲线图,直观展示系统对DSC曲线形貌的识别效果。整体来看,该导出结果实现了从“文献图像曲线”到“结构化坐标数据”的转换,同时保留了原图、裁剪图和数字化曲线,保证了曲线数据抽取结果的可追溯、可复核和可二次利用。


案例三:钢铁材料极化曲线数据抽取

在钢铁材料腐蚀与防护研究中,极化曲线是评价材料耐蚀性能和缓蚀剂作用机制的重要数据来源。通过对阳极、阴极极化曲线进行结构化抽取,可以获得腐蚀电位(Ecorr)、腐蚀电流密度(Icorr)、阳极/阴极 Tafel 斜率(ba、bc)以及缓蚀效率等关键参数;进一步结合微分极化曲线,还可以分析缓蚀剂在钢铁表面的吸附稳定性和脱附行为。本案例以低碳钢在 0.5 M H2SO4 溶液中的腐蚀抑制研究为例,展示文献抽取系统如何围绕“钢铁材料—腐蚀介质—缓蚀剂—极化曲线—腐蚀性能参数”建立可复核的数据抽取流程。

文献示例

“A study of differential polarization curves and thermodynamic properties for mild steel in acidic solution with nitrophenyltriazole derivative”(DOI: 10.1016/j.corsci.2012.03.035)

1、文献上传与解析

用户上传PDF文献后,系统首先解析论文题名、作者、期刊、DOI、摘要、实验方法和图表对象,并识别与mild steel、0.5 M H2SO4腐蚀介质、2-[1,2,4]-triazole-methyl-4-acetyl-5-nitrophenyl-[1,3,4]-oxadiazole(TMANO) 缓蚀剂、 weight loss test、EIS、potentiodynamic polarization、differential polarization curves等相关的段落。本案例可重点定位文献中的Fig. 5极化曲线和Fig. 6微分极化曲线,同时关联Table 2中的 Ecorr、Icorr、ba、bc与抑制效率百分比(IEI%)等参数,用于演示从曲线图像和表格结果中联合抽取钢铁材料腐蚀性能数据。

image.png

图14 案例三文献选择页面

2、主题分析

系统根据文献解析结果识别出材料类别、工艺目标和性能目标等研究主题。结合本案例的主题分析结果,用户可围绕钢铁腐蚀与缓蚀剂性能评价进行字段选择,并将文本、表格和曲线图像中的数据统一组织为可导出的结构化结果。

· 材料对象:mild steel

· 工艺目标:synthesis、weight loss test

· 性能目标:corrosion inhibition、adsorption、thermodynamic parameters、kinetic parameters

其中,mild steel 用于限定材料体系;synthesis对应TMANO缓蚀剂的合成与表征信息;weight loss test用于关联腐蚀速率、缓蚀效率及温度条件;corrosion inhibition对应极化曲线和失重实验得到的缓蚀效率;adsorption、thermodynamic parameters和kinetic parameters则用于描述缓蚀剂在钢铁表面的吸附模型、吸附热力学和腐蚀反应动力学。

image.png

图15 案例三主题分析页面

3、数据抽取

用户根据主题分析结果选择材料、工艺和性能等抽取目标,也可自行输入需要补充的抽取字段。例如,本案例选择mild steel作为材料对象,选择synthesis和weight loss test作为工艺目标,选择corrosion inhibition、adsorption、thermodynamic parameters和kinetic parameters作为性能目标。点击【下一步】后,系统开始从正文、表格和曲线图中抽取上述数据。

对于极化曲线数据,系统可在图像抽取模块中进一步识别曲线来源、横纵坐标轴名称与单位、曲线系列标签和曲线点坐标。以 Fig. 5 为例,横坐标为电位E vs. SCE,纵坐标为log(i/A·cm-2),不同曲线对应blank及不同TMANO浓度;系统可提取不同浓度条件下的极化曲线点,并结合Table 2中的参数结果形成“曲线点—样品条件—腐蚀性能参数”的映射关系。以Fig. 6为例,系统还可针对微分极化曲线抽取脱附峰位置、脱附起始电位和脱附完成电位等表征吸附稳定性的曲线特征。

image.png

图16 案例三抽取字段选择页面

4、结果展示

文献数据抽取结束后,系统在【结果管理】页面展示材料、腐蚀介质、缓蚀剂名称、缓蚀剂浓度、实验温度、测试方法以及已选择抽取性能的数值、单位和测试条件等数据。以本案例为例,系统可从极化结果中整理出Ecorr、Icorr、ba、bc 和IEI%;从失重实验中整理出腐蚀速率W与IEW%;从吸附模型中整理出 Langmuir adsorption isotherm、K、ΔG0ads 、ΔH0ads、ΔS0ads等热力学参数;从动力学分析中整理出Ea、ΔH*、ΔS*等参数。

image.png

图17 案例三文本和表格抽取结果展示页面

曲线抽取结果示例

如图所示,结果文件以表格形式系统呈现了极化曲线图像的处理流程,涵盖识别、裁剪、数字化及结构化输出等环节。表格左侧为基础字段,包括文献题名、材料类别、样品名称、腐蚀介质、缓蚀剂名称及浓度、实验温度、曲线标签与测试方法等;中间的point_coordinates字段保存了系统从极化曲线中提取的坐标点数据,可用于后续曲线重绘、Tafel斜率计算及自腐蚀电流密度(Icorr)的复核;右侧保留了三类图像结果:Original_figure(原始文献图)、Cropped_Chart(系统裁剪后的目标曲线区域)以及Digitized_curve(数字化重构后的曲线轨迹)。

image.png

图18 案例三图片抽取结果展示页面

image.png

图19 案例三输出结果文件展示

图中可重点关注三个核心结果:一、极化曲线坐标点序列,对应系统将文献图像中的电位—电流密度关系转化为可计算数据的过程;二、原始图像与裁剪图,用于追溯曲线来源,确保其归属于正确的图表及曲线系列;三、数字化曲线轨迹,直观呈现了系统对空白(blank)及不同TMANO浓度曲线的识别效果。


系列案例总结

材料科技论文数据抽取系统以批量文献数据的结构化处理为核心目标,能够智能解析材料科技论文,精准提取并关联材料类别、化学成分、制备工艺、测试方法、性能指标及曲线坐标点等关键要素,自动构建结构化数据集并实现可视化呈现。本文案例系统覆盖了三大典型场景:钢铁材料拉伸应力-应变曲线中的屈服强度、抗拉强度、延伸率等力学性能数据;Co基高温合金DSC曲线中的相变温度与热分析特征数据;以及钢铁材料极化曲线中的腐蚀电流密度、腐蚀电位、缓蚀效率等电化学腐蚀性能数据。基于上述能力,用户可高效把握材料性能研究的核心数据脉络,支撑材料数据库建设、性能对比分析及机器学习建模等应用。本系统已广泛应用于钢铁、高温合金、铝合金、铜合金等材料领域的文献数据自动抽取。

为提升服务水平,测试并优化功能,我们诚邀您在使用过程中,将遇到的宝贵案例分享给我们,并提出意见建议。对于提供有效反馈的用户,中心将授予免费数据抽取特权,期待您的参与,共同推动系统不断升级!

反馈方式:

· 邮箱:zfx@mbd.org.cn

· 中心官网:www.matbd.cn ->“意见留言板”模块

· 中心公众号:后台私信或留言

新材料大数据中心将认真研究、积极改进,努力提升服务质量。

系统提示
请您先登录
提示

您访问的链接即将离开“新材料大数据中心”网站
是否继续?