智能解析材料科技论文,精准提取并关联材料成分、制备工艺、性能指标等关键要素,自动构建结构化数据集并可视化呈现,可深入分析多源数据差异,助您高效把握材料性能研究的核心数据脉络!软件详细使用方法请查看详细说明。
北京云智材料大数据研究院 北京科技大学
2025.11.17
材料科技论文数据抽取系统是一款面向材料科学研究领域的智能信息处理平台,支持PDF、XML、HTML等多种格式的文献导入与管理,帮助用户高效构建个性化知识库。系统能够自动识别并提取文献中的关键信息,包括材料成分、制备工艺与性能数据等核心要素,并将其关联整合为结构化数据。
该系统具备强大的主题分析功能,可快速提取文献标题、作者、发表时间及机构等元数据,并结合内容分析研究热点,辅助用户精准定位抽取目标。数据抽取模块能够智能识别文本与表格中的关键信息,实现多要素的自动关联与整合。此外,系统还提供结果可视化功能,支持生成关联图与统计图表,帮助用户深入理解数据关系与分布特征。
该抽取系统适用于材料科学研究、数据挖掘与知识发现等多个场景,是提升科研效率与数据复用价值的得力工具。
1. 注册登录
点击系统按钮“新用户注册”按钮后可跳转注册页面,在注册页面中填写账号信息后点击“立即注册”按钮即可注册系统账号,后续可点击系统右上角进行登录并进入个人中心管理个人设置。
在进行抽取任务之前,需要先进行模型配置。点击页面左上角用户名进入“模型管理”页面,配置API密钥和模型名称:

DeepSeek:https://platform.deepseek.com/usage
登录DeepSeek账号后点击网页左侧菜单栏中的“API keys”→“创建API key”,复制到抽取系统的“API密钥”,“模型名称”选择“deepseek-chat”。
通义千问:https://bailian.console.aliyun.com/?tab=model#/api-key
登录阿里云账号后点击创建API-KEY,复制API Key到抽取系统的“API密钥”,“模型名称”选择“qwen-plus”。
2. 创建抽取任务
1) 在有账号登录的情况下,点击系统主页的“开始抽取”按钮可跳转至“任务管理”页面,在这一页面用户可以建立和管理论文数据抽取任务。
2) 点击左侧任务栏上方“新建任务”,输入任务名称,完成任务创建。

3. 选择文献
1) 点击侧边栏里新建的任务,进入“任务文献”,点击“添加文献”,导入需要提取数据的文献。添加文献页面左侧可以新建或管理文件夹,选择合适的文件夹,点击“新文献导入”将本地文献导入系统文件夹。用户可以选择不同方式进行上传,包括文件夹批量上传、拖动或者选定文件上传。用户可选择不同格式的文献文件进行上传,包括PDF、XML、HTML。


2) 若解析结果出现标题、作者、期刊、DOI等信息,说明上传的文献预解析成功,可以部分勾选或者全选进入下一步解析。

3) 文献也可以在“论文库”中直接进行管理。

4.主题分析
文献选择完成后,点击页面右上“下一步”按钮,经过“主题分析”流程后可以得到材料、工艺、性能三个模块的论文主题和研究热度的关系,点击“下一步”进入文献数据抽取环节。

5.抽取目标选择
基于“主题分析”得到的分析结果,选择需要抽取的目标。这一过程旨在确保文献中与研究主题相关的重要数据被正确提取。若在分析结果中没有预设的目标类型数据,可以手动添加:点击“新增”按钮;在弹出的输入框中,输入目标数据类型名称;勾选希望抽取的数据类型,并确保目标数据类型的名称准确无误。完成以上操作后,点击“下一步”,进入文献数据抽取流程。文献和目标数据的规模会影响抽取时间,通常在5分钟到30分钟之间,请耐心等待。

6.. 查看和导出抽取结果
数据抽取完成后,可以通过以下方式查看和分析结果:
查看单篇文献抽取数据
点击“抽取结果查看”,可以浏览每篇文献的详细抽取数据。此部分展示了从文献中提取出的所有目标数据,可供用户直接查看。

抽取结果可以在左侧任务栏的“抽取记录”中再次找到,也可以通过“历史管理”→“抽取历史”查看抽取结果。
导出单篇结果
导出单篇文献的抽取结果到本地:点击“抽取结果查看”→“操作”→“查看”→“导出单篇结果”,即可保存为本地Excel文件。

配置并生成可视化图表
点击“抽取结果查看”→“配置可视化图表”→“下载图表”,可以选择不同的变量生成图表进行分析下载。支持的图表类型包括:
特征分布条形图:展示数据在各个变量上的分布情况。
相关性散点图:帮助识别不同变量之间的关系。

批量导出抽取结果
若需要将所有文献的抽取结果导出,可以通过以下操作批量下载:点击“总体结果下载”按钮,系统会自动汇总当前任务中所有文献的抽取数据,生成一个表格文件。该文件可以直接下载并保存至本地,方便用户进行后续分析和存档。

7. 任务管理与重新抽取

在整个数据抽取过程中,用户可以随时查看和管理任务信息。通过左侧菜单,用户可以访问以下历史记录:
解析记录
查看每个文献的解析过程,包括每个抽取步骤和中间结果。如果需要重新检查某个步骤的操作或调整,可以参考此记录。
抽取记录
查看所有已完成的数据抽取任务记录。包括抽取时间、抽取名称、文献数量和抽取结果,确保用户能够追溯数据处理结果。
历史管理
查看所有已完成的数据解析和数据抽取的任务记录。包括文献、目标数据、时间和结果,确保用户能够追溯整个数据处理过程。
用户随时可以通过左侧菜单的“解析记录”、“抽取记录”和系统菜单栏的“历史管理”查看历史信息。若需更换文献,点击“更换文献重新抽取”即可返回第3步操作,重新开始数据抽取流程。
在有账号登录的情况下,点击系统主页的“开始抽取”,在这一页面用户可以建立和管理论文数据抽取任务。点击左侧任务栏上方“新建任务”,然后点击侧边栏里新建的任务进入“任务文献”,点击“添加文献”导入需要提取数据的文献。文献选择完成后点击页面右上“下一步”按钮。经过“主题分析”流程后可以得到论文主题和研究热度的关系。点击下一步进入文献数据抽取环节,选择需要抽取的目标数据。选择完成后点击“下一步”开始抽取数据。数据抽取完成后,可以浏览每篇文献的详细抽取数据,并配置可视化图表,包括“特征分布条形图”和“相关性散点图”,也可以将总体结果导出为表格。提取流程完成,用户可以在历史记录或者抽取记录中回看记录。
本产品相关技术研究成果:
[1] Wang W, Jiang X, Tian S, et al. Automated pipeline for superalloy data by text mining[J]. NPJ Computational Materials, 2022, 8(1): 9.
[2] Wang W, Jiang X, Tian S, et al. Alloy synthesis and processing by semi-supervised text mining[J]. npj Computational Materials, 2023, 9(1): 183.
[3] Wang W, Jiang X, Li W, et al. Design of superalloys with multiple properties via multi-task learning[J]. Acta Materialia, 2025: 121161.
[4] Tian S, Jiang X, Wang W, et al. Steel design based on a large language model[J]. Acta Materialia, 2025, 285: 120663.
[5] 宿彦京, 姜雪, 王伟仁, 田少晗, 谢建新. 一种基于文本挖掘的科技文献数据自动抽取方法及系统: 北京市, CN113779995B[P]. 2023-07-18.
[6] 宿彦京, 王伟仁, 姜雪, 田少晗. 一种材料制备加工工艺信息文本挖掘方法及系统: 北京市, CN116467430B[P]. 2023-09-19.
[7] 软著:高温合金文献数据自动抽取软件(V1.0).
[8] 软著:材料科技文献工艺路线自动抽取系统.
产品应用情况:
抽取系统被英国帝国理工学院、南京工业大学、中科院上海微系统所等团队采用,成功应用于高熵合金、钢铁、陶瓷膜、电池、金属基复合材料等领域。部分源代码开源(https://github.com/MGEdata/SuperalloyDigger)。
邮箱:info@mbd.org.cn

请您先登录
