当前位置: 首页 > 新闻中心 > 平台资讯
【使用指南】智能化抽取、规模化解析:新材料大数据中心-材料科技论文数据抽取系统使用指南
发布机构:新材料大数据中心 发布时间:2026-05-08 08:30:00

引言

为满足用户对材料研发和数据应用全方位需求,贯通“设计—研发—制造—应用”全链条,新材料大数据中心通过自主研发、联合开发等模式,持续扩展数据产品供给能力,覆盖材料数据采集处理、计算分析、设计、特色大模型与智能体等。

中心依托统一服务门户打造“数据产品”模块,目前已上线多款面向材料领域的专业化数据产品软件,其中,针对数据采集的材料科技论文数据抽取系统1.0于2025年12月4日上线试运行,旨在解决材料科技文献爆炸式增长、而高价值数据广泛分布于非结构化文本中难以获取的难题,帮助用户告别海量文献的困扰,提高科研效率。

一、系统定位与核心价值

材料科技论文数据抽取系统通过集成文献管理、主题分析、数据自动抽取和结果可视化等功能,实现了从材料科技论文到结构化数据的自动转换,充分挖掘潜在信息与知识,促进文献数据资源的高效整合与利用。

系统核心功能包括:

·论文库:支持PDF、XML和HTML等多源异构文献的导入与管理,帮助用户构建个性化的知识库;

·主题分析:基于文献内容自动分析研究主题和相关热度,辅助用户确定相关的抽取目标;

·数据抽取:自动识别并提取文献中的关键信息,包括成分、合成与制备工艺,以及物理和化学性能等核心要素,并互相关联形成结构化数据集;

·可视化:提供抽取结果可视化功能,支持条形图与散点图的生成,帮助用户深入理解整体数据分布和特征间的关联关系。

二、访问入口

新材料大数据中心统一服务门入口:

https://www.matbd.cn→“数据产品”→“材料科技论文数据抽取系统”

image.png

材料科技论文数据抽取系统官网入口:https://matminer.matbd.cn

三、操作指南

以下为材料科技论文数据抽取系统(以下简称“文献抽取系统”)使用方法的简要说明,旨在帮助用户轻松上手、熟练操作。

image.png

系统首页

1.登录系统

目前,文献抽取系统已接入新材料大数据中心统一服务门户统一身份认证,门户已注册用户可直接使用原有账号登录;从门户-“数据产品”模块进入该系统时,系统可自动同步用户身份。

登录鉴权完成后,用户需点击页面左上角用户名进入“模型管理”页面,配置API密钥和模型名称:

(1)DeepSeek:https://platform.deepseek.com/usage

登录DeepSeek账号后点击网页左侧菜单栏中的“API keys”→“创建API key”,复制至文献抽取系统“API密钥”字段,“模型名称”选择“deepseek-chat”。

(2)通义千问:https://bailian.console.aliyun.com/?tab=model#/api-key

登录阿里云账号后点击创建API-KEY,复制API Key至文献抽取系统“API密钥”字段,“模型名称”选择“qwen-plus”。

image.png

用户API密钥配置界面

2.创建任务

系统主页菜单栏由五大模块组成,分别为论文库管理、抽取任务管理、抽取历史管理、使用说明手册、个人账号中心。

用户点击系统主页的“开始抽取”按钮可跳转至“任务管理”页面,点击左侧任务栏上方“新建任务”并输入任务名称,可完成任务创建。

image.png

抽取任务管理界面

3.文献选择

1) 点击侧边栏中任务文件夹,进入“任务文献”,点击“添加文献”,导入需要提取数据的文献。

添加文献页面左侧可管理文件夹,选择文件夹后,点击“新文献导入”可将本地文献导入。系统支持文件夹批量上传、拖拽上传和文件选择上传,并兼容PDF、XML、HTML等多种文献格式,方便用户灵活导入不同来源的科研文献。

image.png

添加文献页面

image.png

文献导入页面

2) 若解析结果出现标题、作者、期刊、DOI等信息,说明上传的文献预解析成功,可以部分勾选或者全选进入下一步解析。

image.png

文献预解析页面

4.主题分析

文献导入后,点击页面右上角“下一步”即可进入“主题分析”流程。系统将自动识别文献中材料、工艺和性能三个方向的主题词及其研究关注度,为后续数据抽取明确相关目标。完成主题分析后,再次点击“下一步”即可进入文献数据抽取环节。

image.png

主题分析页面

5.文献抽取

主题分析完成后将生成候选抽取目标集,用户可选择其中的目标,以确保系统提取与研究主题相关的信息。若候选目标中未包含所需的抽取目标,可手动添加:点击“新增”按钮,在弹出的输入框中输入目标名称并进行勾选。完成设置后,点击“下一步”即可开始抽取文献数据并形成抽取结果。

image.png

抽取目标配置页面

6.结果管理

数据抽取完成后,用户可通过以下方式查看并分析结果:

·查看单篇文献的抽取结果

点击“抽取结果查看”,可浏览每篇文献的详细抽取结果。若需导出单篇文献结果至本地,可通过“抽取结果查看”→“操作”→“查看”→“导出单篇结果”,即可将抽取结果导出并保存到本地Excel文件中。

image.png

抽取结果查看

image.png

导出单篇抽取结果

·批量导出抽取结果

若需一次性导出当前任务中所有文献的抽取数据,可点击“总体结果下载”按钮。系统将自动汇总所有文献抽取结果,并导出到Excel文件中。

image.png

总体结果下载

·生成可视化图表

点击“抽取结果查看”→“配置可视化图表”,即可对抽取结果进行多种类型的数据可视化呈现。

image.png

可视化查看结果

四、系统其他操作

1. 论文库管理

image.png

论文库页面

在顶部主菜单栏,用户可进入个人论文库管理文献,支持文件夹创建与删除、文献分类、文献预览及文献收藏等操作,实现文献的高效组织与快速检索。

2.历史任务管理

image.png

文献解析和抽取历史界面

在整个数据抽取过程中,用户可随时查看并管理任务信息。通过左侧菜单,用户可以访问以下历史记录:

·解析记录

查看每个文献的解析过程,包括每个抽取步骤和中间结果。如果需要重新检查某个步骤的操作或调整,可以参考此记录。

·抽取记录

查看所有已完成的数据抽取任务记录。包括抽取时间、抽取名称、文献数量和抽取结果,确保用户能够追溯数据处理结果。

·历史管理

查看所有已完成的数据解析和数据抽取的任务记录。包括文献、目标数据、时间和结果,确保用户能够追溯整个数据处理过程。

若需更换文献,点击“更换文献重新抽取”即可返回第3步操作,重新进行数据抽取流程。

结语

材料科技论文数据抽取系统通过智能解析材料科技论文,精准提取并关联材料成分、合成与制备工艺和性能等关键要素,自动构建结构化数据并可视化呈现,可面向多源文献开展深入分析,助力科研人员高效把握材料研究的核心数据脉络。为进一步提升服务水平、持续优化功能,系统未来还将拓展图像数据抽取、曲线点自动识别等能力,逐步完善材料文献的全场景信息解析能力。

欢迎广大用户在使用过程中通过门户“意见留言板”、“官方公众号后台”、官方邮箱(info@mbd.org.cn)等入口进行案例分享及意见反馈,新材料大数据中心将及时响应,积极改进,逐步扩展软件功能、提升服务质量。


注:该系统由王伟仁博士、姜雪副教授和宿彦京教授等人自主研发的SuperalloyDigger材料数据抽取工具迭代发展而来,具备更强的语义理解能力与要素关联能力。相关工具此前已在英国帝国理工学院、南京工业大学、中科院上海微系统所等机构的研究中广泛使用。应用领域涵盖高熵合金、钢铁、陶瓷膜、电池、金属基复合材料等多个方向。

系统提示
请您先登录
提示

您访问的链接即将离开“新材料大数据中心”网站
是否继续?