材料科技文献数据自动抽取软件
发布时间:2025-01-22 05:37:00

材料科学知识以自然语言为载体,通过科技文献进行发布与传承,科技文献爆炸式增长的同时囤积了大量珍贵的知识和数据。传统通过人工阅读文献抽取数据的方式耗时耗力,难以匹配现有文献的增长速度。北京科技大学针对自动获取科技文献中高质量数据的迫切需求,融合大语言模型和自然语言处理技术,研发了一套材料科技文献数据自动挖掘流水线,突破了模型训练语料有限的局限,同时实现了准确率和召回率的大幅提高。成功从科技文献中抽取得到了文献DOI、材料成分、工艺路线和性能值等结构化数据,为数据驱动的新材料设计与开发提供了数据资源。

以高温合金为例,利用该流水线从高温合金文献的文本和表格中,自动抽取出合金成分、加工工艺路线、γ′相尺寸、γ′相溶解温度、固相线温度、液相相温度和密度等结构化数据。通过符号回归和机器学习建模,成功捕捉出能够准确描述γ′相尺寸的高温合金工艺因子,设计出γ′相溶解温度高于1250℃的钴基高温合金,模型预测值和实验值的相对误差仅为0.81%,证明了该流水线的有效性和抽取数据的可靠性。基于该流水线开发的在线Web应用软件工具SuperalloyDigger,展现出优异的泛化能力和适用性,已成功应用于高熵合金、钢铁、陶瓷膜、电池和金属基复合材料等领域。上述成果发表在npj Computational Materials期刊上,获发明专利2项、软件著作权2项,SuperalloyDigger软件工具使用可访问本平台“数据产品”模块。

1.jpg

提示

您访问的链接即将离开“新材料大数据中心”网站
是否继续?