面对国家电网公司电子招投标业务的快速扩展,供应商在海量的招标文件中迅速而精确地提取相关信息变得尤为重要。本研究开发了一种适配国网招标文件特征的解析技术,旨在将数据结构化和可视化,以帮助供应商及时锁定投标机会并支持决策制...面对国家电网公司电子招投标业务的快速扩展,供应商在海量的招标文件中迅速而精确地提取相关信息变得尤为重要。本研究开发了一种适配国网招标文件特征的解析技术,旨在将数据结构化和可视化,以帮助供应商及时锁定投标机会并支持决策制定。通过对招标文件进行篇章分析、表格检测和文本纠错处理,获取了有效的数据输入。采用五种不同的解析算法模型对数据进行分析,并基于标注数据评估各模型性能。利用国网招标文件样本,经过模型定制与调优,构建了一个集成双向长短记忆网络(Bi-directional long short-term memory,Bi-LSTM)、条件随机场(conditional random fields,CRF)的解析模型。使用823份实际招标文件样本对模型进行了训练和对比测试,结果显示双向长短记忆融合模型的性能指标优于BERT+Bi-LSTM模型。此外,CRF层能够通过学习自动引入的约束条件来确保预测结果的准确性,从而显著提升解析效果。展开更多
文摘面对国家电网公司电子招投标业务的快速扩展,供应商在海量的招标文件中迅速而精确地提取相关信息变得尤为重要。本研究开发了一种适配国网招标文件特征的解析技术,旨在将数据结构化和可视化,以帮助供应商及时锁定投标机会并支持决策制定。通过对招标文件进行篇章分析、表格检测和文本纠错处理,获取了有效的数据输入。采用五种不同的解析算法模型对数据进行分析,并基于标注数据评估各模型性能。利用国网招标文件样本,经过模型定制与调优,构建了一个集成双向长短记忆网络(Bi-directional long short-term memory,Bi-LSTM)、条件随机场(conditional random fields,CRF)的解析模型。使用823份实际招标文件样本对模型进行了训练和对比测试,结果显示双向长短记忆融合模型的性能指标优于BERT+Bi-LSTM模型。此外,CRF层能够通过学习自动引入的约束条件来确保预测结果的准确性,从而显著提升解析效果。