智能问答系统是以问答形式精准定位用户提问的知识要点,为用户提供个性化、精准化信息服务的系统平台,需要自然语言处理、信息检索、知识表示与推理等技术进行支撑。目前国内农业智能问答系统研究和应用尚不成熟。近年来,信息中心农业数据智能创新团队围绕农业智能问答关键技术开展持续研究,并构建了基于知识图谱的番茄种植智能问答系统。研究中发现,农业领域知识的短文本特征导致上下文信息严重不足、数据噪声多、特征词难以提取等问题,传统的自然语言处理技术难以解决。随着人工智能技术发展,深度学习为短文本分类模型的构建提供了端到端的解决方案。
团队在前期研究基础上,重点针对短文本分类中不同特征表示所产生的分类性能影响开展了研究,提出一种基于BERT的短文本分类框架。为了增强短文本的特征表示,同时降低分词错误带来的影响,该研究利用预训练模型BERT 生成字符级向量,同时利用Word2Vec生成词向量做对照,发现在相同网络模型下,以BERT字向量作特征嵌入能显著提升分类性能。然后在特征提取层选择卷积神经网络(CNN)捕捉文本静态特征,同时利用基于注意力机制的门控循环单元(BiGRU+Attention)提取句子的上下文特征,最后将两部分特征拼接作为最终的分类依据,发现将多个网络模型提取的特征混合后比任意单一模型的分类效果要好。最后,该研究分析了CNN和BiGRU中隐藏层(Hidden layer)、卷积核大小(Filter size)、学习率(Learning rate)、数据集规模(Datasize)对模型拟合效果的影响,给出了短文本分类过程中模型超参数优化的参考值。
近期,相关研究以题为'A BERT-based Hybrid Short Text Classification Model Incorporating CNN and Attention-based BiGRU'的研究论文发表在同时被SSCI和SCI收录的国际期刊《Journal of Organizational and End User Computing》(IF 4.349),团队成员鲍彤为第一作者,团队带头人任妮副研究员为通讯作者。该研究得到国家社会科学基金(19BTQ032)项目支持。
本研究建立的短文本分类体系和方法流程,为后续农业智能问答系统构建提供了技术方法支撑,同时为长三角科技服务云平台建设中的智能问答和知识服务版块打造奠定了技术基础。
图1 基于BERT的短文本分类模型
图 2 不同特征嵌入时模型的分类性能比较