摘要:關(guān)系抽取是自然語言處理的重要研究內(nèi)容,是知識圖譜構(gòu)建的關(guān)鍵技術(shù)。目前,在神經(jīng)網(wǎng)絡(luò)中引入注意力機制進行關(guān)系抽取成為主流方法,現(xiàn)有方法一般結(jié)合句子單詞和實體相關(guān)性計算注意力,沒有考慮短語和實體關(guān)系之間的相關(guān)性,并且對實體信息利用不夠充分。針對該問題,提出基于短語級注意力機制的關(guān)系抽取方法。首先用卷積層對詞向量做卷積,以滑動窗口的方式得到短語級的向量表示,然后利用短語與實體關(guān)系之間的相關(guān)性計算注意力。為了使實體信息利用更充分,用卷積層和池化層分別提取實體短語的深度特征表示,并引入TransE的思想表示兩個實體關(guān)系的特征。最后,采用分段池化方法得到深度特征。為了減少遠程監(jiān)督中錯誤標(biāo)簽的干擾,使用標(biāo)簽平滑正則化(LSR)把原來的“硬”標(biāo)簽改為“軟”標(biāo)簽。實驗結(jié)果表明,該方法能夠有效利用短語信息和實體關(guān)系信息,對實體關(guān)系抽取效果有較大的提升。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機技術(shù)與發(fā)展雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述評論、人工智能、信息安全、經(jīng)驗交流、研究探討、開發(fā)應(yīng)用、網(wǎng)絡(luò)通信、學(xué)習(xí)園地等。于1991年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。