手機號
未認(rèn)證執(zhí)照
張寶(先生)
普通會員
張寶 (先生)
詞法分析是自然語言處理的基礎(chǔ)與關(guān)鍵。在中文自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此進(jìn)行中文自然語言處理通常是先將漢語文本中的字符串切分成合理的詞語序列,然后再在此基礎(chǔ)上進(jìn)行其它分析處理。中文分詞是中文信息處理的一個基礎(chǔ)環(huán)節(jié),已被廣泛應(yīng)用于中文文本處理、信息提取、文本挖掘等應(yīng)用中。
一個自然語言處理系統(tǒng)必須考慮許多語言自身與結(jié)構(gòu)方面的知識——如什么是詞、詞如何組成句子、詞的意義是什么、詞的意義對句子意義有什么貢獻(xiàn)等,但這些卻還是遠(yuǎn)遠(yuǎn)不夠的。比如一個系統(tǒng)如果要回答提問或者直接參與對話,它不僅需要知道很多語言結(jié)構(gòu)的知識,而且還要知道人類世界的一般性知識并具備人類的推理能力。因此許多語言學(xué)家通常把對語言的分析和理解分成如下幾個主要層次:詞法分析、句法分析、語義分析、篇章分析。
首先,詞法分析——主要包括分詞、詞性標(biāo)注、詞義消歧、新詞識別等——是通過分詞、詞頻和位置統(tǒng)計等手段獲得相關(guān)語言信息。
其次,句法分析通過使句子成分特征化來分析句子結(jié)構(gòu)特征,通過對句子和短語結(jié)構(gòu)的分析找出詞、短語等的相互關(guān)系以及各自在句中的作用,并以一定結(jié)構(gòu)來表達(dá)諸如從屬關(guān)系、成分關(guān)系等,目的是判定句子中各種結(jié)構(gòu)性成分。
第三,為了理解一個提問,一般還需要更多的語義和語用知識來幫助理解句子的意思,通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定句子所表達(dá)的真正含義,而語義信息的標(biāo)記需要包含概念完全集與關(guān)系圖的支持,需要對句法成分做出細(xì)致的語義分類,它一般應(yīng)包括語言層面(即反映語言表面現(xiàn)象的知識,如同義詞關(guān)系、層次關(guān)系等)、本體論層面(描述概念之間復(fù)雜的語義關(guān)系)、常識層面等。雖然這項工作浩繁,但目前已經(jīng)取得了一些初步成果。
最后,篇章分析用于對多個語句、段落之間在結(jié)構(gòu)或者語義上的相互關(guān)系進(jìn)行分析。
nlpir分詞系統(tǒng)是經(jīng)過多年研究工作積累,主要功能包括中文分詞;英文分詞;詞性標(biāo)注;命名實體識別;新詞識別;關(guān)鍵詞提取;支持用戶專業(yè)詞典與微博分析。nlpir系統(tǒng)支持多種編碼(gbk編碼、utf8編碼、big5編碼)、多種操作系統(tǒng)、多種開發(fā)語言與平臺。
nlpir/ictclas2018分詞系統(tǒng)主要功能介紹
1)中英文混合分詞功能
自動對中文英文信息進(jìn)行分詞與詞性標(biāo)注功能,涵蓋了中文分詞、英文分詞、詞性標(biāo)注、未登錄詞識別與用戶詞典等功能。
2)關(guān)鍵詞提取功能
采用交叉信息熵的算法自動計算關(guān)鍵詞,包括新詞與已知詞,
3)新詞識別與自適應(yīng)分詞功能
從較長的文本內(nèi)容中,基于信息交叉熵自動發(fā)現(xiàn)新特征語言,并自適應(yīng)測試語料的語言概率分布模型,實現(xiàn)自適應(yīng)分詞。
4)用戶專業(yè)詞典功能
可以單條導(dǎo)入用戶詞典,也可以批量導(dǎo)入用戶詞典。如可以定“舉報信 敏感點”,其中舉報信是用戶詞,敏感點是用戶自定義的詞性標(biāo)記。
ictclas分詞法利用詞典匹配進(jìn)行初切分得到一個切分詞圖,然后利用詞頻信息求詞圖n條最短路徑的n-最短路徑法。還有些研究者利用詞典找出所有的交叉歧義,然后利用bigram語言模型或其變形來消除歧義。
聯(lián)系人 | 需求數(shù)量 | 時間 | 描述 |
---|---|---|---|
暫無產(chǎn)品詢價記錄 |
采購商 | 成交單價(元) | 數(shù)量 | 成交時間 |
---|---|---|---|
暫無購買記錄 |
地區(qū):滄州
主營產(chǎn)品:機床維修,鑄件,工量具地區(qū):汕頭
主營產(chǎn)品:物流公司,貨運站,國內(nèi)陸運地區(qū):廊坊
主營產(chǎn)品:富卓液壓,施羅德液壓,海普洛液壓地區(qū):衡水
主營產(chǎn)品:河北變形縫,河南變形縫,山東變形縫