分詞:
① 單字切分
把1段文字依照每一個字去建立索引。
如切分“我愛中華”,就會切成“我”,“愛”,“中”,“華”。這類分詞法效力低,但也能解決1些問題。
② 2分法
2分法就是把1段文字的每兩個相鄰的字算作1個詞。
如果用來切分“我愛中華”,就會切成“我愛”,“愛中”,“中華”。這類分詞效力低,但比單字切分好很多。
③ 詞典法
詞典法就是建立1個詞典文件,然后使用詞典和文字段落進行匹配,從而得出分詞結果,在這類分詞當中,詞典和匹配算法是關鍵。
做詞典和保護詞典都不難,統計。匹配算法不好辦,有最大匹配和最小匹配,正向匹配和逆向匹配。
④ 語義法
這個方法在理論上是存在的,但從實際上講也只是個名詞,看到任何1段文字,讓計算機將其正確理解出來,這個想法不可能。