<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給汪思穎
      發送

      0

      北大開源中文分詞工具包 pkuseg

      本文作者: 汪思穎 2019-01-10 16:21
      導語:這一工具具有如下三個特點:高分詞準確率、多領域分詞、支持用戶自訓練模型。

      雷鋒網 AI 科技評論消息,日前,北京大學語言計算與機器學習研究組研制推出一套全新中文分詞工具包 pkuseg,這一工具包有如下三個特點:

      • 高分詞準確率。相比于其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg 可以取得更高的分詞準確率。

      • 多領域分詞。不同于以往的通用中文分詞工具,此工具包同時致力于為不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。而其他現有分詞工具包,一般僅提供通用領域模型。

      • 支持用戶自訓練模型。支持用戶使用全新的標注數據進行訓練。

      各項性能對比如下:

      與 jieba、THULAC 等國內代表分詞工具包進行性能比較:

      考慮到 jieba 分詞和 THULAC 工具包等并沒有提供細領域的預訓練模型,為了便于比較,開發團隊重新使用它們提供的訓練接口在細領域的數據集上進行訓練,用訓練得到的模型進行中文分詞。他們選擇 Linux 作為測試環境,在新聞數據(MSRA)、混合型文本(CTB8)、網絡文本(WEIBO)數據上對不同工具包進行了準確率測試。在此過程中,他們使用第二屆國際漢語分詞評測比賽提供的分詞評價腳本,其中 MSRA 與 WEIBO 使用標準訓練集測試集劃分,CTB8 采用隨機劃分。對于不同的分詞工具包,訓練測試數據的劃分都是一致的;即所有的分詞工具包都在相同的訓練集上訓練,在相同的測試集上測試。

      以下是在不同數據集上的對比結果:

      北大開源中文分詞工具包 pkuseg 

      同時,為了比較細領域分詞的優勢,開發團隊比較了他們的方法和通用分詞模型的效果對比。其中 jieba 和 THULAC 均使用了軟件包提供的、默認的分詞模型:

      北大開源中文分詞工具包 pkuseg從結果上來看,當用戶了解待分詞文本的領域時,細領域分詞可以取得更好的效果。然而 jieba 和 THULAC 等分詞工具包僅提供了通用領域模型。

      目前,該工具包已經在 GitHub 開源,編譯、安裝和使用說明如下。

      編譯和安裝

      1. 通過 pip 下載(自帶模型文件)

      pip install pkuseg
      之后通過 import pkuseg 來引用

      2. 從 github 下載(需要下載模型文件,見預訓練模型)

      將 pkuseg 文件放到目錄下,通過 import pkuseg 使用
      模型需要下載或自己訓練。

      使用方式

      1. 代碼示例

      代碼示例1 使用默認模型及默認詞典分詞
      import pkuseg
      seg = pkuseg.pkuseg() #以默認配置加載模型
      text = seg.cut('我愛北京天安門') #進行分詞
      print(text)

      代碼示例2 設置用戶自定義詞典
      import pkuseg
      lexicon = ['北京大學', '北京天安門'] #希望分詞時用戶詞典中的詞固定不分開
      seg = pkuseg.pkuseg(user_dict=lexicon) #加載模型,給定用戶詞典
      text = seg.cut('我愛北京天安門') #進行分詞
      print(text)

      代碼示例3
      import pkuseg
      seg = pkuseg.pkuseg(model_name='./ctb8') #假設用戶已經下載好了ctb8的模型并放在了'./ctb8'目錄下,通過設置model_name加載該模型
      text = seg.cut('我愛北京天安門') #進行分詞
      print(text)

      代碼示例4
      import pkuseg
      pkuseg.test('input.txt', 'output.txt', nthread=20) #對input.txt的文件分詞輸出到output.txt中,使用默認模型和詞典,開20個進程

      代碼示例5
      import pkuseg
      pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20) #訓練文件為'msr_training.utf8',測試文件為'msr_test_gold.utf8',模型存到'./models'目錄下,開20個進程訓練模型

      2. 參數說明

      pkuseg.pkuseg(model_name='ctb8', user_dict=[])
      model_name 模型路徑。默認是'ctb8'表示我們預訓練好的模型(僅對pip下載的用戶)。用戶可以填自己下載或訓練的模型所在的路徑如model_name='./models'。
      user_dict 設置用戶詞典。默認不使用詞典。填'safe_lexicon'表示我們提供的一個中文詞典(僅pip)。用戶可以傳入一個包含若干自定義單詞的迭代器。

      pkuseg.test(readFile, outputFile, model_name='ctb8', user_dict=[], nthread=10)
      readFile 輸入文件路徑
      outputFile 輸出文件路徑
      model_name 同pkuseg.pkuseg
      user_dict 同pkuseg.pkuseg
      nthread 測試時開的進程數

      pkuseg.train(trainFile, testFile, savedir, nthread=10)
      trainFile 訓練文件路徑
      testFile 測試文件路徑
      savedir 訓練模型的保存路徑
      nthread 訓練時開的進程數

      預訓練模型

      分詞模式下,用戶需要加載預訓練好的模型。開發團隊提供了三種在不同類型數據上訓練得到的模型,根據具體需要,用戶可以選擇不同的預訓練模型。以下是對預訓練模型的說明:

      MSRA: 在MSRA(新聞語料)上訓練的模型。新版本代碼采用的是此模型。

      下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

      CTB8: 在CTB8(新聞文本及網絡文本的混合型語料)上訓練的模型。

      下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

      WEIBO: 在微博(網絡文本語料)上訓練的模型。

      下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

      開發團隊預訓練好其它分詞軟件的模型可以在如下地址下載:

      jieba: 待更新

      THULAC: 在 MSRA、CTB8、WEIBO、PKU 語料上的預訓練模型,下載地址:https://pan.baidu.com/s/11L95ZZtRJdpMYEHNUtPWXA,提取碼:iv82

      其中 jieba 的默認模型為統計模型,主要基于訓練數據上的詞頻信息,開發團隊在不同訓練集上重新統計了詞頻信息。對于 THULAC,他們使用其提供的接口進行訓練(C++版本),得到了在不同領域的預訓練模型。

      來源:GitHub

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      北大開源中文分詞工具包 pkuseg

      分享:
      相關文章

      編輯

      關注AI學術,例如論文
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产精品久久久久无码日韩| 国产精品自拍中文字幕| 久久综合色之久久综合色| 亚洲欧美日韩愉拍自拍| 亚洲国产第六| 色欲色香天天天综| 久久久国产成人一区二区 | 岛国一区二区三区av| 欧美日韩视频综合一区无弹窗| 成人一级黄色毛片| 中文字幕无码不卡免费视频| 那曲县| www插插插无码视频网站| 亚洲欧美另类图片| 国产美女久久久亚洲综合| 午夜视频免费试看| 亚洲不卡av一区二区无码不卡| 三个男吃我奶头一边一个视频 | 午夜短视频日韩免费| 人妻在卧室被老板疯狂进入| 宜章县| 国内精品久久久久久久97牛牛| 日韩无码系列| 亚洲A∨无码| 一本色道久久综合无码人妻88| 亚洲欧洲自偷自拍图片| 巨熟乳波霸若妻在线播放| 一本色道无码道| 少妇特殊按摩高潮惨叫无码| 老司机午夜精品视频资源| 亚洲 欧美 日韩一区二区| 国产亚洲精品久久久久蜜臀| 洋洋av| 国产精品看高国产精品不卡| 91一区二区| 人妻久久精品天天中文字幕| 久久精品视频只有这里| 国产成人久久av免费看| 亚洲国产一区二区三区在线观看| 国产成人av乱码在线观看| 色婷婷Av|