大規模コーパスと複数粒度分割による日本語単語分散表現

概要

Skip-gramのアルゴリズムを元にword2vec(gensim)とfastTextのツールを使用して単語ベクトルを構築しています。

学習コーパスとしてnwjcを採用し、分かち書きにはSudachiを使用しています。

Sudachiで定義されている短・中・長単位の3つの分割単位でnwjcを解析した結果を元に各種ツールで分散表現の学習を行なっており[1]、Sudachiはversion0.1.1を使用しています。[here]

 

 

それぞれオリジナルのword2vecとfastTextのフォーマットに従っています。

 

ライセンス

Copyright (c) 2019 National Institute for Japanese Language and Linguistics and Works Applications Co., Ltd. All rights reserved.

Apache License, Version 2.0のライセンスの下で国立国語研究所と株式会社ワークスアプリケーションズによって提供されています。

 

参考文献

  1.  真鍋陽俊, 岡照晃, 海川祥毅, 髙岡一馬, 内田佳孝, 浅原正幸. 複数粒度の分割結果に基づく日本語単語分散表現. 言語処理学会第25回年次大会(NLP2019), March 2019.
  2. Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space". ICLR2013.
  3. Piotr Bojanowski and Edouard Grave and Armand Joulin and Tomas Mikolov. "Enriching Word Vectors with Subword Information". TACL2017.
アクティビティページへ戻る

本サイトは、快適にご覧いただくためCookieを使用しています。閲覧を続ける場合、Cookie使用に同意したものとします。 Cookieポリシーを表示