WORKS APPLICATIONS

国語研とワークス、単語ベクトルに関して産官連携による共同研究を開始

国内最大規模の日本語データベースと、ワークス開発の形態素解析器「Sudachi」を用いて、高精度な単語ベクトルの構築、無料公開を目指す

株式会社ワークスアプリケーションズ(本社:東京都港区、代表取締役最高経営責任者:牧野正幸、以下 ワークス)のAI研究機関であるワークス徳島人工知能NLP研究所は、大学共同利用機関法人人間文化研究機構国立国語研究所(以下国語研)と、自然言語処理の重要な資源の一つである「単語ベクトル」において、共同研究協定を締結いたしましたのでお知らせします。

  国語研究所  徳島人工知能NLP研究所

本共同研究では、国語研が保持する100億語規模の日本語データベース「国語研日本語ウェブコーパス(NWJC)」[1]と、ワークス徳島人工知能NLP研究所が開発した新たな形態素解析器「Sudachi」[2]を用いて、より実用的な「単語ベクトル」を構築します。

単語ベクトルとは、単語の特徴を数値化したものです。この単語ベクトルを用いることで、コンピュータは単語の類似性や関連性を捉えることが可能となり、コンピュータによる高精度な検索や翻訳、テキストマイニング(情報抽出)、分析、自動会話(例:チャットボット)の実現につながります。

本共同研究による成果を、オープンソースソフトウェアとして無償公開することで、これら自然言語処理の研究開発の加速に貢献してまいります。

<国語研とワークスによる共同研究 イメージ図>

「単語ベクトル」を活用することで、コンピュータが日本語を理解できるようになり、最適な回答を導き出して返信することが可能に

 

産官連携による共同研究の目的

自然言語処理技術の研究・実用化を行うワークス徳島人工知能NLP研究所は、2017年8月に商用利用に耐えうる高品質な解析性能を持つ形態素解析器「Sudachi」をオープンソースソフトウェアとして公開しました。

日本語学研究の中心機関である国語研は、様々な機関と理論的・実証的共同研究を展開することによって、日本語教育や自然言語処理などへの応用発展に寄与することを重要な使命としています。

そこで、国語研およびワークス徳島人工知能NLP研究所は、それぞれが持つ技術資産を活用し、自然言語処理技術の更なる発展、ならびに社会への技術還元を目的に、産官連携として共同研究することで合意いたしました。

 

自然言語処理分野における共同研究内容

単語ベクトルの作成のためには大量のテキストデータが必要となります。
このたび、国語研が有する国内最大級規模の「国語研日本語ウェブコーパス」と、実用面で使いやすい「Sudachi」を活用して、高精度な単語ベクトルの構築を行います。なお、構築された単語ベクトルは無償で商用利用可能なオープンデータとしての公開を目指してまいります。

コンピュータによる日本語の意味理解に必要な「単語ベクトル」とは

単語の特徴や性質を数百次元の実数ベクトルで表現することで、コンピュータ上で日本語(自然言語)を扱いやすくする研究が進んでいます。
この単語ベクトルとは、例えば「野球」や「サッカー」など、人間であれば双方ともに「スポーツ」と認識できる単語であっても、コンピュータ上ではそれぞれ別の文字列で構成されているため、類似性があることは判断できません。しかし、大量のテキストデータからある単語が他の単語とどのように出現しているかを学習し、単語の性質を数値化することで、コンピュータがそれぞれの単語がどの程度似たものかを判断することが可能になります。この結果、文字列一致のみならず単語の意味を考慮した文書の検索やトピックの分類が実現され、自然言語処理の精度向上につながることが期待されています。

 

 

商用利用に耐えうる高精度で柔軟なオープンソース形態素解析器「Sudachi」

オープンソース(OSS)として公開されている「Sudachi」は、既存の形態素解析器に不足する柔軟性や精度を兼ね備えた形態素解析器です。

形態素解析器「Sudachi」

「Sudachi」は、日本語における多様な表記の揺れに対応するとともに、形態素解析に必要な「辞書」に最新の単語を取り込み、定期的な更新・メンテナンスを行うことで商業利用に耐えうる高品質な解析性能を確保しています。画像やPDFに記載された文字列の読み取りや、自動会話プログラムにより会話形式で必要な情報を得ることのできる人工知能を用いたチャットボットなど、様々な解析の基礎的な処理に利用されています。

形態素解析器「Sudachi」の主な特長

 

ワークス徳島人工知能NLP研究所による研究プロジェクト

本研究所では、ワークスが開発するERPに搭載する機能の進化を技術面から支え、企業における組織や人に対し、新しい働き方を実現するための研究プロジェクトを進めています。

 

1.jpgあらゆる入力業務を効率化する”インプットレス”の精度向上あらゆる入力業務を効率化する”インプットレス”の精度向上
情報の検索や申請業務など、日常的に発生するあらゆる入力作業において、ユーザーの入力負担を極限までなくす”インプットレス”の技術に自然言語処理(NLP)を取り入れます。

  • 業務場面ごとに最適化された検索サジェスト
    過去の検索内容を解析・学習し、新たな検索の際にユーザーが入力したい項目を予測して提案します。
  • 領収書/請求書からの読み取り
    画像やPDFデータをERPにドラッグアンドドロップすると、記載された文字列を解析・抽出して入力欄へ自動補完します。

人工知能(AI)によるチャットボット業務効率化につながる様々なチャットボットの開発促進人工知能(AI)によるチャットボット業務効率化につながる様々なチャットボットの開発促進
業務に特化した多様なチャットボット機能を開発。ユーザーは人と会話をするような手軽さで、必要な情報を瞬時に入手することができるようになります。また、チャットボットを通して行われたやり取りを人工知能が学習し続けることで、使うごとに進化する仕組みの実現を目指します。

 

個人の生産性を最大化する“Workforce Tech”の研究個人の生産性を最大化する“Workforce Tech”の研究
従業員が心身ともに健康に働くことのできる環境を創り出すために、ヘルスデータや個々人に紐づくネットワーキング等の情報を掛け合わせ、社員のリテンションや人材活用の推進をサポートする機能の実現を目指します。

  • メンタルヘルス不調・退職リスクの早期発見
  • 隠れたハイパフォーマー人材の検出・分析、最適な人材配置の提案、キーパーソンの特定 など

 

すだちくん.jpgNLP基盤技術の研究開発
本研究所ではNLPの基盤技術の向上を目的に研究開発に取り組んでおり、その一環として形態素解析技術の性能向上にも注力しています。成果のひとつである形態素解析器「Sudachi」では、日本語における多様な表記の揺れに対応するとともに最新の単語を取り込み、定期的な更新・メンテナンスを行うことで、より高精度な文章解析の実現を目指しています。

 

自然言語処理(NLP)とは

日本語や英語などをはじめとする人間が使う言語をコンピュータに処理させるための技術やソフトウェアなどの総称で、人工知能の一分野です。キーボード入力時のかな漢字変換にはじまり、テキスト検索や音声認識など、あらゆるシーンで使用されています。また日本語処理においては、英語などの言語と異なり、文章中の語句が空白で区切られていないため、単語の区切りを特定するために、より高度な処理である形態素解析が多くの場面で必要となります。

 

[1]「国語研日本語ウェブコーパス」とは、言語を分析するための基礎資料として、書き言葉や話し言葉の資料を体系的に収集し、研究用の情報を付与したもの。
[2] 形態素解析とは、「辞書」と呼ばれる単語の情報に基づき文章を形態分割し、それぞれの品詞などを判別する技術のこと。「Sudachi」は、ワークス徳島人知能NLP研究所が開発した形態素解析ツールである。

* 会社名、製品名等はそれぞれ各社の商標または登録商標です。
* 本リリースに掲載された内容は発表日現在のものであり、予告なく変更または撤回される場合があります。また、本リリースに掲載された予測や将来の見通し等に関する情報は不確実なものであり、実際に生じる結果と異なる場合がありますので、予めご了承ください。

この記事に関するお問い合わせ先
株式会社ワークスアプリケーションズ
広報担当:金田、山際
TEL : 03-6229-1210
FAX : 03-6229-1211
Eメール: pr@worksap.co.jp

本サイトは、快適にご覧いただくためCookieを使用しています。閲覧を続ける場合、Cookie使用に同意したものとします。 Cookieポリシーを表示