アクティビティ

公開ツール・リソース

ツール

日本語形態素解析器: Sudachi.rs (Rustクローン)

https://github.com/WorksApplications/Sudachi.rs

日本語形態素解析器: SudachiPy (Pythonバインディング)

https://github.com/WorksApplications/Sudachi.rs

[ドキュメント] https://worksapplications.github.io/sudachi.rs/python/

形態素解析構造可視化ツール: ViSudachi

https://github.com/WorksApplications/ViSudachi

形態素解析差分分析ツール: sudachi-tools

https://github.com/WorksApplications/sudachi-tools

日本語同義語ライブラリ: chikkar

https://github.com/WorksApplications/chikkar

[Pythonクローン] https://github.com/WorksApplications/chikkarpy

日本語依存構造解析器: Kintoki

https://github.com/WorksApplications/kintoki

トライ木データ構造ライブラリ: jdartsclone

https://github.com/WorksApplications/jdartsclone

言語リソース

大規模日本語固有表現・形態素辞書: SudachiDict

https://github.com/WorksApplications/SudachiDict

※Open Data on AWS https://registry.opendata.aws/sudachi/ 上でも公開しています

大規模日本語事前学習済みモデル/Transformers向け日本語トークナイザー: chiTra

https://github.com/WorksApplications/SudachiTra

分散表現評価データセット: yamaMomo

https://github.com/WorksApplications/yamaMomo

研究発表

論文誌

Lexical Simplification by Unsupervised Machine Translation

Akihiro Katsuta and Kazuhide Yamamoto (Nagaoka University of Technology)

International Journal of Asian Language Processing, Vol.30, No.02, pp.2050008(14 pages), World Scientific Publishing, 2020

※第一著者が長岡技術科学大学に在籍していた際のプロジェクト

Membership Inference Attacks on Sequence-to-Sequence Models

https://www.aclweb.org/anthology/2020.tacl-1.4/

Sorami Hisamoto, Matt Post (Johns Hopkins University), Kevin Duh (Johns Hopkins University)

Transactions of the Association for Computational Linguistics (TACL), 2020.

※第一著者がジョンズ・ホプキンズ大学を訪問していた際のプロジェクト

スライド: https://speakerdeck.com/sorami/acl2020-membership-inference-attacks-on-sequence-to-sequence-models-is-my-data-in-your-machine-translation-system

ニューラル機械翻訳における単語報酬モデルに基づく対訳辞書の利用

https://www.jstage.jst.go.jp/article/jnlp/26/4/26_711/_article/-char/ja/

竹林 佑斗,Chu Chenhui(大阪大学),荒瀬 由紀(大阪大学),永田 昌明(NTT) 自然言語処理, Vol.26 No.4, 2019.

※第一著者が大阪大学に在学していた際のプロジェクト

国際会議

Automatic Generation of Japanese Question-Answering Pairs

Hiroki Tanioka (徳島大学), Kaoru Kimura (徳島大学), Kazuma Takaoka, Ryohei Nakatani, Yoshitaka Uchida

Fourth Asia Pacific Corpus Linguistics Conference (APCLC 2018), September 17, 2018.

Sudachi: a Japanese Tokenizer for Business

http://aclweb.org/anthology/L18-1355

Kazuma Takaoka, Sorami Hisamoto, Noriko Kawahara, Miho Sakamoto, Yoshitaka Uchida, Yuji Matsumoto (NAIST)

11th edition of the Language Resources and Evaluation Conference (LREC 2018), pp.2246-2249, May 10, 2018.

全国大会・学会研究会など

単語正規化による表記ゆれに頑健な BERT モデルの構築

https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/PT1-6.pdf

勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸 (国語研)

第28回言語処理学会年次大会, March 16, 2022.

yamaMomo : Sudachi 同義語辞書による日本語分散表現の評価用データセットの作成

https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/PT2-3.pdf

野口夏希 (愛媛大), 勝田哲弘, 山村崇, 高岡一馬, 内田佳孝

第28回言語処理学会年次大会, March 16, 2022.

語彙データベースとしての Sudachi 辞書

https://jedworkshop.github.io/jed2022/materials/jed2022_e-1_%E9%AB%98%E5%B2%A1.pdf

高岡一馬

第28回言語処理学会年次大会ワークショップ「日本語における評価用データセットの構築と利用性の向上」, March 18, 2022.

選択肢提示型チャットボットのためのQAの自動シナリオ化へ向けて

竹林佑斗, 山村崇, 勝田哲弘, 久本空海, 高岡一馬, 内田佳孝

NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.

分散表現のドメイン適応へ向けた類似ドメインデータ検索

勝田哲弘, 山村崇, 勝田哲弘, 竹林佑斗, 久本空海, 高岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)

NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.

詳細化した語彙関係をもつ同義語辞書を用いた日本語のRelation Embedding学習への取り組み

勝田哲弘, 山村崇, 竹林佑斗, 久本空海, 高岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)

NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.

形態素解析器Sudachiの複数粒度分割に基づく未知の複合語ベクトルの生成

久本空海, 勝田哲弘, 山村崇, 竹林佑斗, 高岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)

NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.

chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて
~形態素解析器Sudachiと超大規模ウェブコーパスNWJCによる分散表現の獲得と改良~

https://www.ieice.org/publications/ken/summary.php?contribution_id=109906

久本空海, 山村崇, 勝田哲弘, 竹林佑斗, 髙岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)

電子情報通信学会 言語理解とコミュニケーション研究会 第16回テキストアナリティクス・シンポジウム, September 10, 2020.

スライド: https://speakerdeck.com/sorami/chive-zhi-pin-li-yong-ke-neng-nari-ben-yu-dan-yu-bekutoruzi-yuan-falseshi-xian-hexiang-kete

chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-16.pdf

河村宗一郎 (ワークス/香川大), 久本空海, 真鍋陽俊, 高岡一馬, 内田佳孝 , 岡照晃(国語研), 浅原正幸 (国語研)

第26回言語処理学会年次大会, March 19, 2020.

詳細化した同義関係をもつ同義語辞書の作成

https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P4-14.pdf

高岡一馬, 岡部裕子, 川原典子, 坂本美保, 内田佳孝

第26回言語処理学会年次大会, March 18, 2020.

LOFを用いたドメイン外発話検出におけるデータ拡張の有効性の検証

https://www.ieice.org/publications/search/summary.php?id=FIT0000013634&tbl=conf_fit

山村崇(九州工業大学), 真鍋陽俊, 中谷良平, 内田佳孝

第18回情報科学技術フォーラム(FIT2019), September 3, 2019

統計情報を用いた人の心を捉える質問応答文の分析

https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/D4-9.pdf

谷岡広樹 (徳島大), 中谷良平, 内田佳孝

第25回言語処理学会年次大会, March 14, 2019.

User-Assisted Tabular Extraction in Japanese Invoice

https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P5-26.pdf

Vincent Leonardo, Yuichiro Shimizu, Kensuke Masugata, Sorami Hisamoto, Yoshitaka Uchida, Kazuma Takaoka

第25回言語処理学会年次大会, March 15, 2019.

複数粒度の分割結果に基づく日本語単語分散表現

https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P8-5.pdf

真鍋陽俊, 岡照晃 (国語研), 海川祥毅, 髙岡一馬, 内田佳孝, 浅原正幸 (国語研)

第25回言語処理学会年次大会, March 15, 2019.

【特別講演】製品利用可能な形態素解析器『Sudachi』の現状と今後の展望

内田佳孝

14回 テキストアナリティクス・シンポジウム, February 8, 2019.

形態素解析器『Sudachi』のための大規模辞書開発

http://doi.org/10.15084/00001644

坂本美保, 川原典子, 久本空海, 髙岡一馬, 内田佳孝

言語資源活用ワークショップ2018, pp.118-129, September 4, 2018.

製品利用可能な形態素解析器Sudachi

高岡一馬

第24回言語処理学会年次大会ワークショップ「形態素解析の今とこれから」, March 16, 2018.

形態素解析辞書で曖昧性解消に挑む

坂本美保

第24回言語処理学会年次大会ワークショップ「形態素解析の今とこれから」, March 16, 2018.

Information Extraction from English & Japanese Resume with Neural Sequence Labelling Methods

http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P10-5.pdf

Akihiro Katsuta (長岡技術科学大学), Hutama Adhi Hanjaya, Somnath Asati, Sorami Hisamoto, Kazuma Takaoka, Yoshitaka Uchida, Yuji Matsumoto (NAIST)

第24回言語処理学会年次大会, pp.1007-1010, March 15, 2018.

質問応答システムの基盤化と応答可能性の判定

http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A4-3.pdf

谷岡広樹 (徳島大学), 中谷良平, 与儀涼子, 内田佳孝

第24回言語処理学会年次大会, pp.651-653, March 14, 2018.

その他、勉強会 など

形態素解析器Sudachiについて

https://shirokane-kougyou.fm/episode/35

久本空海

白金工業.FM ポッドキャスト, July 13, 2020.

形態素解析器「Sudachi」から見る形態素解析ことはじめ

http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A4-3.pdf

高岡一馬

オープンソースカンファレンス京都2018, August 4, 2018.

Elasticsearchで今すぐ使えるビジネス向けトークナイザー『Sudachi』

https://speakerdeck.com/sorami/sudachi-elasticsearch

久本空海

Elasticsearch勉強会, August 2, 2018.

Elasticsearchのための新しい形態素解析器 「Sudachi」

https://qiita.com/sorami/items/99604ef105f13d2d472b

Elastic stack Advent Calendar 2017

Javaでつくる本格形態素解析器

スライド: https://www.slideshare.net/WorksApplications/java-82794239

高岡一馬

JJUG CCC 2017 Fall, November 18, 2017

形態素解析の話

https://www.slideshare.net/WorksApplications/ss-78025845

高岡一馬

NLPエンジニアによる自然言語処理の実用化にむけた勉強会
https://wap.connpass.com/event/59358/, July 22, 2017

ERPと自然言語処理

https://www.slideshare.net/WorksApplications/erp-78025661

内田佳孝

NLPエンジニアによる自然言語処理の実用化にむけた勉強会
https://wap.connpass.com/event/59358/ , July 22, 2017