アクティビティ
- 会社情報 > 社会貢献 > 徳島人工知能NLP研究所 > アクティビティ
公開ツール・リソース
ツール
日本語形態素解析器: Sudachi
https://github.com/WorksApplications/Sudachi
[チュートリアル] https://github.com/WorksApplications/Sudachi/blob/develop/docs/tutorial.md
日本語形態素解析器: Sudachi.rs (Rustクローン)
日本語形態素解析器: SudachiPy (Pythonバインディング)
https://github.com/WorksApplications/Sudachi.rs
[ドキュメント] https://worksapplications.github.io/sudachi.rs/python/
検索エンジンプラグイン: elasticsearch-sudachi
https://github.com/WorksApplications/elasticsearch-sudachi
[チュートリアル] https://github.com/WorksApplications/elasticsearch-sudachi/blob/develop/docs/tutorial.md
形態素解析構造可視化ツール: ViSudachi
形態素解析差分分析ツール: sudachi-tools
日本語同義語ライブラリ: chikkar
https://github.com/WorksApplications/chikkar
[Pythonクローン] https://github.com/WorksApplications/chikkarpy
日本語依存構造解析器: Kintoki
トライ木データ構造ライブラリ: jdartsclone
言語リソース
大規模日本語固有表現・形態素辞書: SudachiDict
https://github.com/WorksApplications/SudachiDict
※Open Data on AWS https://registry.opendata.aws/sudachi/ 上でも公開しています
大規模日本語単語ベクトル: chiVe
https://github.com/WorksApplications/chiVe
※Open Data on AWS https://registry.opendata.aws/sudachi/ 上でも公開しています
[チュートリアル] https://github.com/WorksApplications/chiVe/blob/master/docs/tutorial.md
大規模日本語事前学習済みモデル/Transformers向け日本語トークナイザー: chiTra
分散表現評価データセット: yamaMomo
研究発表
論文誌
Lexical Simplification by Unsupervised Machine Translation
Akihiro Katsuta and Kazuhide Yamamoto (Nagaoka University of Technology)
International Journal of Asian Language Processing, Vol.30, No.02, pp.2050008(14 pages), World Scientific Publishing, 2020
※第一著者が長岡技術科学大学に在籍していた際のプロジェクト
Membership Inference Attacks on Sequence-to-Sequence Models
https://www.aclweb.org/anthology/2020.tacl-1.4/
Sorami Hisamoto, Matt Post (Johns Hopkins University), Kevin Duh (Johns Hopkins University)
Transactions of the Association for Computational Linguistics (TACL), 2020.
※第一著者がジョンズ・ホプキンズ大学を訪問していた際のプロジェクト
ニューラル機械翻訳における単語報酬モデルに基づく対訳辞書の利用
https://www.jstage.jst.go.jp/article/jnlp/26/4/26_711/_article/-char/ja/
竹林 佑斗,Chu Chenhui(大阪大学),荒瀬 由紀(大阪大学),永田 昌明(NTT) 自然言語処理, Vol.26 No.4, 2019.
※第一著者が大阪大学に在学していた際のプロジェクト
国際会議
Automatic Generation of Japanese Question-Answering Pairs
Hiroki Tanioka (徳島大学), Kaoru Kimura (徳島大学), Kazuma Takaoka, Ryohei Nakatani, Yoshitaka Uchida
Fourth Asia Pacific Corpus Linguistics Conference (APCLC 2018), September 17, 2018.
Sudachi: a Japanese Tokenizer for Business
http://aclweb.org/anthology/L18-1355
Kazuma Takaoka, Sorami Hisamoto, Noriko Kawahara, Miho Sakamoto, Yoshitaka Uchida, Yuji Matsumoto (NAIST)
11th edition of the Language Resources and Evaluation Conference (LREC 2018), pp.2246-2249, May 10, 2018.
全国大会・学会研究会など
単語正規化による表記ゆれに頑健な BERT モデルの構築
https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/PT1-6.pdf
勝田哲弘, 林政義, 山村崇, Tolmachev Arseny, 高岡一馬, 内田佳孝, 浅原正幸 (国語研)
第28回言語処理学会年次大会, March 16, 2022.
yamaMomo : Sudachi 同義語辞書による日本語分散表現の評価用データセットの作成
https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/PT2-3.pdf
野口夏希 (愛媛大), 勝田哲弘, 山村崇, 高岡一馬, 内田佳孝
第28回言語処理学会年次大会, March 16, 2022.
語彙データベースとしての Sudachi 辞書
https://jedworkshop.github.io/jed2022/materials/jed2022_e-1_%E9%AB%98%E5%B2%A1.pdf
高岡一馬
第28回言語処理学会年次大会ワークショップ「日本語における評価用データセットの構築と利用性の向上」, March 18, 2022.
選択肢提示型チャットボットのためのQAの自動シナリオ化へ向けて
竹林佑斗, 山村崇, 勝田哲弘, 久本空海, 高岡一馬, 内田佳孝
NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.
分散表現のドメイン適応へ向けた類似ドメインデータ検索
勝田哲弘, 山村崇, 勝田哲弘, 竹林佑斗, 久本空海, 高岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)
NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.
詳細化した語彙関係をもつ同義語辞書を用いた日本語のRelation Embedding学習への取り組み
勝田哲弘, 山村崇, 竹林佑斗, 久本空海, 高岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)
NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.
形態素解析器Sudachiの複数粒度分割に基づく未知の複合語ベクトルの生成
久本空海, 勝田哲弘, 山村崇, 竹林佑斗, 高岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)
NLP若手の会 (YANS) 第15回シンポジウム, September 23, 2020.
chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて
~形態素解析器Sudachiと超大規模ウェブコーパスNWJCによる分散表現の獲得と改良~
https://www.ieice.org/publications/ken/summary.php?contribution_id=109906
久本空海, 山村崇, 勝田哲弘, 竹林佑斗, 髙岡一馬, 内田佳孝, 岡照晃(国語研), 浅原正幸(国語研)
電子情報通信学会 言語理解とコミュニケーション研究会 第16回テキストアナリティクス・シンポジウム, September 10, 2020.
chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P6-16.pdf
河村宗一郎 (ワークス/香川大), 久本空海, 真鍋陽俊, 高岡一馬, 内田佳孝 , 岡照晃(国語研), 浅原正幸 (国語研)
第26回言語処理学会年次大会, March 19, 2020.
詳細化した同義関係をもつ同義語辞書の作成
https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/P4-14.pdf
高岡一馬, 岡部裕子, 川原典子, 坂本美保, 内田佳孝
第26回言語処理学会年次大会, March 18, 2020.
LOFを用いたドメイン外発話検出におけるデータ拡張の有効性の検証
https://www.ieice.org/publications/search/summary.php?id=FIT0000013634&tbl=conf_fit
山村崇(九州工業大学), 真鍋陽俊, 中谷良平, 内田佳孝
第18回情報科学技術フォーラム(FIT2019), September 3, 2019
統計情報を用いた人の心を捉える質問応答文の分析
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/D4-9.pdf
谷岡広樹 (徳島大), 中谷良平, 内田佳孝
第25回言語処理学会年次大会, March 14, 2019.
User-Assisted Tabular Extraction in Japanese Invoice
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P5-26.pdf
Vincent Leonardo, Yuichiro Shimizu, Kensuke Masugata, Sorami Hisamoto, Yoshitaka Uchida, Kazuma Takaoka
第25回言語処理学会年次大会, March 15, 2019.
複数粒度の分割結果に基づく日本語単語分散表現
https://www.anlp.jp/proceedings/annual_meeting/2019/pdf_dir/P8-5.pdf
真鍋陽俊, 岡照晃 (国語研), 海川祥毅, 髙岡一馬, 内田佳孝, 浅原正幸 (国語研)
第25回言語処理学会年次大会, March 15, 2019.
【特別講演】製品利用可能な形態素解析器『Sudachi』の現状と今後の展望
内田佳孝
14回 テキストアナリティクス・シンポジウム, February 8, 2019.
形態素解析器『Sudachi』のための大規模辞書開発
http://doi.org/10.15084/00001644
坂本美保, 川原典子, 久本空海, 髙岡一馬, 内田佳孝
言語資源活用ワークショップ2018, pp.118-129, September 4, 2018.
製品利用可能な形態素解析器Sudachi
高岡一馬
第24回言語処理学会年次大会ワークショップ「形態素解析の今とこれから」, March 16, 2018.
形態素解析辞書で曖昧性解消に挑む
坂本美保
第24回言語処理学会年次大会ワークショップ「形態素解析の今とこれから」, March 16, 2018.
Information Extraction from English & Japanese Resume with Neural Sequence Labelling Methods
http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/P10-5.pdf
Akihiro Katsuta (長岡技術科学大学), Hutama Adhi Hanjaya, Somnath Asati, Sorami Hisamoto, Kazuma Takaoka, Yoshitaka Uchida, Yuji Matsumoto (NAIST)
第24回言語処理学会年次大会, pp.1007-1010, March 15, 2018.
質問応答システムの基盤化と応答可能性の判定
http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A4-3.pdf
谷岡広樹 (徳島大学), 中谷良平, 与儀涼子, 内田佳孝
第24回言語処理学会年次大会, pp.651-653, March 14, 2018.
その他、勉強会 など
WAP NLP Tech Talk
形態素解析器「Sudachi」から見る形態素解析ことはじめ
http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A4-3.pdf
高岡一馬
オープンソースカンファレンス京都2018, August 4, 2018.
Elasticsearchで今すぐ使えるビジネス向けトークナイザー『Sudachi』
https://speakerdeck.com/sorami/sudachi-elasticsearch
久本空海
Elasticsearch勉強会, August 2, 2018.
Elasticsearchのための新しい形態素解析器 「Sudachi」
https://qiita.com/sorami/items/99604ef105f13d2d472b
Elastic stack Advent Calendar 2017
Javaでつくる本格形態素解析器
スライド: https://www.slideshare.net/WorksApplications/java-82794239
高岡一馬
JJUG CCC 2017 Fall, November 18, 2017
形態素解析の話
https://www.slideshare.net/WorksApplications/ss-78025845
高岡一馬
NLPエンジニアによる自然言語処理の実用化にむけた勉強会
https://wap.connpass.com/event/59358/, July 22, 2017
ERPと自然言語処理
https://www.slideshare.net/WorksApplications/erp-78025661
内田佳孝
NLPエンジニアによる自然言語処理の実用化にむけた勉強会
https://wap.connpass.com/event/59358/ , July 22, 2017