言語における時間的常識 – Kobayashi Laboratory

言語における時間的常識

❏ ALICE Model

概要

State-of-the-art natural language processing (NLP) models are first pre-trained on a large text corpus and then fine-tuned on downstream tasks. However, due to limited data resources from downstream tasks and the extremely high complexity of pre-trained models, aggressive fine-tuning often causes the fine-tuned model to overfit the training data of downstream tasks and fail to perform well on unseen data, and also on domain shift and adversarial scenarios. In this research, we aim to leverage these issues and explore how to improve model generalization and robustness of pre-trained language models (e.g., BERT) on downstream NLP tasks by adopting adversarial training.

研究スライド

lis-1

Lis Kanashiro Pereira

Pereira, L., Liu, X., Cheng, F., Asahara, M. and Kobayashi, I. 2020. Adversarial Training for Commonsense Inference. ACL 2020 Workshop on Representation Learning for NLP (Rep4NLP@ACL2020).

Lis Kanashiro Pereira, Kevin Duh, Fei Cheng, Masayuki Asahara, and Ichiro Kobayashi. “Attention-Focused Adversarial Training for Robust Temporal Reasoning”. The European Language Resources Association 2022, Marseille, France, Jun. 2022.

❏ 時間的常識理解へ向けた言語モデル構築への取り組み

概要

文章中に表現される時間に関するイベントに対して、常識的な時間関係を捉えることができるようにすることは、自然言語理解において非常に重要なタスクである。一方で、近年幅広い自然言語処理タスクで大きな成果を上げているBERTなどの事前学習済み言語モデルは、時間推論においてはまだ性能が低いと言われている。そこで、本研究では、いくつかの事前学習済み言語モデルに対して、時間的常識推論のための言語モデルの開発に焦点を当てる。複数のコーパスを用いた多段階の微調整や、時間的常識推論に重要なマスクされた時間的指標を予測するマスク言語モデリングを行うことでモデルを作成し、その結果、時間的常識推論課題において、標準的な微調整よりも精度が大幅に向上することを示した。

研究スライド

kimura-01

kimura-02

kimura-03

kimura-04

kimura-05

kimura-06

kimura-07

kimura-08

kimura-09

kimura-10

kimura-11

kimura-12

kimura-13

kimura-14

kimura-15

kimura-16

kimura-17

kimura-18

木村麻友子（Mayuko Kimura）

木村麻友子，Kanashiro Pereira Lis，浅原正幸，Cheng Fei，越智綾子，小林一郎「時間的常識理解へ向けた言語モデル構築への取り組み」人工知能学会全国大会（第36回），国立京都国際会館，京都，2022年6月．

❏ 時間的常識を理解する日本語汎用言語モデルの構築へ向けて

概要

自然言語で表現された出来事を理解するには、時間を理解することが重要である。しかし、それらは記載が省略されることが多々あるため、イベントのさまざまな時間的側面について常識的な知識を持っている必要がある。そこで、時間的常識に関する英語のデータセットMC-TACOを日本語に翻訳したデータセットを用いて、時間関係の常識を識別できる日本語汎用言語モデルの構築を目指す。様々なマスク設定やマスク割合でのMasked Language Modeling によるファインチューニングや事前学習済モデルの変更による実験を通して、時間的常識におけるタスクの精度が向上した言語モデルを構築することができた。また、Masked Language Modelingの際に、英語と同様の設定で精度が向上することがわかった。しかし、英語に比べて日本語の実験での精度は低く、日本語の時間的常識におけるタスクが難しいタスクであることもわかった。現在は構築した言語モデルを人間の脳内における時間情報の処理の解析の研究に用いる方向で研究を進めている。

研究スライド