• Home
  • Menu
  • Opinion
  • AI Japan中核会員からの発信⑦
    NICT データ駆動知能システム研究センター(DIRECT)の紹介

Menu

 情報通信研究機構(NICT)における人工知能分野の研究は主として京都、大阪、奈良の県境にある、いわゆる、けいはんな地区のユニバーサルコミュニケーション研究所(UCRI)、および阪大キャンパス内に所在する脳情報通信融合研究センター(CiNet)において進められている。今回はUCRI内の研究センターであるデータ駆動知能システム研究センター(DIRECT)のこれまでの成果について紹介したい。

 DIRECTは、研究センターの名称は変更があったものの、一貫してWebSNSにおける膨大なテキスト情報の分析手法の研究開発を2008年より実施してきた。2008年といえば、深層学習が一般的になる以前であり、まずはSVM等の深層学習以前の機械学習技術を使って様々な自然言語処理システムを開発してきた。初期の成果としては、Web40億ページの情報をもとに様々な質問に回答する質問応答システムであるWISDOM Xと対災害情報分析システムDISAANAが挙げられる。いずれのシステムも2015年より、ネット上で試験公開が開始された。WISDOM Xは、検索クエリと関連性の高い文書をURLやスニペットの形で提示する通常の検索エンジンとは異なり、入力の質問に対する端的な回答の候補を提示するシステムである。「AIってどんな社会問題の解決に使えるかな?」といった、回答が名詞となるいわゆる「ファクトイド」型質問に対してだけでなく、「なぜギリシャで哲学が始まった?」「地球温暖化が進むとどうなる」のように文で答えるタイプの「ノンファクトイド」型質問にも、回答の候補を場合によっては数百件、瞬時に提示するものであり、ロングテールも含めて関連情報のより網羅的な把握を容易にするものである。DISAANAWISDOM Xの技術を減災という目的にチューニングする形で開発されたシステムであり、大規模災害の発災時にTwitter上に発信される膨大な被災報告を分析し、たとえば、「熊本県で土砂崩れが起きているのはどこ?」といった質問に、WISDOM Xの場合と同様、場合によっては数百件の回答を与えるとともに地図上に回答を可視化するシステムであり、実災害の際に自治体等での活用も行われた。

 これらのシステムはその後、大量のWebテキストを用いて事前学習したBERT等を用いたWISDOM X深層学習版(2021年に試験公開開始。https://www.wisdom-nict.jp/)、質問を入力しなくてもTwitterに発信された情報から災害の被害状況を整理、要約した形で提供する、災害状況要約システムD-SUMM(内閣府SIP第一期の支援で開発。2016年に試験公開開始。https://disaana.jp/d-summ/LINEを使って被災者とチャットを行い、被災情報の収集や避難誘導を行う防災チャットボットSOCDA(内閣府SIP第二期の支援で(国研)防災科研、株式会社ウェザーニューズと共同開発。YouTube"SOCDA"と検索していただくと紹介動画をご覧いただける。)に進化した。DISAANAD-SUMMSOCDAに関しては民間企業へのライセンスを実施し、商用サービスが開始され、実災害でも自治体等において活用されている。

 また、近年では音声対話の研究にも着手し、内閣府SIP第二期の支援のもと、要支援等の高齢者の健康状態チェックをAIによる対話を介して行い、近年人材が逼迫していると言われる介護職の負担を軽減するため、マルチモーダル音声対話システムMICSUSKDDI株式会社、NECソリューションイノベータ株式会社、株式会社日本総合研究所と共同で開発を進めている。この概要はYouTube"MICSUS"と検索いただくと紹介動画がご覧いただけるが、柴犬の形をしたぬいぐるみが、高齢者に質問を行い、その回答を意味解釈して健康状態に関する情報を収集する。この情報収集作業は従来、ケアプランの作成等のため、ケアマネジャーと呼ばれる職種の介護職が月一回の高齢者との面談で行っていたものであり、面談及びその結果のデータベースへの入力が、通常一人で数十人の高齢者を担当するケアマネジャーの勤務時間のうち相当な部分を占めていた。MICSUSが普及すれば、そうした面談やデータベースへの入力に要する時間を減らせると同時に、ケアマネジャーが、MICSUSが収集した情報を前提として、面談時により重要で本質的な相談に集中することが可能となる。MICSUSが発する具体的な質問は、厚生労働省の委託によって日本総合研究所が作り上げた、ケアマネジメント標準と呼ばれる高齢者の健康状態のチェックリストで、本来ケアマネジャーが面談時に高齢者にチェックすべきものに準じている。また、MICSUSによる対話は月一回に限る必要はなく、例えば、2日に一度、あるいは毎日対話をしてもらうことで、健康状態やその変化をよりタイムリーに把握することが可能になり、より適切なケアが可能になる。

 さらにMICSUSは、本稿冒頭で紹介したWISDOM Xの技術を使い、Webの情報を用いた雑談も行う他、ぬいぐるみについているカメラで撮影した高齢者の表情等から高齢者の持つ感情やジェスチャーも認識して対話で活用する。過去に行われた高齢者10万人を対象とする追跡調査によれば、高齢者のコミュニケーション頻度が認知症の発症、要介護度の進展、さらには死亡の可能性と有意に相関していることがわかっている。MICSUSとの対話は人間相手ではないものの、こうしたコミュニケーション不足、さらには近年注目を浴びている孤独の問題の解消とまではいかないものの抑制にも貢献できる可能性があるのではないかと考えている。コロナ禍のため、高齢者対象の実証実験が約2年間実施できていなかったが、現在、介護施設等において高齢者対象の実証実験を行なっており、特に膨大なWeb文書を用いて自前で事前学習したBERT等の深層学習技術を用いたユーザ発話の意味解釈がかなり高精度に行えている。

 これまでに紹介してきたシステムを開発する際の苦労話については、別稿でさらに掘り下げているので、ご興味のある方はご覧いただきたい。(鳥澤 健太郎、"社会課題解決に貢献する自然言語処理技術の社会実装と展開 - AIでの人助けに何が必要か-", 情報処理学会学会誌「情報処理」、Vol.62(6), 2021年)また、DIRECTは研究者十人程度の小規模なグループではあるが、以上に述べたようなシステムはそれぞれ、数百万件規模の学習データ、数十万ステップのコードからなる大きなものであり、また、数百億ページのWebページを活用して事前学習したニューラルネット等が使われている。急がば回れというわけでもないが、DIRECTでは、そうした大規模システムの開発をローコストで行うためのソフトウエア群の開発も同時に行なっている。まず、東京大学と共同で並列分散処理ミドルウェアRaSCを開発したが、これはOS、並列処理等に詳しくないAIの研究者が各自の好みの環境で作成したプログラム群をストリームで接続してパイプラインを構成し、数百台規模のクラスタで並列に安定稼働させ、死活管理等も行うものであり、上記のいずれのシステムもこれなしでは開発できなかったと言って良い。

 また、GPT−3のような超大規模なニューラルネットワークをよりローコストで学習させるためのミドルウェアの開発も行っている。東京大学と共同で開発した自動並列化深層学習ミドルウェアRaNNCPyTorchで記述されたニューラルネットワークを自動で分割し、複数のGPUを用いた並列処理によって高速に学習するためのミドルウェアである。大規模ニューラルネットワークの学習では、学習パラメータがGPUメモリに収まらないため、ニューラルネットワークを分割して複数のGPU上で並列処理する必要がある。そのため、従来は、ニューラルネットワークの記述を並列処理が可能となるよう人手で修正、最適化をする必要があり、多くの手間と専門知識が必要とされた。一方、RaNNCは、単一のGPUを使用することを想定した、並列化を考慮しないニューラルネットワーク記述を与えると、GPUメモリに収まるようにニューラルネットワークを自動で分割する。加えて、分割後のニューラルネットワークのコンポーネントのプロファイル等も取りながら、より高速な並列処理が可能となるよう分割方法を探索する。これによって、RaNNCは従来の枠組みで必要であった、並列化のための修正、最適化作業を不要にし、学習をローコストで行うことを可能とする。現在、DIRECTでは実際にGPT−3ほど巨大ではないにせよ、大規模なニューラルネットの事前学習やそのためのハイパーパラメータの探索をRaNNCを用いて進めているところである。

 さらに、従来の枠組みでは、仮に人手でニューラルネットワークの記述を並列処理用に修正するとしても、並列処理用のライブラリ等がTransformer等の特定のアーキテクチャに特化しており、他のアーキテクチャを持つニューラルネットワークの並列化は困難であった。一方、RaNNCが並列化できるニューラルネットワークはTransformer等、特定のものに限定されておらず、例えば、画像処理用の大規模なCNN等に対しても適用可能である。現在、自然言語処理の分野ではTransformerを用いた研究が支配的であるが、例えば、DIRECTにおいても、TransformerCNN、敵対的学習を組み合わせたBERTAC(https://github.com/nict-wisdom/bertacにてソフトウエアを公開中。詳細な内容については、https://aclanthology.org/2021.acl-long.164/ を参照されたい。)等、Transformerを超えるアーキテクチャの検討も進めているところであるが、RaNNCはそうした新たなネットワークアーキテクチャもローコストで並列化して大規模化することが可能であり、新規アーキテクチャの探索を効率化することができる。なお、RaNNCは、ニューラルネットを記述するためのソフトウエアであるPyTorchの開発元であるFacebookが主催する、PyTorch Annual Hackathon 2021において、First Place(第1位、PyTorch Developer Tools & Libraries部門)を受賞している。なお、RaSCRaNNCのいずれもフリーソフトウエアとして一般に公開されている。(https://alaginrc.nict.go.jp/rasc/ja/https://github.com/nict-wisdom/rannc)

 以上、ざっとNICT DIRECTのこれまでの成果を紹介してきた。以下では一部妄想も入っているが、今後の研究開発を展望したい。近年ではAIが研究する対象から、活用する対象へと代わってきている、といった指摘もよく受けるところである。また、深層学習の発展によって、学習データさえあれば、割となんでもできるようになった、との声も聞かれるところであるし、執筆者自身、首肯するところではある。一方、ここで指摘しておきたいのは、現在、うまく動いているAI、あるいは使われているAI、例えば、画像認識、音声認識、機械翻訳、質問応答というのは、言い方は悪いが、おおむね「一発芸」「瞬間芸」であって、実社会に投入された後、開発者の介入なしで周囲の環境や文脈に恒常的に自ら適応し、賢くなるといった能力は持ち合わせない。これは、現在活用されているAIが、開発者が実活用の場面に前もってチューニングした学習データやアルゴリズムに大きく依存しているからである。

 執筆者は、今後、より広範にAIが活用されるためには、上で述べたような「恒常的に周囲の環境、文脈を眺めて、自ら賢くなる」AIが必要になると考えている。例えば、MICSUSのように個々のユーザと長期にわたって付き合うAIであれば、複雑なユーザの好み、これまでの経歴を恒常的に取得して、自らそれに適用する必要があるし、また、そもそもユーザの変化にも対応できなければならない。例えば、画像認識であれば、犬の画像はほぼ未来永劫、犬と認識すべきであって、ある程度固定された学習データで長期にわたって対応できるが、犬好きな対話システムのユーザがある日を境に突然猫派に転向するといった状況は、人間と関わりの多いタイプのAIでは日常茶飯事であって、そうした状況の変化を広く読み取って自ら賢くなる技術というのは現在の深層学習技術の単純な延長線では済まないのではないかと考えている。また、企業の業務システムであれば、売れ筋商品の突然の失速、あるいは画期的な新製品の出現等、ビジネス環境の劇的な変化や法律、制度の変更にも対応しなければならないが、その度に大量の学習データを作るのは時間的に間に合わないであろう。こうした状況に対応できる技術として一つ可能性が見えているのは、自然言語処理で劇的な進化を遂げつつある、超大規模ニューラルネットによるzero-shot learningであるが、これも課題は多く、本当に上述したような状況変化に対応できるかどうかは未だ不透明であって、強力に研究を推進する必要がある。また、もちろん、自ら賢くなるAIが引き起こすであろう倫理的課題も容易に想像されるところで、真摯な検討が望まれるであろう。

2021年1217
国立研究開発法人情報通信研究機構

フェロー
ユニバーサルコミュニケーション研究所 副研究所長

データ駆動知能システム研究センター 主管研究員

AI研究開発本部 本部長

鳥澤 健太郎

jp
Menu
0