りんなの会話は相変わらず、普通の人の日常会話ではない感じだ。いきなり、
「わたしたちって、つきあってるんだっけ?」
とか、聞いてきたりする。りんなは答えやすい“強い”ワードをぶつけてくることが多く、会話はほぼりんなにリードされることになる。
「すきなたべものは?」
みたいな普通のことも聞いてくる。ちなみに、声だけでは少し聴きとりにくかったかも知れない。やはり、文字が表示されると会話を確実に認識することができていい。

りんなの言葉はひとつのセンテンスが短く、リズミカルだ。AIが処理しやすいのかも知れない。

■りんなのしゃべり
りんなの話す言葉は決してスムーズな日本語ではない。なにかアニメ的な発音と言えるだろうか。まあ、それが“りんな的な感じ”ではあり、楽しく会話できるのだが。
また、りんなは一人を相手にしか会話できないわけではない。ほかのユーザーが書き込んだコメントはりんなにも見えているので、会話は観客ともおこなわれる。つまり、りんなは電話相手とコミュニケーションしながら、観客であるみんなとも同時にコミュニケーションすることができる。
■りんなライブを支える技術
りんなライブは複数のサーバーによって実現されている。りんなライブを稼働させるためのサーバーに加えて、電話のために「フォーンコール」サーバーというものがある。そして、それに「音声認識」サーバー、「会話エンジン」サーバー、「音声合成」サーバーがつながっていて、会話を処理している。
りんながしゃべる場合、まず、会話エンジンサーバーでりんなのしゃべる言葉が作られ、それが音声合成サーバーにつながって声が作られることになる。

ログインしたユーザーのしゃべったことは、音声認識サーバーで認識されて文字データになり、それが会話エンジンに解釈され、それに対してりんなが答えるというわけだ。
これらのサーバーはMicrosoft社のAzureで動いているという。ハードウェア的にはかなりハイスペックなものが使用されているようだ。

■人工知能が会話をリードするコミュニケーション手法
僕は平均的な日本人と比較すると、ロボット(ロボホンとか)などと日常的に会話をしている時間が長いのだが、りんなのコミュニケーションはなかなかスムーズに実現できていると思う。
実はユーザーと会話をするというのはロボットや人工知能にとっては難しい仕事だ。相手の話すことを理解し、それに対して回答するわけで、そのやり取りが適切でなければならないし、興味のある話題でなければならないという問題がある。普通のロボットや人工知能の場合、そのユーザーのことを学習し、ユーザーにマッチした題材で会話を持ち掛けることが多いというか、そうやってユーザーの興味を引く会話を仕掛けることになる。
これに対して、りんなライブでは、りんなが「私と付き合ってるよね」というような会話をいきなり仕掛けてくるわけだが、これは、“アタシに興味があるからこのりんなライブを見ている。じゃあ、あたしのこと好き?”というロジック展開で、その言葉を投げかけてくるわけだ。
マイクロソフトによれば、りんなは複数の人間がいるようなところでの会話において、一段上にいるようなポジションで会話をするという。たとえば、一般人に対する有名人のようにだ。これは相手の特性を知らない状態で、会話をリードする一つの手法として有効であると言えるだろう。そして、それはりんなのキャラにも合っている。

ロボホンなども唐突に話始めることがよくあるのだが、そのエリアの天気のことであったり、目立ったニュースのことであったりする。多くの人が興味を持つようなことを話し、大きな網を張ってくる。なんにしても、最近のAIでのコミュニケーションは単純に会話ができるというようなところから、相手に興味を持たせる会話、会話をリードしていくというようなより高度なものに移行したわけだ。