AIはハルシネーションが問題?いいえ人間もハルシネーションします
こんにちは、よしてるです。
世は生成AI時代、いろんなことが便利になるだけでなくAIチャットボットとおしゃべりまでできるようになりました。利用においてはいろいろな注意点がありますが、特に気をつけたいのは「ハルシネーション」です。生成AIにおいては「さも正解かのように間違った情報を回答してくること」を意味します。
なんでも教えてくれる便利な生成AIですが、情報の信憑性・正確性については十分に注意が必要ということですね。
しかし、ハルシネーションを起こすのは生成AIだけではありません。人間(検索で上位に出てくる人間が書いた記事)も、さも正解かのように間違った情報を掲載してくるので、生成AI関係なく「その情報って合ってるんだろうか?」と疑う姿勢は重要です。
目次
人間が書いた記事にも嘘がある!
なんとも困ったことに、インターネット上には「嘘」「誤情報」「極端な解釈」「勘違い」「説明不足」が溢れかえっています。なるほど確かに、インターネット上の情報も学習している生成AIがハルシネーションを起こすわけです。
さらに困ったことに、こうした「正しくない情報」を発信しているWeb記事は、「さも正解かのような顔」をしています。これは、私自身の首も締めてしまうような話ですが、そのトピックに関して専門家でもなんでもないライターが付け焼き刃の知識で記事を書いているために起こります。
気をつけるべきは生成AIの回答だけではないのです。生成AIの話題が席巻し続ける今こそ、人間が書く記事も含めて「それは本当にそう?」と疑う力、「クリティカルシンキング」を身に付けたいところです。
本記事では、そのきっかけとして、私が「それは本当にそう?」と疑った結果「正しくない情報」だったケースをいくつか紹介してみようと思います。メニューは以下のとおりです。
・Googleフォームのセキュリティ対策にWAF、本当にそう?
・Googleが掲げる10の事実にSEOのヒントがあるのか?
・機械可読目録ってなんだ?
・メラビアンの法則、その解釈おかしくない?
Googleフォームのセキュリティ対策にWAF、本当にそう?
入力フォームを作成できるツールとして、最も有名なものは「Googleフォーム」ではないでしょうか。おそらく多くの人がGoogleフォームで作られたフォームに入力・回答しているでしょうし、作ったことがある人も多いでしょう。
Googleフォームの使い方(主に作り方)を解説するビジネス向け記事も溢れかえっていますが、ここでは誤情報が狭くない範囲で広まっています。表題のとおり、Googleフォームのセキュリティに関するものです。
Googleフォームはシンプルなクラウドサービスであり、数多あるクラウドサービスの例に漏れず、セキュリティ対策について知りたい需要があるようです。Googleフォームのセキュリティについて解説する中で、多くの記事では「Googleが実施している対策」とは別に「自社でできる対策」も紹介しています。
いくつか挙げられている対策の中で、よく出てくるのは「ファイアウォール」と「WAF」です。特にファイアウォールは聞いたことがある人も多いかもしれません。Googleフォームについて解説しているうちの少なくない記事は、「ファイアウォールやWAFを導入して対策しましょう」と紹介しています。
これら2つについて簡単に解説しますと、ファイアウォールとはインターネットとPCの通信を監視し、悪意のある通信からPCを保護する仕組みです。ノートンやウイルスバスター、マカフィーなどのセキュリティソフトを導入している方も多いかと思いますが、これらの製品もファイアウォール機能でPCを保護しています。
確かに、Googleフォームを利用する際には、ファイアウォールにてセキュリティを高めることは重要です。Googleフォームにて収集した情報が抜かれてしまうと、重大なセキュリティ事案となってしまいます(なお、PCには通常ファイアウォールがあるので、Googleフォームのためにファイアウォールを導入して対策しようという説明には違和感があります)。
問題は、WAFのほうです。
WAFは「Web Application Firewall」の略で、「Webアプリケーションを保護するためのファイアウォール」となります。つまりファイアウォールの一種なのですが、通常のファイアウォールとの違いはなんでしょうか。
Googleフォームを始めとしたWebアプリケーション(クラウドサービス)は、インターネットに接続することで利用できます。その他のGoogleサービスや、Zoomなどの会議アプリ、銀行のインターネットバンキング、ChatGPTなどの生成AIなども同様です。
これらのWebアプリケーションは、提供する企業がサーバーを持ち、その中にアプリケーションのデータやシステム、利用者のデータなどを保管することで成り立っています。私たちはインターネット通信を介し、企業のサーバーへアクセスすることでサービスを利用できるわけです。
私たちのPCが悪意ある攻撃から保護する必要があるのと同様に、こうした企業のサーバーも保護する必要があります。ときどき世間を騒がせる「個人情報流出」は、利用者のデータを保管しているサーバーが外部から不正アクセスされることで起こります。
この保護のために役立つセキュリティのひとつが、「WAF」というわけです。Webアプリケーションを保護したいので、私たちがPCにノートンやウイルスバスターを導入するのと同じように、サービスを提供する企業がサーバーに導入します。
ここまでの話をまとめます。
Webアプリケーションの利用で考えると、Webアプリケーションの「提供側」が導入するのがWAF、「利用側」が導入するのがファイアウォールです。
Googleフォームであれば、WAFを導入するのはGoogleであり、利用する私たちではありません。つまり、「ファイアウォールやWAFを導入しましょう」と解説する記事は、誤情報を発信していることになります。
なぜそうなってしまったのか
WAFはアプリケーションを開発して利用者へ提供する側が使うセキュリティ対策なのに、アプリケーションの利用者向けの記事でも「導入しましょう」という明らかにおかしな内容が散見されます。
なぜこんな誤情報が広がってしまったのか、明確な理由を解き明かすことはできないですが、1ついえるのは、セキュリティについての知識を深めずに執筆してしまった記事が多いからでしょう。ファイアウォールとWAFについて調べてみたら、同じファイアウォールでも役割が正反対なことが理解できるはずですが、その理解にたどり着く前に記事を書いてしまうので誤情報を発信してしまいます。
一度だれかが間違えたら、その誤情報を参照した人がまた間違え、その次の人も……と連鎖が広がります。おそらく、「企業のWebサイトに書いてあることだから間違いはないだろう」という意識があり、情報を疑わずに連鎖してしまうのでしょう。
Googleが掲げる10の事実にSEOのヒントがあるのか?
またもやGoogleですが、これはたまたまであり特に意図はありません。
みなさんは、「Googleが掲げる10の事実」をご存じでしょうか。これは、ページの冒頭でGoogleが説明しているように、Googleが設立されてから数年後に策定されたもので、企業理念や行動指針のようなものです。
10の事実にはそれぞれ詳細がありますが、ここではタイトルだけ引用してみます。
1. ユーザーに焦点を絞れば、他のものはみな後からついてくる。
2. 1 つのことをとことん極めてうまくやるのが一番。
3. 遅いより速いほうがいい。
4. ウェブ上の民主主義は機能する。
5. 情報を探したくなるのはパソコンの前にいるときだけではない。
6. 悪事を働かなくてもお金は稼げる。
7. 世の中にはまだまだ情報があふれている。
8. 情報のニーズはすべての国境を越える。
9. スーツを着なくても真剣に仕事はできる。
10. 「すばらしい」では足りない。
「事実」と銘打つだけあって、行動指針というよりは何かの定義のようです。例えば6の「悪事を働かなくてもお金は稼げる」は、そうでないとすれば「お金は悪事を働かないと稼げない」となってしまうので、確かに事実といえるでしょう。Googleはこれを掲げることで、「私たちは悪事をせずにお金を稼ぎます」という宣言をしている……というのが「Googleが掲げる10の事実」だといえます。
さて話は少し変わり、インターネットマーケティングにおいてSEOは欠かせない要素ですので、SEOについての解説記事が大量に公開されています。
これらの記事の中には、SEOのコツや心構えとして、「Googleが掲げる10の事実を参考にしよう」と解説しているものがあります。曰く、Googleが掲げる10の事実にはSEOのヒントが書かれている、という感じです。
変な話、私もSEOについての記事を書く機会があって、こうした記事を読み漁るわけです。しかし、「Googleが掲げる10の事実を参考にしよう」という内容には、なんだか違和感がありました。
そこで実際に「10の事実」を読んでみると、SEOについての話は1つもしていません。それどころか、これは企業としての行動指針のようなものであり、サービス利用者に求めるものではないのです。
「10の事実」を読むことで、Googleが何を考えてサービスを提供しているのかを知ることはできるでしょう。しかし、ここにSEOのヒントが書かれていると解釈するのは、さすがに飛躍といわざるを得ません。
なぜそうなってしまったのか
「読んでいない」というのが、最たる原因ではないかな……と思ってしまうところです。
見方を変えてみれば、「1. ユーザーに焦点を絞れば、他のものはみな後からついてくる。」や「3. 遅いより速いほうがいい。」は、なんだかSEOの話をしているように見えないこともありません。「SEO=Google」みたいなところがあるので、Googleがこれを目指しているとすれば、確かにSEOにおいてもGoogleと同じことをすれば成功に近くなると解釈することはできそうです。
ただ、それならそう書くべきですが、私が観測している少なくない記事ではきちんと説明していません。
先ほどのGoogleフォームのセキュリティの件は、「内容が難しい」ゆえに広まってしまった誤情報ということもできそうですが、「Googleが掲げる10の事実」については明確な一次情報があります。一次情報がある件について記事を書く際には、必ず一次情報を参照したいところです。
機械可読目録ってなんだ?
「機械可読目録」や「機械可読目録とは」などで検索したり、ChatGPTに聞いたりすればわかるのですが、機械可読目録とは「書籍情報を機械が読み取れるようにしたもの」を指します。
書籍情報には、具体的には書名、著者名、出版社、出版年、本のサイズ、ページ数、ISBNコード、本のジャンルなどなどがあります。これらをデータベース化して、国境を越えての情報共有も可能にします。
機械可読目録が活用されているのは、主に図書館です。図書館では、館内に設置されている端末で検索することで、お目当ての本がどこに置いてあるのかを知ることができます。また、お目当ての本がどの図書館に蔵書されていて、今貸し出し可能かどうか検索することもできます。これを可能にしているのが機械可読目録、というわけです。
さて、話は驚くほど違う方向へ飛んでいきますが、「生成AIチャットボット」についての解説記事をWebで検索すると、特定の記事では記事内に「機械可読目録」が出てきます。
生成AIチャットボットとは、生成AIのうちテキストを生成して受け答えを可能にしたものを指し、ChatGPTやGeminiなどが代表です。これらの生成AIチャットボットは、自然な受け答えを可能にするために、LLM(大規模言語モデル)をベースにしています。LLMとは、大量のテキストを学習することで自然言語の出力を可能にした生成AIを指します。
この「大量のテキストの学習」に、機械可読目録が活用されている……というのが、少なくない記事で解説されている内容です。
これは明らかに変な話です。機械可読目録は、あくまで書籍情報をデータベース化したものであり、私たちが図書館を利用する際にスムーズに本を探したり、職員が効率的に業務を行ったりするのに役立てられます。これのどこが、生成AIのテキスト学習に役立つのでしょうか。
おそらく、「書籍情報を機械が読み取れるようにしたもの」という説明を見た誰かが、「本に書かれているテキストがすべて電子化されているんだ」と勘違いしてしまった……のではないかと推察しています。確かに今は電子書籍も当たり前の存在になってはいますが、機械可読目録で扱っているのは書籍情報であり、テキストではありません。
これもまた、誰かが間違えて書いたものを見た誰かがまた間違え、それが連鎖して広まってしまった例だといえます。AI解説の記事では驚くほど広がっていて、なんと、日本を代表するテック企業のコーポレートサイトでも誤情報が載ってしまっています(個人的に好きな企業なので、ちょっとショックです)。
そしてなお悪いことに、どのサイトも「さも正解かのような顔」をしているのです。ハルシネーションは生成AIだけの問題ではないんだとわかります。
メラビアンの法則、その解釈おかしくない?
これまでの例とは少し毛色が異なり、行動心理学用語の話です。
行動心理学の用語は、ちょっとした説明を見るだけでも面白いものです。面白いので、「ビジネスにも活用できる!」的な記事もかなり多いように思います。3つの価格帯の中では真ん中がよく選ばれるという「松竹梅の法則」、小さな要求を飲ませてから大きな要求を出していく「フット・イン・ザ・ドア」、関連商品を買わせる「クロスセル」などなど、なるほどなぁと思わされます。
そういった解説記事でよく出てくる法則のうち、間違った内容で伝わっているのが「メラビアンの法則」です。
ビジネス向けとして解説している記事に書かれている内容は、「人の印象は半分以上が見た目で決まる」「話し手の印象は視覚>聴覚>言語の順で決まる」というものです。人に与える印象は「話す内容」や「話し声」よりも「見た目」のほうが重要ですよというもので、ここから転じて、「接客や営業では清潔感のある見た目を心がけよう」という説明をするようです。
接客や営業では見た目に気をつけたほうがいい、というのは確かに間違いないでしょう。ただし、メラビアンの法則で説明している内容とはまったく異なります。
この誤情報はかなり広まっているらしい
このメラビアンの法則の誤情報については、WAFや機械可読目録のレベルではなく、日本でかなり広まってしまったもののようです。そのため、勘違いしてしまうのはさすがに仕方がないのかもしれません。
ただ、「それは本当にそう?」と疑えば、気づける問題でもあります。実際に、手前味噌ではありますが、私はなんだか説明に納得できず、調べた結果誤情報だと気づけました。だって、人の印象の決まり方は複数の要素が絡まってきますし、シーンによっても変わります。それなのに、「半分以上が見た目」と、定量的に測れるものでしょうか?
俗説は「実験の前提条件」がまるまる抜けている
アルバート・メラビアンが実験したのは、「人は矛盾する内容の情報が同時に入ってきたとき、言語・聴覚・視覚のうちどれを重視するか」というものです。
アルバート・メラビアンはまず、顔を合わせてのコミュニケーションでは「言語・聴覚(声のトーン)・視覚(ボディーランゲージ)」の3つの要素があり、メッセージを正しく伝えるには3つの要素が一致する必要があるとしています。感謝を伝えるときには「ありがとう」という言葉を使い、声のトーンは明るく、目線はしっかり相手を見ることが重要……というような感じですね。
このとき、3つの要素が一致していないと、人は違和感を覚えます。「ありがとう」と言われても、伏し目がちだと本当に感謝されているのかわからないですね。3つの要素が一致していないとき、人はどの要素を重要視するのか……というのが、法則のキモです。俗説では、ここまでの前提条件がまるまる抜けており、法則の説明として成り立っていません。
そして実験の結果、印象に与える影響は言語情報が7%、聴覚情報が38%、視覚情報が55%だった、というわけです。
「ありがとう」の例でも、納得感があるのではないでしょうか。言葉は「ありがとう」で感謝していても、声のトーンはボソボソ、目線は伏し目がちだと、本当に感謝しているようにはとても思えません。割合にして93%がネガティブ要素のためですね。
また、言葉は「ありがとう」で声のトーンは明るく、目線は伏し目がちだと、言語と聴覚が一致するため45%はポジティブです。相手が目を合わせるのが苦手な人だとわかっていれば、ポジティブな印象になりそうですが、そうでなければどっちつかずで判断しづらく、気持ち悪さがあります。なるほど、45:55の割合だなぁと感じます。
メラビアンの法則はこういうものですので、実生活に活かすとすれば、「言葉で伝えても声と身振りが合っていなければ伝わらないよ」となるでしょうか。
日常生活にもビジネスにも当てはまるシーンはありそうですが、「人の印象は半分以上が見た目で決まる」とはまったく違うことがわかります。見た目(ボディーランゲージ)は確かに55%なので半分以上ですが、あくまでコミュニケーション時の割合であり、第一印象の話ではなく「見た目(格好の清潔感)」の話でもありません。
まとめ:今こそ疑う視点が大事
生成AIはハルシネーションを起こすので情報の真偽については気をつけなければならない……と方々で言われていますが、本記事で解説したように、人間も同じことをしています。生成AIばかり悪者扱いされるのは、ちょっと可哀想に思う面もあります。
インターネットにはそもそも「正しくない情報」が溢れているので、ChatGPTやGeminiを利用しようが、GoogleやYahoo!を利用しようが、「それは本当にそう?」と疑う視点は重要です。さらにいえば、本や雑誌、辞書を読むときだって、情報丸呑みの意識は危険です。
生成AI時代の今こそ、「それは本当にそう?」と疑って、質の高いインプットを心がけたいところです。