生成AI

筆記・方法論インデックスに戻る

記事作成日:2024/7/8
最終編集日:2024/8/24
ここでは、最近一般的に言われている生成AIについて記述する。

生成AIはテキストや画像の作成をはじめ、分析手法など幅広く使われ日々急速に進歩している分野である。このため最終編集日より相当経っていれば状況や以下の考え自体が大きく変わる可能性がある。筆記セクションで掲載していることから、ここでは生成AIについて従来人間が行ってきた小説やドキュメントの執筆制作など筆記に関する部分に限定して個人的な考えをまとめている。
《 概要 》
OpenAI による ChatGPT が代表格であり、アカウント登録することによって無償で利用できるため爆発的な普及をみた。その後インターネットで従来行われていた検索と結びつき、ブラウザからの検索で、より詳細で対話するような形での情報提供を行っている。一般的な利用となればこの方面からが最も多いと思われる。

例えば広く使われている Microsoft Edge なるブラウザに標準搭載されている Bing で検索すると、検索キーワードを含む記事が一定順位で掲示される。同じ検索結果表示のページには Copilot というタブが併設されており、ここで検索キーワードを入力すると蓄積されている膨大なデータをまとめ上げて出典をリンクで掲示しながら自然な文章として出力される。
キャプチャ画像は、この記事を作成する現時点で解体作業中である勤労青少年会館を入力したときの反応。


更に検索利用者が次に尋ねてきそうな内容を予測し、あらかじめ既定のボタンとしていくつか提示してくる。


返してくる文章は日本語として申し分ない内容であり、不自然さがまったくない。敢えて引き合いにするなら相変わらず跋扈している詐欺メールや FB の迷惑レスポンスにみられる中国語風丸出しな似非日本語よりはずっと自然である。従来のキーワードによる検索では対応する概要情報を返すのみだが、更にキーワードに対応する中のごく狭い専門的分野や高度で別のジャンルに関連する情報をも与えてくれる。このため検索キーワードについてほぼ知識が皆無であっても、対話するような形で複数回尋ね返すことによって申し分のない情報が得られる場合も多い。
【 類似する機構 】
従来からあった検索を元にした応答システムは、今ほど生成AIが注目される以前からあった。ローカル環境からでもPCの不具合に対する指針を与えるトラブルシューティングは、いくつかの用意された問いかけから分岐して回答を返す。オンライン環境では企業が用意した顧客問い合わせページで、恰も担当者がリアルタイムで応答してくれているように見えるシステムがあった。初期には専属担当者が常駐し、問いかけに応答していたと思われる。現在は生成AIが代行しているようだが、返される情報だけではヒトが行っているのか機械なのか判然としない場合が多い。
《 利用した人の一般的な反応 》
執筆作業などに従事していない一般の利用者は、生成AIの返す結果に驚嘆し感心する。調べ事をするのに従来の検索よりも高度で詳細な情報が得られやすくなったと考え、以前よりも便利になり新しい分野を学習したり情報を得る大きな助けと進歩になっていると考える人が多数である。

他方、生成AIの出現によって置き換えられたり需要が少なくなることが予想される分野に従事する人々は、生成AIの出現を脅威と考えている。実際そのことで仕事が減ったり、企業では解雇対象者とされてしまったりで良いイメージを持たれていない。生成AIがヒトの作業を大いにサポートすることは認めながら、行き過ぎたリアリティーや機械とヒトの出力結果の峻別困難に起因する問題を認識している。
《 認識されている問題点 》
生成AI自体降って湧いたものではないのだが、その利便性から利用者が爆発的に増加し検索の挙動を増強すること、人間のように学習を重ねたり生成AIの挙動そのものがより精密なものに改定されたりすることから、多大なメリットと引き替えになる副作用やあまりにも急進的な変化に懸念が示されている。
【 生身の人間とAIの間で起きる誤謬 】
一定の条件を満たすテキスト - レポートであったり論文であったり - を作成するのが苦手な学生にとっては救世主のような存在であり、他方で学生の理解度に応じて単位を付与したい教師にとってはまったく頭の痛い問題だろう。ある生徒は生成AIの吐き出したテキストへ適当に手を加えることで恰も自分の頭で考えた結果として教師を出し抜く。他方、生成AIの弊害を知る教師は、生徒が本当に自分の頭で考えて書き上げたレポートを「生成AIの力を借りて書き並べた」と決めつけて不可を与えかねない。そして実際に人の手で書き上げた成果物を生成AIによるものと誤認され、却下される事件も起きている。
【 不適切な内部情報の露呈 】
ChatGPTに限定して言えば、バージョンが進むたびに挙動が精密になってきており、AIが作成したのか生身のヒトによるものか判別が非常に困難なレベルになってきている。あまりにも人間らしい挙動を示そうとするために、巧みに工夫された質問を与えることによって個人情報や企業の秘匿情報を吐き出させようとする試みもある。公序良俗に反する回答を吐き出さないようにフィルターがかけられていると言われるが、こうした試みのいくつかは成功してしまい、外部に漏洩してはならない開発バージョン情報を答えてしまったり、ハンドルネームを入力しただけなのに紐付けられた使用者の実名を露呈したという報告がある。[1]
【 生業を喪うリスク 】
適切なキーワードと膨大なデータに含まれる客観的事実から人の手を介さずに高品質なドキュメントが得られることは、従来それを生業として人力で行っていた人たちが仕事を喪うこととなりやすい。この問題はテキスト主体の小説やレポートよりも、イラストやデザインといった分野の方が深刻である。生成AIに頼るなら殆どコストがかからず、短時間で目的の成果が得られる。

ドキュメント制作に限定しても、執筆家や小説家は自分の書き上げるものを上回る内容を生成AIが提供してしまうリスクを感じている。実際、登場人物や背景、ストーリーの構成など初期条件を適正に与えれば、架空のドラマや脚本を代筆させることが可能なレベルになっている。ヒトはミスする存在だから、登場人物のキャラクターや設定を常に把握している積もりでも矛盾するストーリーを展開させてしまうかも知れない。この点で充分にトレーニングされた生成AIは、設定忘れや書き落としといったミスをしてしまう確率がヒトより遙かに低い。
《 生成AIがヒトから執筆を奪うことについて 》
筆記セクションで書いているから、将来的に生成AIがヒトの執筆作業を完全に代替するときが来るかを考えたい。
【 些末な執筆を生成AIへ積極的に丸投げする 】
個人的には現時点で ChatGPT を使っておらず、このシステムに準じた Copilot の出力結果しか見ていないので完全ではない。それにもかかわらず「生成AIがヒトから執筆作業を完全に奪う」という懸念は、まったく鼻で笑い飛ばして済ませられるレベルである。巷の評判は「生成AIは万能であらゆる執筆を行ってくれる」かのような幻想にまみれているが、過大評価もいいところだ。仕事がなくなるという脅威などまるで感じておらず、むしろヒトの手でわざわざやる必要がない執筆作業を機械に押しつければ、節約できた労力を他の執筆作業に充てられる点で、生成AIの台頭にはメリットしか感じない。

誰に訊いても完全に正答が定まっている質問は、既にネット上にあるドキュメントか、それから別の客観的事実を統合した生成AIによる回答で足りる。機械がやればもっと速くヒトよりも公正で低コストで済むのを、わざわざヒトの手に委ねることこそ間違っている。これは執筆作業だけでなく、合理的な判断を要する法律の運用や政治的判断についても当てはまる。[2]

記述テストや論文で、生成AIによる論述が規定レベルを満たし試験をパスする事例がいくつも知られている。これは生成AIの進歩であることに疑いはないが、驚嘆すべき事実とはまったく思わない。生成AIが進歩しているのに、それ以前からあったレベルの論述課題を試験として課すなら自然に起こりうる現象である。この現象を問題視するのではなく、生成AIで容易に解決できるような課題を漫然と行うのを問題視すべきである。

学生が ChatGPT の助けを借りて卒業論文を書く事例が知られているが、与えられた課題を簡潔に解決しようとする一つの態度である。良いことと推奨はしないが、誤った態度とも思わない。同様の事例は生成AI以前からあった。夏休みに学校側が課題図書を読んだ読書感想文を提出する課題を出したとき、大学生などが宿題代行業として感想文を代筆するというものである。有償で宿題解決を下請けに出すも同然なので、かなり批判を呼んだ。現在なら宿題代行業すら要らない。生成AIに課題図書の名前を入力すれば、無償でかなりのグレードの読書感想文が得られるだろう。

これも昭和期からずっと続いていた課題図書を読ませて読書感想文を書かせるという、読書嫌いをわざわざ助長するような宿題を見直しもせず漫然と続ける教育者側に責任がある。もし生徒が読書感想文が書けずに悩んでいる裏で学校側が提出しなければ評価を下げるというなら、私なら宿題代行業や生成AIを利用して宿題を片付けることに賛成する。何故なら既にその宿題は課題図書を読んで適正な読書感想文を書くのが目的ではなく「学校が提出せよと指示したこと位はキチンと対処する」態度だけが求められていると解釈されるからだ。
些か乱暴なこの論調から垣間見えるように個人的には生徒の自発性を損なう宿題という存在そのものに反対
【 リスクを感じない理由 】
ChatGPT や Copilot といった生成AIを利用して多くの人がその出力結果を見て大したものだと感心している。何かの調べ事をしたいとき、確かに従来の検索よりもダイレクトに自然な案内テキストを返してくれる。かなりの専門的な内容でも(実は専門的な内容の方が絞り込み容易なのだが)瞬時に回答を返す。それは入力されたキーワードを元に、直後へ来る語をある程度予測して分枝を作成し、候補となる出力情報を蓄えているからである。出力情報は既にインターネット上へ保存されている他サイトのドキュメントなどから引っ張ってきている。そこから核心部分を抜き出し、日本語として自然な文章となるように加工し最終結果を出力している。

だから既にネット上の何処かに蓄えられた情報の有限個の連結で済む限り、出力は概ね満足いくレベルになる。当然ながらネット上の何処にもなかったり、ネット上どころか自分の脳内にしかない情報は再生し得ない。あいにく私が出力しようとしているのはそちら側の記述ばかりなので、生成AIにそれらを求めたところで「てんで話にならない低レベル」なものしか得られない。多くの人が思い付く疑問は申し分のない回答を返してくるが、私が与える質問に関してはまったくそうでなかった。むしろ生成AIが追い付くにはまだ推論に必要な客観データがまったく足りていない。

これは生成AIの技術的問題ではなく「無から有は生じない」という部分に本質的な原因がある。私が生成AIで尋ねたのは、未だネット上に客観資料が殆どあがっていないデータに基づく質問だった。そして実際に私がドキュメント制作しているのは、ネット上に資料のない郷土題材が殆どである。元データがないのに質問を与えてマトモな答えが返ってくるわけがない。当然ながら生成AIは万能ではない。実際、Copilot で情報を付け加えながら尋ねてみたものの、二度目以降も前回と同じテキストを吐き出すだけだった。

将来的にすべてのドキュメントを含めた客観資料がネット上にあがるべきであり、そのために地図や写真のような画像データもデジタルアーカイブで保存が進められている。これにはまだ先々で長い時間が必要になる。それをもってしてもなお、生成AIがすべての答えを提示できるわけではない。ネットにあがっている情報が現在のデジタル情報プラス従来の紙媒体といった旧来の情報とすれば、紙媒体にもならない各個人の脳内記憶や経験は、更にそれらよりも膨大である。この情報と結び付けられたデジタルデータは、脳内記憶を保持する本人でなければ再現できない。

簡素化して言えば、一個人の経験や記憶は生成AIが創り出し得ない。ただし真偽の判断が困難な偽りの記憶からエピソードを生成AIに紡ぎ出させることは可能である。しかしその一部に「当時の写真」の如き当人が保持している客観データに結びついていれば、それにまつわるドキュメントは生成AIでは作り出せない。その「容易に機械が創り出せそうにない」執筆を中核的に行っているわけだから、どれほど生成AIが簡単な執筆作業を侵食していこうがまったく安泰なのである。
《 今後の必要な変化 》
この変化が後戻りすることはまず考えられないから、更に生成AIが進化したときの状況を予測して先回りして対処すべき問題がいくつかある。
【 生成AIが代行する業務との棲み分け 】
今後は時間をかけて生成AIと同程度のアウトプットしかできない人たちから確実に執筆作業を奪っていくだろう。テキストを構成する仕事も例外ではない。例えば今ここに書き付けている文章は、どれも既知の事実から導かれたものだけだから私がしなくても生成AIがずっと正確で分かりやすいドキュメントを提供できる。即ち生成AIと同程度のアウトプットしか出来ない人は執筆作業に携わる機会がなくなるというだけである。

この変化には痛みを伴うだろうが、新たな技術革新があったとき今までも普通に起きてきた過程である。電報電話局の接続機器が自動化された昭和中期以降、交換作業者は一斉に職を失ったし、インターネットが台頭してメールという送受信手段が普及したから手紙を書く人が激減した。そのメールですら今は対処の術を喪った迷惑メールの跋扈と LINE のような即応性の高いツールにマイナーな情報伝達手段に成り下がりつつある。時代は常に簡単便利な方向に進むのだから、一つの場所や手段にしがみ着く以外ない職種は、それ自体リスクが高いと言わざるを得ない。

従来タイプの記述式テストを行うのは、生成AIを利用可能する環境外で行うなら被験者の理解度を試す一つの方法として存在し得る。しかし卒業論文のようにまったく自由に生成AIを使える状況では、評価方法そのものを見直す以外ない。卒業論文が無意味なのではなく、提出された内容によって優劣や評点をつけるシステムの再考が必要である。
【 生成AIへの対抗策 】
ブログやホームページで定常的に情報発信している人たちの中には、ネット上に公開している情報を生成AIに吸い上げられるのを快く思っていない。一歩進んで明白に嫌悪し、情報発信は行いたいけど生成AIが自前のコンテンツを再掲するのを拒絶したいと考える人もいる。

そもそも情報共有したいからネットに公開するので、この態度は矛盾しているように見える。生成AIによる再掲が殊の外嫌われるのは、自力で情報を集めて手間暇かけて作成したドキュメントを吸い上げられるだけでなく、恰もそれを生成AIによる手柄として横取りされている感覚があるからだろう。

この種の嫌悪は、一頃話題になったまとめサイトに通じる。自分では殆どあるいはまったくコンテンツ制作を行わず、ネット上にある各サイトの有用なドキュメントだけ引っ張ってきて、出典を明記した上でズラズラと並べ立てるサイトである。調べ事をする人からすれば、そこへ行けば大方の情報が揃うのでアクセス頻度が高まりがちであり、それ故に広告を出せばPVを稼げるのでそのまま収益になる。コツコツと情報を積み重ねて作られたサイトを踏み台にし、それらを寄せ集めただけでカネ稼ぎすると映るから問題視されたわけで、こういう手法を昔の言葉で表現するなら「人のふんどしで相撲を取る」そのものである。

まとめサイトの制作それ自体は、明白に出典を添えている限り正当な行為である。更に詳細な情報を知りたい閲覧者はリンクで情報元へアクセスするから、強ちデメリットばかりでもないという意見もある。それでも情報源の踏み台にされることに反対したいなら、当該コンテンツを削除するか検索制御する必要がある。特に拾い上げられたくない情報なら、はじめからネット界に提出しないのが当面の正解である。

ホームページのドキュメントなら、冒頭に <META name="robots" content="noindex,nofollow"> のような検索ボットに指示を与える記述を含めるのが定番である。しかしこれは完全ではない。生成AIが出現する以前の検索時代ですら、一部のクローラはこのメタタグを無視して情報収集していたことが判明している。既にみてきたようにハンドルネームから個人名が紐付けられ生成AIから返された事例があり、どのような手法でデータを集積しているか分からない以上、限定エリアであっても秘匿すべき情報をネット上に保存すべきではない。

何年も前からネット界へ提出されたドキュメントは、検索を想定していても生成AIの学習に利用されることまで想定されていない。過去に遡ってそれらのドキュメントの学習利用も拒絶したいなら、ネットから削除すべきである。削除したとしてもひとたびネット界へ提出された情報はアーカイブされるため、完全に無にはできない。特に重要な情報なら、公開した時期が完全に固定されるような方法が望ましい。年月日が入った新聞などの配布物や放送による公開は有力な手段である。

先々でその情報を誰か別の利用者がネット界に提出し、生成AIが学習したところで公開時期を明白にしておけば、自分が当該情報の源流地にいることを主張できる。ある理論や仮説を公開するとき、翻案の著作権が自分に帰属することを明白にするためにも重要である。小さな情報でも後々で重要なものになる可能性を考えるなら、不用意に生成AIへデータ提供してやる必要はない。この態度を個人的には「生成AIに不用意に餌を与えなければいい」と表現している。[2]
《 その他の情報 》
言うまでもなくここまですべての記述は、人間(と言うか野ウサギ)たる宇部マニアックスの脳内によって行われている。生成AIの助けはまったく借りていない。だから出現する用語が”生成AI”だったり”機械”と言ってみたりの揺らぎがある。このような非統一的な記述は生成AIではしないだろう。不完全だからこそ人間臭く味のある文章ができる。これは将来的に「人間が書いた」と「生成AIが書いた」を識別するヒントになり得るだろう。
【 パロディー 】
生成AIを茶化した題材は、かなり早くから頭に浮かんでいた。恐らくその類似性から誰かが既に唱えているだろう。敢えて記録しておこうか。例えば遙か昔、昭和期に理科の先生をしていて、うちの親のように現在はインターネットで繋がることがなく、情報源がテレビと新聞といった環境に置かれた人が発した言葉として。
最近、新聞の記事でやたらと「生成アルミニウム」ってのが目立つが、あれは一体何じゃ?
大きなフォントで書けば、まあ一応違いは分かるのだが…
生成AI生成Al
お粗末様…
出典および編集追記:

1.「文章生成AI「GPT-3」にハンドルネームを入力したら本名がフルネームで出力されたという報告 |GIGAZINE

2.「総合的にみればAIの台頭は脅威ではない、脅威である筈がない|FBタイムライン

ホームに戻る