2.テキスト生成AIの技術的構造
3.生成データの質に関わる基本的規定要因
4.パターン認識に基づき「新結合」を実行するマシンとしての生成AI
5.生成AIの「生成物」のOriginality、Creativity、Innovativity問題
注記
参考文献
参考図表1 言語モデルのパラメーター数の歴史的推移
参考図表2 各種大規模言語モデルの開発元、リリース日およびパラメーター数
参考図表3 連関「確率」に基づく「新結合」的なテキスト生成
ここではChatGPTなどのテキスト生成AI技術に焦点を当て、技術論的視点からの構造分析に基づき、その可能性と問題点について考察をおこなう。
言語モデル(Language Model)とは、「文章や単語のパターンを学習し、自然な文章を生成したり、入力されたテキストに対して意味のある応答を返したりする人工知能の仕組み」のことである。
Transformer以前の言語モデルでは、「単語同士の結びつき」(単語同士の照応関係)を基本的対象としていた。
これに対してTransformer言語モデルでは、単語データに対して「文全体における単語の位置情報」を付与し、「入力文章内の照応関係(類似度や重要度)」や「異なる文章同士の照応関係(類似度や重要度)」などを計算することで、文脈把握の追究がなされている。
「ある特定のコンテクストにおいて、ある特定の単語の次に、どのような単語がどの程度の出現確率で登場するのか?」という単語出現確率に関するデータベース構築により「文章全体の結びつき」(文脈)をAIの処理対象とすることが可能となり、人間が書いたような自然なテキスト文を生成ができるようになった。
言語モデルに関する基本的性能指標の一つが、言語モデルの容量や複雑さを示すパラメーター数である。パラメーター数は、2018年以後、1年間に約10倍という飛躍的な増大を遂げている(本レジュメ末の参考図表1および2参照)。OpenAIのGPT-4言語モデルのパラメーター数は推定で5,000億~1兆と言われており、その構築に巨額な費用が投じられている。
生成AIは、そうした大規模言語モデルを利用して文脈を反映した単語間の連関確率を計算し、利用者が与えたプロンプト文に対応した回答を生成している。(本稿末の参考図表3参照)
文脈を反映した連関確率の数値などを含む言語モデルの形成に際しては、様々な先行著作物(public domainの著作物やオープン利用が可能なネット上の各種データなど)を「学習データ」(training data)として利用するとともに、生成したテキストの適切性に対する評価をフィードバックする「教師あり学習」(Supervised Learning)などの機械学習によりテキスト生成の精度が高められている。
図1. テキスト生成AIの技術的構造
ハルシネーションの技術的原因の一つには、「回答文章のランダムな確率的生成」を返すような製品設計になっていることがある。与えられたプロンプト文に対して、言語モデルに基づき多種多様な回答が確率的に可能であるが、現行の生成AIのデフォルト設計では、「連関確率の高い確からしい」回答だけでなく、「連関確率が低いありそうもない」回答をも返すような製品設計になっているのである。[1]
そのような製品設計になっているのは、現行のテキスト生成AI製品は「汎用AI」(Artificial general intelligence, AGI)を意図したものだからである。現行生成AI製品は、真理探究を目的とする学術研究作業に役立つ特殊目的のAIではなく、娯楽を目的とする映画脚本・テレビドラマ脚本やSFなどのフィクション創造作業などにも役立つ汎用的目的の製品だからである。
その結果としてChatGPTは、Weise(2023)がマイクロソフトの内部文章において“built to be persuasive, not truthful”と記されていると指摘しているように、そのままの単純な利用では「真実を提供する」(truthful)ものではなく、「説得力を持つ、もっともらしい」(persuasive)ものをデフォルトで与えるようになっている。そのため学術研究などの特殊目的に用いるためには、後述するようなファインチューニングなどのカスタマイゼーションが必要である。
またChatGPT3.5などでは、「確率的に生成した回答文に対して、適切な参照データで事後的にチェックしてから返すような設計になってはいない」ことも技術的原因の一つである。単純な事実言明の場合には、信頼できる適切なデータベースや資料を参照することで、生成された回答の適切性をチェックできる。しかしながらChatGPT3.5などでは、インターネット上でオープン利用が可能な適切なデータベースや資料を参照できない仕様になっているだけでなく、内部的に持つ適切なデータベースや資料の参照もしないようになっている。
テキスト生成AIの基本的な技術的構造が図1のようなものであることから、生成データの信頼度・妥当性を左右している基本的要因としては、こうした「回答文章のランダムな確率的生成」や「事後的チェックの不在」という製品設計の他に下記の4つがある、と考えられる。
2)事前学習、および、事後学習・ファインチューニングにおけるTraining方法の質と量
3)回答生成における参照データの質と量
4)プロンプト文の優劣
現行の生成AIのTrainingデータや参照データには、著作権問題もあり、著作権保護期間が切れていない単行本や論文などの良質なデータがTrainingデータとしても参照データとしてもほとんど利用されていない。
さらにまた、現行の生成AIのTrainingデータや参照データの多くは英語テキストであり、日本語テキストの割合はかなり少ない。
こうしたことから考えると、生成AIの生成データをさらに質的に向上し適切な社会的利用を推進するためには、差し当たり次の二つの施策が重要である。
すなわち、人間の文章作成作業とは異なり、「内容的理解(意味了解)」や「理論的理解(概念的理解)」抜きに、「単語」を言語モデルに基づき単に「機械」的につなぎ合わせているだけである。
とはいえ、一昔前の自然言語処理マシンとは異なり、現在の生成AIは、あたかも人間が作成したかのような極めて「自然」な文章を生成する。
こうしたことが可能となっているのは、前述したように、大量のテキストデータを用いて「文章全体の結びつき」(文脈)を処理対象としたディープラーニングなどの学習をさせているからである。
これによりテキスト生成AIは、WEB検索エンジン・プログラムを超えたものとなっている。WEB検索エンジンも、検索キーワードの意味を、同義語・類義語・略語に関する辞書データベースを用いて、異なる文章表現間の同一性・関連性・差異性の度合いに関する「判断」処理作業をおこなっている。すなわち、異なる文章表現間の同一性・関連性・差異性を、literalなレベルで「判断」している。例えばGoogle検索において、同義語や類義語に関する辞書データベースを利用していることはGoogle(1989)やGoogle(2013)などの特許情報に示されている。
テキスト生成AIシステムは、大量のテキストデータの学習により「大規模言語モデル」(Large Language Models、LLM)を利用することで、WEB検索エンジンにおける同義語や類義語といったliteralなレベルを超え、contextualなレベルで様々な「判断」処理をおこなうものとなっている。すなわち、異なる文章表現間の同一性・関連性・差異性を、単語レベルだけでなく、「文章全体の結びつき」(文脈)のレベルにおいて「判断」している。
また実際の生成AIシステムにおいてどこまで実装されているのかは明確ではないが、文章のパターンやコンテクストを対象として、直喩(simile)、隠喩(暗喩, metaphor)、換喩(metonymy)、提喩(synecdoche)、諷喩(allegory)などの「比喩」表現構造という視点から文章全体の同一性・関連性・差異性の「判断」処理をおこなうことも研究されている。生成AIは、単語の登場順序における連接という現象的連関構造以外に、単語の意味内容に関する連接という「比喩」表現構造(単語間の比喩的連接というメタ構造)をも理論的には捉えることができる。
ディープラーニングなどにより、テキスト、画像、音声などの大量データの中から、特定のルールやパターンに沿ったデータ構造を認識し、特徴抽出を行うことができる(久保陽太郎,2013)。すなわち、AIはパターン認識ができる。
そしてなおかつ、認識されたパターン(多様な現象の中に潜む共通構造)に基づいて、新たなテキスト、画像、音声などを生成している。
すなわち、現行のテキスト生成AIは、有意味であるかどうかは別として論理的に可能な単語の結合を遂行するのではなく、大量のテキストデータの中に潜む各種のパターン的構造に基づいて単語の結合をおこなっている。
というのも、日常の挨拶や各種の定型文章だけでなく、非定型的で創造的な学術的文章や文学的文章の中にも一定の定型性は存在するからである。学術研究における学風や学派の存在、文学における文体の存在といった事柄は暗にそうしたことを示している。
現行の生成AIは、文章パターンを認識できるため、ある特定の研究者や作家が作成した文章を大量に与えることにより、その研究者や作家の文章パターンを認識し、当人があたかも書いたような文章を新たに生成することが可能である。
また現行の生成AIは、ある特定の人物の音声データを学習させることにより音声パターンを抽出し、当人の声と思われる音声データを新たに生成することができる。
というのも著作権保護の対象となるのは、現行では自然人による創作物だけだからである。例えば日本の著作権法では「思想または感情を創作的に表現したものであって、文芸、学術、美術または音楽の範囲に属するもの」を著作物と規定し、著作者の「思想や感情の創作的表現」を法的保護対象としている。
また特許権保護の対象となるのは、「自然法則を利用した技術的思想の創作のうち高度のもの」とされている。
現在のような生成AIの登場以前には、思想や感情を創作的に表現できるのは人間だけであるとすることにそれほど大きな違和感は社会的にはなかった。
しかしながら現行の生成AIは、人間が作成したのと識別ができないような文章やイラスト・絵画・写真・動画を生成することができる。[2]
またパターン認識を利用して、新薬や新材料の開発のための分子設計においても生成AIが利用されている。ただし新規有用物の発明に生成AIが大きな寄与をした場合でも、現行では生成AIはコンピュータシステムの一種として、その利用者に特許権が帰属されることになろう。
とはいえ生成プロセスを取り上げず、その生成結果だけを見た場合には、人間の「思想または感情を創作的に表現したもの」であるかどうかの判別が外見的には困難である。
さらにまた生成AIにも一定の「個性」が存在することにも留意する必要がある。[3]
こうしたことは、下記に挙げたoriginality、creativity、innovativityという概念に関する理論的再検討の必要性を示すものである。
生成AIの生成物のcreativity、innovativityの問題は、シュンペーターの「新結合」としてのイノベーション概念との関連で捉えなおすと興味深い。
シュンペーターの「新結合」論的イノベーション概念把握によれば、新発明がなくても既存要素に関するこれまでにない新たな結合によってイノベーションが生じる。
生成AIは、これまで紹介してきたように対象の中に潜むパターン(構造的連関)をディープラーニングなどによって捉え、そのパターンに基づいて既存要素を組み合わせることによって新たな生成物を生成するものである。すなわち、既存要素の「新結合」によって新たな生成物を生み出すのである。
シュンペーターが示唆するように、既存要素の新結合によってイノベーションが生起するのであれば、生成AIによる既存要素の新結合によってイノベーションが生じても不思議ではない。
ChatGPTに対する回答指示の中で「temperature=0.4での文章の生成をお願いします。」、「temperature=4での文章の生成をお願いします。」といったようなカスタム指示を与えることで、回答の「精度」や「バラツキ」を変動させることができる。
インターテックリサーチ(2023)によると、Microsoft Bing AIの「より厳密に」、「よりバランスよく」、「より創造的に」という3つのモードは、それぞれ「temperature = 0.0~0.3」、「temperature = 0.4~1.3」、「temperature = 1.4~2.0」に対応するとのことである。
[2] 現行の生成AIによる生成物のほとんどはcreativity(創造性)やinnovativity(革新性)にまだ多くの問題がある。しかしながら特許権と異なり、著作権においては著作物のcreativityやinnovativityの有無はビジネス的には問題となるが、法的には問題とならない。
[3] 生成AIもその製品設計の違いによる「個性」がある。OpenAIのChatGPT3.5は、persuasiveであることを重視した「アラレちゃん」型AIであるのに対して、Perplexity AIはtruthfulであることを重視した「鉄腕アトム」型AIである。
[4] 筆者作成の下記Webページにおいて、本稿に関連するより詳しい議論を紹介しているので参照されたい。
上記サイトの中で、本稿との関係では特に下記を参照されたい。
- 佐野正博(2024)「経営技術論的視点から見たChatGPTの回答の「信頼性」問題-なぜChatGPT3.5は、すぐにわかるような「明らかに間違った情報」を回答することがあるのか?」
https://ai.sanosemi.com/archives/260 - 佐野正博(2024)「生成AIのProduct designに関わる相反的技術選択 — 生成「精度」重視 vs 生成「速度」重視、「面白さ」(創造性)重視 vs 「信頼度」(信頼性)重視」
https://ai.sanosemi.com/archives/313 - 佐野正博(2024)「Soeity5.0をMissionとする科学技術・イノベーション基本計画の下のAI戦略」
https://ai.sanosemi.com/archives/20
- インターテックリサーチ(2023)「ChatGPTのカスタム指示(Temperature)」インターテックリサーチブログ、2023年11月3日
- 久保陽太郎(2013)「ディープラーニングによるパターン認識」『情報処理』14(5), pp.500-508
Google(1989)出願特許「類似文書検索装置」 JP2742115B2
https://patents.google.com/patent/JP2742115B2/ - Google(2013)出願特許「同義語抽出システム、方法および記録媒体」WO2014002775A1
https://patents.google.com/patent/WO2014002775A1/ - rorosuke(2023)「ChatGPT APIノーコーディング2:ChatGPTでtemperatureを0にしたら、精度が最大になり、ブレのない答えが得られた件」2023年5月21日
https://note.com/rorosuke/n/n13211109b65c - Vaswani, A. et al. (2017) “Attention Is All You Need” NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems, December 2017, pp.6000-6010
https://dl.acm.org/doi/10.5555/3295222.3295349 - Uszkoreit, Jakob (2017) “Transformer: A Novel Neural Network Architecture for Language Understanding” Google Blog, 2017/8/31
https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html - Weise,K., Metz, C.(2023) “When A.I. Chatbots Hallucinate,” New York Times, 2023/5/1
[出典] 松尾豊(2023)「生成AI時代の人材育成」経済産業省デジタル時代の人材政策に関する検討会 第8回(2023/6/13) 資料5
https://www.meti.go.jp/shingikai/mono_info_service/digital_jinzai/pdf/008_05_00.pdf
https://www.meti.go.jp/shingikai/mono_info_service/digital_jinzai/008.html
[関連文献]Narayanan, D. et al.(2021) “Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM ”
https://arxiv.org/pdf/2104.04473.pdf
[出典]梅田弘之(2023)「GPTで始まる大規模言語モデル時代」2023/6/1
https://thinkit.co.jp/article/22084
[関連文献]SB Technology(2024)「大規模言語モデル(LLM)の一覧を紹介」2024/2/7
https://www.softbanktech.co.jp/corp/hr/recruit/articles/106/
「吾輩は猫である」という文章の方が、「吾輩が猫である」という文章よりも、「確率が高い」ことは下記のように計算される。
「吾輩は猫である」という文章の確率は、左のような単語間の連関確率により、0.4X0.5 X0.5 X0.6 X0.6=0.072となる。
これに対して、「吾輩が猫である」という文章の確率は、左のような単語間の連関確率により、0.3X0.5 X0.5 X0.6 X0.6=0.054となる。
[図の出典]
櫻井章雄(2022)「世界で開発が進む大規模言語モデルとは(後編)~日本語に特化した汎用的な大規模言語モデルの紹介~」2022/07/28
https://www.intellilink.co.jp/column/ai/2022/072800.aspx