テキスト生成AIに関する技術論的考察(2024/11/23版)

内容構成
 
1.はじめに
 ChatGPTなど最近の生成AI技術の歴史的発展は、IoT論で構想されているようなリアルな諸事物のネットワーク・システムと生成AIの「結合」により、生成AIが「作業」要素機構や「制御」要素機構の中心的要素となり、社会や生産のあり方を将来的に大きく変える可能性が高い。
 ここではChatGPTなどのテキスト生成AI技術に焦点を当て、技術論的視点からの構造分析に基づき、その可能性と問題点について考察をおこなう。
 
2.テキスト生成AIの技術的構造
 テキスト生成AIの飛躍的性能向上をもたらしてコア技術は、Transformer言語モデルである。(Vaswani 207; Uszkoreit 2017)
言語モデル(Language Model)とは、「文章や単語のパターンを学習し、自然な文章を生成したり、入力されたテキストに対して意味のある応答を返したりする人工知能の仕組み」のことである。
 Transformer以前の言語モデルでは、「単語同士の結びつき」(単語同士の照応関係)を基本的対象としていた。
 これに対してTransformer言語モデルでは、単語データに対して「文全体における単語の位置情報」を付与し、「入力文章内の照応関係(類似度や重要度)」や「異なる文章同士の照応関係(類似度や重要度)」などを計算することで、文脈把握の追究がなされている。
 「ある特定のコンテクストにおいて、ある特定の単語の次に、どのような単語がどの程度の出現確率で登場するのか?」という単語出現確率に関するデータベース構築により「文章全体の結びつき」(文脈)をAIの処理対象とすることが可能となり、人間が書いたような自然なテキスト文を生成ができるようになった。
言語モデルに関する基本的性能指標の一つが、言語モデルの容量や複雑さを示すパラメーター数である。パラメーター数は、2018年以後、1年間に約10倍という飛躍的な増大を遂げている(本レジュメ末の参考図表1および2参照)。OpenAIのGPT-4言語モデルのパラメーター数は推定で5,000億~1兆と言われており、その構築に巨額な費用が投じられている。
 生成AIは、そうした大規模言語モデルを利用して文脈を反映した単語間の連関確率を計算し、利用者が与えたプロンプト文に対応した回答を生成している。(本稿末の参考図表3参照)
 文脈を反映した連関確率の数値などを含む言語モデルの形成に際しては、様々な先行著作物(public domainの著作物やオープン利用が可能なネット上の各種データなど)を「学習データ」(training data)として利用するとともに、生成したテキストの適切性に対する評価をフィードバックする「教師あり学習」(Supervised Learning)などの機械学習によりテキスト生成の精度が高められている。

図1. テキスト生成AIの技術的構造


注) 筆者作成

 
3.生成データの質に関わる基本的規定要因
 現行の生成AIが「存在しない情報や事実を生成する」というハルシネーション(幻覚、hallucination)を引き起こすことはよく知られている。
 ハルシネーションの技術的原因の一つには、「回答文章のランダムな確率的生成」を返すような製品設計になっていることがある。与えられたプロンプト文に対して、言語モデルに基づき多種多様な回答が確率的に可能であるが、現行の生成AIのデフォルト設計では、「連関確率の高い確からしい」回答だけでなく、「連関確率が低いありそうもない」回答をも返すような製品設計になっているのである。[1]
 そのような製品設計になっているのは、現行のテキスト生成AI製品は「汎用AI」(Artificial general intelligence, AGI)を意図したものだからである。現行生成AI製品は、真理探究を目的とする学術研究作業に役立つ特殊目的のAIではなく、娯楽を目的とする映画脚本・テレビドラマ脚本やSFなどのフィクション創造作業などにも役立つ汎用的目的の製品だからである。
 その結果としてChatGPTは、Weise(2023)がマイクロソフトの内部文章において“built to be persuasive, not truthful”と記されていると指摘しているように、そのままの単純な利用では「真実を提供する」(truthful)ものではなく、「説得力を持つ、もっともらしい」(persuasive)ものをデフォルトで与えるようになっている。そのため学術研究などの特殊目的に用いるためには、後述するようなファインチューニングなどのカスタマイゼーションが必要である。
 またChatGPT3.5などでは、「確率的に生成した回答文に対して、適切な参照データで事後的にチェックしてから返すような設計になってはいない」ことも技術的原因の一つである。単純な事実言明の場合には、信頼できる適切なデータベースや資料を参照することで、生成された回答の適切性をチェックできる。しかしながらChatGPT3.5などでは、インターネット上でオープン利用が可能な適切なデータベースや資料を参照できない仕様になっているだけでなく、内部的に持つ適切なデータベースや資料の参照もしないようになっている。
 テキスト生成AIの基本的な技術的構造が図1のようなものであることから、生成データの信頼度・妥当性を左右している基本的要因としては、こうした「回答文章のランダムな確率的生成」や「事後的チェックの不在」という製品設計の他に下記の4つがある、と考えられる。

1)事前学習、および、事後学習・ファインチューニングにおけるTrainingデータの質と量
2)事前学習、および、事後学習・ファインチューニングにおけるTraining方法の質と量
3)回答生成における参照データの質と量
4)プロンプト文の優劣
 

 現行の生成AIのTrainingデータや参照データには、著作権問題もあり、著作権保護期間が切れていない単行本や論文などの良質なデータがTrainingデータとしても参照データとしてもほとんど利用されていない。
 さらにまた、現行の生成AIのTrainingデータや参照データの多くは英語テキストであり、日本語テキストの割合はかなり少ない。
 こうしたことから考えると、生成AIの生成データをさらに質的に向上し適切な社会的利用を推進するためには、差し当たり次の二つの施策が重要である。

 
2) 生成AIのデータ生成に際して利用した資料やデータすべてを簡単に参照できるような仕組みを実装させること、すなわち、回答の妥当性チェックを目的として生成AIの回答の依拠データに関するtraceability確保の仕組みを組み込ませること
 
4.パターン認識に基づき「新結合」を実行するマシンとしての生成AI
 先に論じたように、生成AIは、「入力文章内の照応関係」や「異なる文章同士の照応関係」などに関する連関確率に基づき、テキストを「機械」的に自動生成するものである。
すなわち、人間の文章作成作業とは異なり、「内容的理解(意味了解)」や「理論的理解(概念的理解)」抜きに、「単語」を言語モデルに基づき単に「機械」的につなぎ合わせているだけである。
 とはいえ、一昔前の自然言語処理マシンとは異なり、現在の生成AIは、あたかも人間が作成したかのような極めて「自然」な文章を生成する。
こうしたことが可能となっているのは、前述したように、大量のテキストデータを用いて「文章全体の結びつき」(文脈)を処理対象としたディープラーニングなどの学習をさせているからである。
 これによりテキスト生成AIは、WEB検索エンジン・プログラムを超えたものとなっている。WEB検索エンジンも、検索キーワードの意味を、同義語・類義語・略語に関する辞書データベースを用いて、異なる文章表現間の同一性・関連性・差異性の度合いに関する「判断」処理作業をおこなっている。すなわち、異なる文章表現間の同一性・関連性・差異性を、literalなレベルで「判断」している。例えばGoogle検索において、同義語や類義語に関する辞書データベースを利用していることはGoogle(1989)やGoogle(2013)などの特許情報に示されている。
 テキスト生成AIシステムは、大量のテキストデータの学習により「大規模言語モデル」(Large Language Models、LLM)を利用することで、WEB検索エンジンにおける同義語や類義語といったliteralなレベルを超え、contextualなレベルで様々な「判断」処理をおこなうものとなっている。すなわち、異なる文章表現間の同一性・関連性・差異性を、単語レベルだけでなく、「文章全体の結びつき」(文脈)のレベルにおいて「判断」している。
 また実際の生成AIシステムにおいてどこまで実装されているのかは明確ではないが、文章のパターンやコンテクストを対象として、直喩(simile)、隠喩(暗喩, metaphor)、換喩(metonymy)、提喩(synecdoche)、諷喩(allegory)などの「比喩」表現構造という視点から文章全体の同一性・関連性・差異性の「判断」処理をおこなうことも研究されている。生成AIは、単語の登場順序における連接という現象的連関構造以外に、単語の意味内容に関する連接という「比喩」表現構造(単語間の比喩的連接というメタ構造)をも理論的には捉えることができる。
 ディープラーニングなどにより、テキスト、画像、音声などの大量データの中から、特定のルールやパターンに沿ったデータ構造を認識し、特徴抽出を行うことができる(久保陽太郎,2013)。すなわち、AIはパターン認識ができる。
そしてなおかつ、認識されたパターン(多様な現象の中に潜む共通構造)に基づいて、新たなテキスト、画像、音声などを生成している。
 すなわち、現行のテキスト生成AIは、有意味であるかどうかは別として論理的に可能な単語の結合を遂行するのではなく、大量のテキストデータの中に潜む各種のパターン的構造に基づいて単語の結合をおこなっている。
 というのも、日常の挨拶や各種の定型文章だけでなく、非定型的で創造的な学術的文章や文学的文章の中にも一定の定型性は存在するからである。学術研究における学風や学派の存在、文学における文体の存在といった事柄は暗にそうしたことを示している。
現行の生成AIは、文章パターンを認識できるため、ある特定の研究者や作家が作成した文章を大量に与えることにより、その研究者や作家の文章パターンを認識し、当人があたかも書いたような文章を新たに生成することが可能である。
 また現行の生成AIは、ある特定の人物の音声データを学習させることにより音声パターンを抽出し、当人の声と思われる音声データを新たに生成することができる。
 
5.生成AIの「生成物」のOriginality、Creativity、Innovativity問題
 生成AIが文章パターン、音声パターン、画像パターンを認識するだけでなく、認識されたパターンに基づいて新たな文章、新たな音声、新たなイラスト・絵画・写真・動画を作成できるということは、フェイクニュース、フェイク動画といった社会問題を発生させるとともに、著作権や特許権などの知的財産権との関連で理論的問題を提起するものである。
 というのも著作権保護の対象となるのは、現行では自然人による創作物だけだからである。例えば日本の著作権法では「思想または感情を創作的に表現したものであって、文芸、学術、美術または音楽の範囲に属するもの」を著作物と規定し、著作者の「思想や感情の創作的表現」を法的保護対象としている。
また特許権保護の対象となるのは、「自然法則を利用した技術的思想の創作のうち高度のもの」とされている。
 現在のような生成AIの登場以前には、思想や感情を創作的に表現できるのは人間だけであるとすることにそれほど大きな違和感は社会的にはなかった。
 しかしながら現行の生成AIは、人間が作成したのと識別ができないような文章やイラスト・絵画・写真・動画を生成することができる。[2]
 またパターン認識を利用して、新薬や新材料の開発のための分子設計においても生成AIが利用されている。ただし新規有用物の発明に生成AIが大きな寄与をした場合でも、現行では生成AIはコンピュータシステムの一種として、その利用者に特許権が帰属されることになろう。
 とはいえ生成プロセスを取り上げず、その生成結果だけを見た場合には、人間の「思想または感情を創作的に表現したもの」であるかどうかの判別が外見的には困難である。
さらにまた生成AIにも一定の「個性」が存在することにも留意する必要がある。[3]
 こうしたことは、下記に挙げたoriginality、creativity、innovativityという概念に関する理論的再検討の必要性を示すものである。

1) 自動生成物におけるideaのOriginality問題
要素ideaが同一であっても、複数ideaの組み合わせに関して新規性(novelty)が存在する場合もある。複数ideaの組み合わせに関するidea、すなわち、ideaに関するideaというメタ・レベルでのideaに関する新規性noveltyが存在する場合もある。
 
2) 自動生成物におけるexpressionのOriginality問題
要素ideaあるいは複数ideaの組み合わせに関するidea(ideaのidea)が同一でも、異なるexpressionは生成可能。しかしそこに創作性という意味でのOriginalityはない。創作の主体は人間に限定される。
 
3) 自動生成物のCreativity/Innovativity問題
Originalityがなくても、CreativityやInnovativityを持ちうる。Schumpeterが「新結合によるinnovation」という考え方で提起した重要ポイントの一つがこのことである。
 

 生成AIの生成物のcreativity、innovativityの問題は、シュンペーターの「新結合」としてのイノベーション概念との関連で捉えなおすと興味深い。
 シュンペーターの「新結合」論的イノベーション概念把握によれば、新発明がなくても既存要素に関するこれまでにない新たな結合によってイノベーションが生じる。
生成AIは、これまで紹介してきたように対象の中に潜むパターン(構造的連関)をディープラーニングなどによって捉え、そのパターンに基づいて既存要素を組み合わせることによって新たな生成物を生成するものである。すなわち、既存要素の「新結合」によって新たな生成物を生み出すのである。
 シュンペーターが示唆するように、既存要素の新結合によってイノベーションが生起するのであれば、生成AIによる既存要素の新結合によってイノベーションが生じても不思議ではない。

 
注記
[1] 同一プロンプト文に対して生成AIは、デフォルトでは様々な回答を与えるような製品設計になっている。ChatGPTの場合には、API利用で設定可能なtemperatureというパラメーターの数値を変更することで、回答の「精度」をコントロールできるようになっている。temperatureの値を0とした場合に「精度」が最大となり、同一プロンプト文に対して毎回ほぼ同一の回答となる。
  ChatGPTに対する回答指示の中で「temperature=0.4での文章の生成をお願いします。」、「temperature=4での文章の生成をお願いします。」といったようなカスタム指示を与えることで、回答の「精度」や「バラツキ」を変動させることができる。
  インターテックリサーチ(2023)によると、Microsoft Bing AIの「より厳密に」、「よりバランスよく」、「より創造的に」という3つのモードは、それぞれ「temperature = 0.0~0.3」、「temperature = 0.4~1.3」、「temperature = 1.4~2.0」に対応するとのことである。
[2] 現行の生成AIによる生成物のほとんどはcreativity(創造性)やinnovativity(革新性)にまだ多くの問題がある。しかしながら特許権と異なり、著作権においては著作物のcreativityやinnovativityの有無はビジネス的には問題となるが、法的には問題とならない。
[3] 生成AIもその製品設計の違いによる「個性」がある。OpenAIのChatGPT3.5は、persuasiveであることを重視した「アラレちゃん」型AIであるのに対して、Perplexity AIはtruthfulであることを重視した「鉄腕アトム」型AIである。
[4] 筆者作成の下記Webページにおいて、本稿に関連するより詳しい議論を紹介しているので参照されたい。

 

上記サイトの中で、本稿との関係では特に下記を参照されたい。

 
参考文献
  1. インターテックリサーチ(2023)「ChatGPTのカスタム指示(Temperature)」インターテックリサーチブログ、2023年11月3日

    ChatGPTのカスタム指示(Temperature)

  2. 久保陽太郎(2013)「ディープラーニングによるパターン認識」『情報処理』14(5), pp.500-508
    Google(1989)出願特許「類似文書検索装置」 JP2742115B2
    https://patents.google.com/patent/JP2742115B2/

  3. Google(2013)出願特許「同義語抽出システム、方法および記録媒体」WO2014002775A1
    https://patents.google.com/patent/WO2014002775A1/

  4. rorosuke(2023)「ChatGPT APIノーコーディング2:ChatGPTでtemperatureを0にしたら、精度が最大になり、ブレのない答えが得られた件」2023年5月21日
    https://note.com/rorosuke/n/n13211109b65c

  5. Vaswani, A. et al. (2017) “Attention Is All You Need” NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems, December 2017, pp.6000-6010
    https://dl.acm.org/doi/10.5555/3295222.3295349

  6. Uszkoreit, Jakob (2017) “Transformer: A Novel Neural Network Architecture for Language Understanding” Google Blog, 2017/8/31
    https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

  7. Weise,K., Metz, C.(2023) “When A.I. Chatbots Hallucinate,” New York Times, 2023/5/1
 
参考図表1 言語モデルのパラメーター数の歴史的推移

[出典] 松尾豊(2023)「生成AI時代の人材育成」経済産業省デジタル時代の人材政策に関する検討会 第8回(2023/6/13) 資料5
https://www.meti.go.jp/shingikai/mono_info_service/digital_jinzai/pdf/008_05_00.pdf
https://www.meti.go.jp/shingikai/mono_info_service/digital_jinzai/008.html
[関連文献]Narayanan, D. et al.(2021) “Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM ”
https://arxiv.org/pdf/2104.04473.pdf
 
参考図表2 各種大規模言語モデルの開発元、リリース日およびパラメーター数
(GPT-3.5/4のパラメータ数は推定)
 
言語モデル
リリース日
開発元
最大パラメータ数

GPT-3
2020年6月
OpenAI
1750億

GShard
2020年6月
Google
6000億

Swich Transformer
2021年1月
Google Brain
1.57兆

悟道(WuDao)2.0
2021年6月
北京智源人工知能研究院
1.75兆

HyperCLOVA
2021年11月
LINEとNAVER
390億

Gopher
2022年1月
DeepMind
2800億

日本語GPT
2022年1月
rinna
13億

GPT-3.5
2022年3月
OpenAI
(推定)3550億

PaLM
2022年4月
Google Reserch
5400億

GPT-4
2023年3月
OpenAI
(推定)5000億~1兆

 

[出典]梅田弘之(2023)「GPTで始まる大規模言語モデル時代」2023/6/1
https://thinkit.co.jp/article/22084
[関連文献]SB Technology(2024)「大規模言語モデル(LLM)の一覧を紹介」2024/2/7
https://www.softbanktech.co.jp/corp/hr/recruit/articles/106/

 
参考図表3 連関「確率」に基づく「新結合」的なテキスト生成
-真偽は別として、「もっともらしいテキスト」の作成が可能なテキスト生成法

「吾輩は猫である」という文章の方が、「吾輩が猫である」という文章よりも、「確率が高い」ことは下記のように計算される。
「吾輩は猫である」という文章の確率は、左のような単語間の連関確率により、0.4X0.5 X0.5 X0.6 X0.6=0.072となる。

これに対して、「吾輩が猫である」という文章の確率は、左のような単語間の連関確率により、0.3X0.5 X0.5 X0.6 X0.6=0.054となる。

[図の出典]
櫻井章雄(2022)「世界で開発が進む大規模言語モデルとは(後編)~日本語に特化した汎用的な大規模言語モデルの紹介~」2022/07/28
https://www.intellilink.co.jp/column/ai/2022/072800.aspx

 
カテゴリー: AIに関する技術論的考察 パーマリンク