個人的にとても気になる論文のアブストがあった。
当然の疑問として、LLMの中で目立つ日本関連の語彙はいったいどこから立ち現れたのか、という問いが生まれる。
なぜLLMは日本文化びいきなのだろうか?
つまり、日本文化コーパスがなぜ「エキゾチックなモノ」のサンプルとして、言語空間でやけに目立っているのだろうか?
仮説A: 日本文化輸出とベクトル空間における独立性
- 供給的な側面: 日本はその経済規模に対して、小説・映画・漫画・ゲーム・スポーツなどの娯楽文化に登場する日本語独自の概念を輸出しており、その数が他国と比べて有意に多いことがLLMの学習に影響を及ぼしているのではないか
- 表言論的な側面: ここでいう「概念の数が多い」とは、ファインチューニングを経ても生き残るほどにベクトル(というか埋め込み)空間において独立性を保っており、その分布が明確であると言い換えできるのではないか。
注目すべきは、教師ありファインチューニングデータの多くが「役に立つ回答=情報量が多くて豊かな回答」を優先してエンコーディングしているという点にある気がする。
仮説B: なぜ仮説Aのような状況が起きているのか
「より助けになって情報に富み、文化的に豊かである」ような回答であると判断するその主体について、その源流を考えたい。
- それは、プロセスがオートメーションされる前の学習初期における出力の正誤判定(優劣の判定)を大量の人間のアルバイトが行うケースに着目すべきではないか
- 「馴染みがないが知っている、親しみがないが理解できる」ことが「より良い回答」に選ばれやすかったのではないだろうか。要は、回答が familiar でありかつ distinctive である必要があった。
- 例えば、日本の歌舞伎や能については、アノテーション会社の従業員やアルバイトが知っていたはずだ。そして、中国の京劇や川劇(四川の変面劇)については知らないので「良い回答である」と評価しようが無かったのではないか。
LLM学習にとっては Wikipedia での記述量や被参照数が決定的になりそうだ。
しかし、初期学習の評価者である英語話者にとって、 kabuki や karate や ninja といった概念がポップカルチャーへ埋め込まれていたことが、ファクターとして大きく寄与したのではないだろうか。
仮説C: なぜ仮説Bのような状況が2020年代までに起きたのか
これって、およそ19世紀半ばから約100年間に渡って、当時の日本政府がジャポニズムを輸出してきたからではないか。
- 例えば、ペリー来航以降の日本の自己プロデュース戦略として、例えば1867年パリ万博、1873年ウィーン万博、1893年シカゴ万博での日本館展示を通じて、「日本は異質だが理解可能な、洗練された高文化を持つ国」というブランドを国家戦略として打ち出していた
- ジャポニスムは偶然の流行ではなく、明治政府の輸出促進政策の副産物なのではないか。(ちなみに同時期、中国の清朝は同様のソフトパワーを持ってはいなかったと考えられる)
ちなみに、明治政府は日本文化について徹底的に介入していた。
例として、廃仏毀釈運動で仏教文化資本を破壊したり、神道を国家神道として再編成したり。あるいは、能を「武士の伝統芸能」として保護したり、歌舞伎を「町人文化」として地位を引き上げたりなど。
あとは、浮世絵を「輸出向け美術品」として再価値化したりなんかもしていた。
要は、国家による文化資本のキュレーションを徹底的にやっていた。
(翻って現代の「COOL JAPAN」路線はお世辞にも成功してるとは言えないが……)
それと、GHQ の戦後処理も穏当ではなかったか。
例えば天皇制を維持し、神道を国家から分離しつつも禁止しなかった。歌舞伎の一部演目(仇討ちとか、封建制を賛意するもの)を一時禁止したものの、伝統芸能全般は保護していた。一方で、財閥解体、農地改革、教育改革、戦犯裁判については徹底的に執り行われた。
こうして、政治・経済構造は大改造しつつ、文化的アイデンティティは温存されてきていたと言える。
※ 天皇制を維持したほうが統治コストが低いという統治上の合理性に基づいた結果である、という側面も多分に強かったかもしれない
仮説D: なぜ仮説Cのような日本文化保存が起きたか:
これについてはGHQの戦略として、冷戦時代にソ連など共産圏に対する砦として日本文化を機能させたかったからではないだろうか。
そういえば勝利した帝国ってやつは基本的に、被支配地域の文化を吸収・統合する傾向がある。
例として:
- ローマは征服したギリシャ文化を採用した
- モンゴルは中国文化を吸収した
- 英国は植民地のあらゆる文化資源を博物館的に統合した(現代でも尾を引いてかなり批判を浴びているが)
転換した別の仮説E: もしかして、LLMの日本文化びいきって今後もずっと続くのでは?
- 経験的に、LLMの出力結果を学習したLLMは性能が劣化すると言われている
- 今後ネット空間上に増えていく文章はますますLLMが出力したものになる。そのため、今後はWebで文章をスクレイピングするにしても、それが人間的かどうかを厳しくフィルタしないと性能向上が見込めない
- つまり、2020代以前に出現した文というものの貴重性やリファレンス対照としての相対的価値があがるにつれて、ますます言語空間における日本文化のプレゼンスがLLMにとって固定化されていくのではないか
※ 一応もう一つの可能性として、LLMの進化についてLLM自体が言語時代の流動性を高く評価したり、数学的な抽象概念をより高頻度で使うことで経済効率が高まり、結果として人間による文の価値が低減する逆の世界のパターンも一応ありえる。
※ 実際には完全な凍結ではなく、遅延、あるいは粘性の強化といった表現に留まることになりそうだ
雑な結論: 日本ってラッキーだったよね
これらの仮説がすべて妥当だとすれば、明治政府のキュレーションが150年後のデジタル空間でのプレゼンスを決定づけているということになる。
文化資本は複利で効いてくるとはよく言われることだが、こんな風にLLMの語彙空間にも影響を及ぼすとはその効果たるや凄まじいなというところである。
一方で、これらの動きは全部、なんというか「偶然が積み重なってそうなってる感」も多分にある。
円の実力がこんなに下がりまくってる世の中で、たくさんの漫画、ゲーム、アニメに囲まれててほぼ無料で触れられる私達って、実はものすごく幸運なのではないか。
特に19世紀から日本文化を輸出をした薩摩藩だったり、あるいはそれを指揮した岩倉具視には頭があがりませんな。
……そしてもちろん、現代で活躍するクリエイター達や現場で泥臭く作業している方々にも改めて深い感謝をしなければなりますまい。
かつての、そして今日の職人達が浮世絵やアニメに込めた執念が、時空を超えてLLMの重みを変化させているのだから。