モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Musicを例に~2. 自己紹介
太田 博三(usagisan2020)
2008 年上智大学大学院 地球環境学研究科後期博士課程単位修得修了.
インターネットの会社勤務を経て,サントリーコンシェルジュサービス
(株)にて,データマーケティング業務に従事
『Julia データサイエンス(2017 年翻訳)』などがある.
最近では,汎用人工知能に興味があります。
→特集号記事 人工知能学会誌 Vol.39 No.2 (2024年3月号) 「解釈可能性を
高めて信頼し得るエージェントを実現するための脳型認知モデル」
https://amzn.asia/d/9clIfMC がある.
5. 2. Multimodal AI とは?
・2つ以上の異なるモダリティ(データの種類)から情報を収
集し,それらを統合して処理するAIシステムのこと.
→OpenAIのChatGPTやGeminiなどほとんど
・3つ以上の異なるモダリティ(データの種類)を扱うのを
Any-to-Anyという.
→本発表ではこちらをMultimodal AI とする.AnyGPT
※モダリティとは,テキスト,音声,画像,動画,センサ情報
などを指す.
9. 4. (実装に向けた実験)モーダル変換後の一貫性(Gemini)
Prompt:
Can you show me rock music?
Prompt:
Can you create an image similar to
music above?
Prompt:
Can you create an image?
Prompt:
Can you show me music
based on the picture
above?
皮の服とレ
コード盤か
らRock
Classic
Rock
Hard Rock
Alternative
Rock
10. 4. (実装に向けた実験)モーダル変換後の一貫性
① GeminiでText-to-Image,
② huggingface.co/spacesでImage-to-Music,
③ ②で生成されたプロンプトを用いて、udioでText-
to-Music
④ ②で生成されたMusicと③で生成されたMusicが近
いかを検討
→近いなら一貫性があると言える。
→寄り合わせのAPIで実装できそうだ。
Text-To-Music ≒ Text-to-Image + Image-to-Text
TextのCaptureをしていることには変わりない…
11. 4. (実装に向けた実験)モーダル変換後の一貫性
① GeminiでText-to-Image,
② huggingface.co/spacesでImage-to-Music(MusicGen)
Inspired Musical Prompt:
"A mellow acoustic guitar melody with gentle percussion and soft strings,
evoking a peaceful and contemplative mood, reflecting the tranquility of the
sunset scene"
12. 4. (実装に向けた実験)モーダル変換後の一貫性
③ ②で生成されたプロンプトを用いて、UdioでText-to-Music,
④ ②で生成されたMusicと③で生成されたMusicが近いかを検討
"A mellow acoustic guitar
melody with gentle percussion
and soft strings, evoking a
peaceful and contemplative
mood, reflecting the tranquility
of the sunset scene"
「穏やかなパーカッションと柔ら
かい弦楽器を備えたまろやかなア
コースティックギターのメロディ
ーは、夕日の静けさを反映し、平
和で瞑想的な気分を呼び起こしま
す。」
19. 参考URL一覧
1. AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling https://arxiv.org/html/2402.12226v3
2. AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/
3. 【53種一覧】わからない音楽ジャンル解決!30秒でわかる!【音源あり】 - ギタカメとおんがく
https://www.gitacame.com/entry/music_janru_matome#google_vignette
4. Udio | AI Music Generator – Official Website https://www.udio.com/my-creations
5. Thriller (2003 Edit) – マイケル・ジャクソンの曲 – Apple Music https://music.apple.com/jp/album/thriller-2003-edit/273598907?i=273598917
6. 【完全解説】絵画の種類や技法・画派のジャンルを分類 - ブログ https://www.baku-art.co.jp/businessblog/otaku/20210114115.html
7. Image to Music v2 - a Hugging Face Space by fffiloni https://huggingface.co/spaces/fffiloni/image-to-music-v2
8.マルチモーダル基盤におけるマイナーなモーダル間のについて解釈可能性の検討 https://www.jstage.jst.go.jp/article/jsaisigtwo/2023/SWO-
062/2023_10/_pdf
23. ユーザーの嗜好に見合うプロンプトを生成(マルチモーダル)
Prompt:上記の表に、動画とテキスト生成を加えて完成させてく
ださい
音楽のジャン
ル
関連する画像の
ジャンル
関連する動画
のジャンル
関連するテキス
ト生成
クラシック 古典的な風景画 歴史的ドキュメ
ンタリー
歴史的な物語
や詩
ジャズ アーバン・ストリー
トアート
ジャズクラブの
ライブ演奏
都会の夜の描
写
ロック エネルギッシュな
抽象画
コンサートのラ
イブ映像
反逆的なストー
リーや歌詞
ポップ 明るくカラフルな
ポップアート
ミュージックビ
デオ
ポップカルチャ
ーに関する記
事
ヒップホップ グラフィティアート ストリートダン
スのバトル
ラップバトルの
歌詞
エレクトロニッ
ク
フューチャリスティ
ックなデジタルア
ート
SF映画のトレ
ーラー
テクノロジーに
関するエッセイ
Prompt:今度は、画像のジャンルを起点にして、表を作成してく
ださい
画像のジャンル 関連する音楽
のジャンル
関連する動画
のジャンル
関連するテキス
ト生成
風景画 クラシック or ア
ンビエント
自然ドキュメン
タリー
自然に関する詩
や物語
ストリートアート ヒップホップ or
ジャズ
ストリートカルチ
ャーのドキュメ
ンタリー
都市生活に関
するエッセイ
抽象画 アバンギャルド
or エレクトロニ
ック
アート展示の紹
介
抽象的な概念を
探求する評論
ポップアート ポップ or ダンス ファッションショ
ーのハイライト
ポップカルチャ
ーの分析
グラフィティアー
ト
ヒップホップ or
パンク
アーバンエクス
プロレーション
ストリートアート
の歴史
デジタルアート エレクトロニック
or IDM
テクノロジー関
連のニュース
サイバーパンク
の短編小説
24. ユーザーの嗜好に見合うプロンプトを生成(マルチモーダル)
Prompt:上記の表に、動画とテキスト生成を加えて完
成させてください
音楽のジャン
ル
関連する画像の
ジャンル
関連する動画
のジャンル
関連するテキス
ト生成
クラシック 古典的な風景画 歴史的ドキュメ
ンタリー
歴史的な物語
や詩
ジャズ アーバン・ストリー
トアート
ジャズクラブの
ライブ演奏
都会の夜の描
写
ロック エネルギッシュな
抽象画
コンサートのラ
イブ映像
反逆的なストー
リーや歌詞
ポップ 明るくカラフルな
ポップアート
ミュージックビ
デオ
ポップカルチャ
ーに関する記
事
ヒップホップ グラフィティアート ストリートダン
スのバトル
ラップバトルの
歌詞
エレクトロニッ
ク
フューチャリスティ
ックなデジタルア
ート
SF映画のトレ
ーラー
テクノロジーに
関するエッセイ
Prompt:今度は、画像のジャンルを起点にして、表を作
成してください
画像のジャン
ル
関連する音楽
のジャンル
関連する動画
のジャンル
関連するテキ
スト生成
風景画 クラシック or ア
ンビエント
自然ドキュメン
タリー
自然に関する
詩や物語
ストリートアート ヒップホップ or
ジャズ
ストリートカル
チャーのドキュ
メンタリー
都市生活に関
するエッセイ
抽象画 アバンギャルド
or エレクトロニ
ック
アート展示の紹
介
抽象的な概念
を探求する評
論
ポップアート ポップ or ダン
ス
ファッションショ
ーのハイライト
ポップカルチャ
ーの分析
グラフィティア
ート
ヒップホップ or
パンク
アーバンエクス
プロレーション
ストリートアート
の歴史
デジタルアート エレクトロニック
or IDM
テクノロジー関
連のニュース
サイバーパンク
の短編小説
25. オントロジーによる音楽ジャンルと画像ジャンル
大分類(音楽ジ
ャンル)
中分類(関連するジャンル) 小分類 プロンプト
ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画
を制作してください。」
ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ
映像を制作してください。」
ロック テキスト:反逆的なストーリーや
歌詞
反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌
詞を書いてください。」
大分類(音楽ジ
ャンル)
中分類(関連するジャンル) 小分類 プロンプト
抽象画 音楽:アバンギャルド or エレクト
ロニック
音楽転写 「抽象画の創造的なエネルギーを音楽に変換
してください。」
抽象画 動画:アート展示の紹介 展示紹介映像 「抽象画の展示を紹介するアート展示の映像
を制作してください。」
抽象画 テキスト:抽象的な概念を探求す
る評論
抽象概念評論 「抽象画に触発された抽象的な概念やアイデ
アに関する評論を執筆してください。」
26. 参考資料:音楽を起点としたマルチモーダルジャンル
音楽のジャンル 関連する画像のジャンル 関連する動画のジャンル 関連するテキスト生成
クラシック 古典的な風景画 歴史的ドキュメンタリー 歴史的な物語や詩
ジャズ アーバン・ストリートアート ジャズクラブのライブ演奏 都会の夜の描写
ロック エネルギッシュな抽象画 コンサートのライブ映像 反逆的なストーリーや歌
詞
ポップ 明るくカラフルなポップア
ート
ミュージックビデオ ポップカルチャーに関す
る記事
ヒップホップ グラフィティアート ストリートダンスのバトル ラップバトルの歌詞
エレクトロニック フューチャリスティックなデ
ジタルアート
SF映画のトレーラー テクノロジーに関するエ
ッセイ
27. 参考資料: :オントロジーによる音楽ジャンル
大分類(音楽ジャン
ル)
中分類(関連するジャンル) 小分類 プロンプト
クラシック 画像:古典的な風景画 風景描写 「クラシック音楽が奏でる穏やかさを映す風景を描いてください。」
クラシック 動画:歴史的ドキュメンタリー 歴史的場面 「クラシック音楽に合わせた歴史的場面を撮影してください。」
クラシック テキスト:歴史的な物語や詩 物語・詩作成 「クラシック音楽の感性を表す物語や詩を書いてください。」
ジャズ 画像:アーバン・ストリートアート 都市風景 「ジャズのエッセンスを表現するストリートアートを制作してください。」
ジャズ 動画:ジャズクラブのライブ演奏 ライブ演奏 「ジャズの生演奏を捉えたライブシーンを作成してください。」
ジャズ テキスト:都会の夜の描写 都市の夜 「ジャズからインスピレーションを得た都会の夜を記述してください。」
ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画を制作してください。」
ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ映像を制作してください。」
ロック テキスト:反逆的なストーリーや歌
詞
反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌詞を書いてください。」
ポップ 画像:明るくカラフルなポップアー
ト
ポップアート作成 「ポップ音楽の楽しい雰囲気を映し出すポップアートをデザインしてください。」
ポップ 動画:ミュージックビデオ MV企画 「ポップ曲に合わせたミュージックビデオのコンセプトを考えてください。」
ポップ テキスト:ポップカルチャーに関す
る記事
ポップカルチャー分析 「ポップ音楽の影響を受けたポップカルチャーの現象について分析する記事を書いてください。」
29. 参考資料:オントロジーによる画像ジャンル
大分類(音楽ジ
ャンル)
中分類(関連するジャンル) 小分類 プロンプト
クラシック 画像:古典的な風景画 風景描写 「クラシック音楽が奏でる穏やかさを映す風景を描いてください。」
クラシック 動画:歴史的ドキュメンタリー 歴史的場面 「クラシック音楽に合わせた歴史的場面を撮影してください。」
クラシック テキスト:歴史的な物語や詩 物語・詩作成 「クラシック音楽の感性を表す物語や詩を書いてください。」
ジャズ 画像:アーバン・ストリートアート 都市風景 「ジャズのエッセンスを表現するストリートアートを制作してください。」
ジャズ 動画:ジャズクラブのライブ演奏 ライブ演奏 「ジャズの生演奏を捉えたライブシーンを作成してください。」
ジャズ テキスト:都会の夜の描写 都市の夜 「ジャズからインスピレーションを得た都会の夜を記述してください。」
ロック 画像:エネルギッシュな抽象画 抽象表現 「ロック音楽の生のエネルギーを感じる抽象画を制作してください。」
ロック 動画:コンサートのライブ映像 コンサート映像 「ロックコンサートの興奮と情熱を伝えるライブ映像を制作してください。」
ロック テキスト:反逆的なストーリーや歌詞 反逆の物語 「ロック音楽の反抗的な精神を表す物語や歌詞を書いてください。」
ポップ 画像:明るくカラフルなポップアート ポップアート作成 「ポップ音楽の楽しい雰囲気を映し出すポップアートをデザインしてください。」
ポップ 動画:ミュージックビデオ MV企画 「ポップ曲に合わせたミュージックビデオのコンセプトを考えてください。」
ポップ テキスト:ポップカルチャーに関する記事 ポップカルチャー分析 「ポップ音楽の影響を受けたポップカルチャーの現象について分析する記事
を書いてください。」