SlideShare a Scribd company logo
1 of 35
Download to read offline
自作LLM作ろうとして
爆散した話
今日の話
PytorchとHugging Face OnlyでLLMをガチで組み上げようとした時の話です。
成功例がみたい人は
Stability AI Japanの秋葉拓哉さんの記事を参考にした後
・もし明日、上司に「GPT-4を作れ」と言われたら?Stability AIのシニアリサーチサイエンティス
トが紹介する「LLM構築タイムアタック」
Weight & Biasesの
・ベストプラクティス
を読んで、さらにGPT-NeoXとかを触ってみればいいと思います。
今日の話
全部実はQiitaにあげています。
☆とブクマしてください。トレンドに載せてください。
LLM制作爆死回顧録、自作LLMを作るときに使った手法全
まとめとどのようにして何の成果も得られなかったのかにつ
いて
まずお前誰だよ
・アカウント名: 犬(SSR) @takanas0517
・職業: 東大工学部電子情報工学科
3年
・好きなコンピューターサイエンスの分野
・OS
・WebAssembly
・ML
・最近pythonのライブラリ作って全世界公開した
・研究者と開発者の中間みたいな人
・趣味: 節約, フルスクラッチ実装
謝罪
急いで作ったのでコンピューターサイエンスの基礎ができている人向けになってしまいま
した。わかりにくいところがあれば質問をください。
GPT4を使いたい‼でもお金は使いたくない‼
大学3年生の夏, ちょうどまとまった時間ができた僕はLLMを追うことに決めた
しかし、OpenAIにお金は使いたくない....
GPT4を使いたい‼でもお金は使いたくない‼
大学3年生の夏, ちょうどまとまった時間ができた僕はLLMを追うことに決めた
しかし、OpenAIにお金は使いたくない....
作るか‼
作ろうと思った経緯
・LLMの内部と開発手法を低レベルAPIから積み上げてしっかり学ぶため
・自作LLMはEmbeddingsとかの取得が用意だったりカスタマイズ性に優れる
・作ったLLMをHugging Faceに公開して英雄になりたかった
・作れる気がした
パソコン
とりあえずGPU付きのパソコンは昔から欲しかったので奨学金の30万を使って
ラップトップを購入
CPU : インテル® Core™ i7-13650HX
GPU : NVIDIA® GeForce RTX™ 4060 Laptop GPU 8GB
メモリ : 32GB
OS : Ubuntu 22.04.3 LTS
パソコン
とりあえずGPU付きのパソコンは昔から欲しかったので奨学金の30万を使って
ラップトップを購入
CPU : インテル® Core™ i7-13650HX
GPU : NVIDIA® GeForce RTX™ 4060 Laptop GPU 8GB ←実は悲劇
メモリ : 32GB
OS : Ubuntu 22.04.3 LTS
誰でもわかる‼LLM作り方講座‼
1. Transformerを作る
2. 学習データセットを用意する
3. 次単語予測を頑張る
1. Transformerを作る
・Feed Forward & Layer Norm
↑流石に基本的すぎるのでPytorchの既存の実装を使用
・Positional Encoding 外国の記事
・Attention部分 Paper with code
・
1. Transformerを作る
2. 学習データセットを用意する
OpenWebTextという大量の文章データを使用。
ここからはNanoGPTというリポジトリを参考に組んだ。
普通, このデータは全て物理メモリに乗せることはできないが、Hugging Faceの
Datasets APIとnumpy.memmapという素晴らしい方法により解決することができる。
詳しくはここ‼
800万個のデータと90億トークンの文章データが手に入りました‼
2. 学習データセットを用意する 補足: mmap
2. 学習データセットを用意する 補足
トークナイザーについて
<BOS> I am called the Beast . <EOS> -> [0, 7, 2, 11, 91, 14, 51, 4]
機械が文章を処理するためには自然言語数字の羅列に直してやる必要がある。
この時に, 一単語一単語トークナイズしていると、分類モデルのクラス数が膨大になって
しまう。そこで、GPTや最近のGeminiなどではByte Pair EncodingやSentence Piece
などを用いて効率の良い単語の数値化を行っている。
これはLLMが大きいモデルを訓練できる理由の一つでもあるよ
3. 次単語予測を頑張る
3. 次単語予測を頑張る
次単語予測モデルも組んだし、データも用意できたし!よーし訓練開始だー!
3. 次単語予測を頑張る
次単語予測モデルも組んだし、データも用意できたし!よーし訓練開始だー!
CUDA OUT OF
MEMORY
誰でもわかるわけじゃないかも‼LLM作り方講座‼
1. Transformerを作る
2. 学習データセットを用意する
3. 次単語予測を頑張る
4. モデルを軽量化せなあかん
4. モデルを軽量化せなあかん
model = GPT()として定義した時にはCUDA Errorは起きなかった。
つまり訓練中にメモリが溢れるほどのエラーが起きている。
一体どこで...?
4. モデルを軽量化せなあかん
model = GPT()として定義した時にはCUDA Errorは起きなかった。
つまり訓練中にメモリが溢れるほどのエラーが起きている。
一体どこで...?
A. 計算グラフの構築
微分計算をするために右のような
計算グラフを作っている
これで空間計算量が増えてGPUが
圧迫される
4. モデルを軽量化せなあかん Do the math
大体今回作ろうとしたモデルはパラメーター数0.1Bモデル, float32ならば、
0.1B×4Byte = 0.4GB
これにプラスされて計算グラフの構築, Optimizerのパラメーター, etc…が
全てGPUに乗って
20倍以上になります(体感)
こりゃたまんないね
4. モデルを軽量化せなあかん
軽量化手法その1
まずそもそもモデルの規模を落としましょう。これが一番軽量になります。
なお性能は落ちる。
4. モデルを軽量化せなあかん
軽量化手法その2
数値を量子化しましょう。一部の計算はfloat32も精度がいらないです。
bfloat16がおすすめです。理由はアンダーフローが起きて事件が起きたからです。
(Qiita参照)
こうするとモデルの
サイズが落ちます。
4. モデルを軽量化せなあかん
他のメモリ節約方法
本来はGarbage Collectionという機能で使われていないメモリ領域は解放されていくは
ずですが、何故か学習中はそんなこともないので手動でメモリを解放していきます。これ
でGPUの負担はマシになります。
誰でもわかるわけじゃないかも‼LLM作り方講座‼
1. Transformerを作る
2. 学習データセットを用意する
3. 次単語予測を頑張る
4. モデルを軽量化せなあかん
5. 他の工夫
5. 他の工夫
多すぎるので長々と話してもしょうがないので羅列する
・勾配累積: 小さいバッチデータしか扱えないGPUメモリで使われる方法
・PostLNとPreLN: 多層Transformerアーキテクチャにおける勾配消失問題の
解決方法
・Temperature, TopK: 解答に多様性を持たせるため, 正解ラベル以外の出力
も許容する方法, OpenChat botなどで最初の画面にTemperatureとあるがこ
れが由来
・モデルCompile: あらかじめモデルをコンパイルしておくことで計算が早くなり
ます。詳しくはNVIDIAの資料をどうぞ
色々試した結果....
色々試した結果....
上手くいかなかった
原因考察1
次単語予測のためのContext長がGPU不足で確保できず。(恐らく最重要)
次単語予測は前n単語までの単語からn+1単語目を予測するという学習方法だが、
GPUがカツカツな環境での開発ではContext長を十分確保できず, 十分な情報を学ぶこ
とができなかった。
原因考察2
そもそも最近のChatGPTは次単語予測をして大規模に事前学習を行った後に
RLHF(Reinforce Learning from Human Feedback)という方法で強化学習を行ったり、
SFT(Supervised Finetuning)をしている。
rinnaのRepositoryがわかりやすい
これを行う必要があった。
まとめ
色々手法とか言ってきたけど...
まとめ
色々手法とか言ってきたけど...
GPU is all we need.
Future Work
・ChatGPTを作るためにRLHFガンガンやりやす。nanoChatGPT
・RAGもまたPytorchのLayerから作ってみたいの思います(without langchain)
・ローカルなLLMを使ってAppを作りたいので合計20GB以上はとりあえず欲しくて、今
のLaptop 8GBに外付けする形で12GBとかは欲しいな~

More Related Content

What's hot

競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf
競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf
競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdfcatupper
 
Hatena::Letの式年遷宮
Hatena::Letの式年遷宮Hatena::Letの式年遷宮
Hatena::Letの式年遷宮Takafumi ONAKA
 
チケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのか
チケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのかチケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのか
チケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのかShunsuke (Sean) Osawa
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)Kosetsu Tsukuda
 
日本語テストメソッドについて
日本語テストメソッドについて日本語テストメソッドについて
日本語テストメソッドについてkumake
 
「伝わるチケット」の書き方
「伝わるチケット」の書き方「伝わるチケット」の書き方
「伝わるチケット」の書き方onozaty
 
perfを使ったPostgreSQLの解析(前編)
perfを使ったPostgreSQLの解析(前編)perfを使ったPostgreSQLの解析(前編)
perfを使ったPostgreSQLの解析(前編)Daichi Egawa
 
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
講演1 Redmine導入のアンチパターン
講演1 Redmine導入のアンチパターン講演1 Redmine導入のアンチパターン
講演1 Redmine導入のアンチパターンHidehisa Matsutani
 
あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界Yoshinori Nakanishi
 
MySQLからPostgreSQLへのマイグレーションのハマリ所
MySQLからPostgreSQLへのマイグレーションのハマリ所MySQLからPostgreSQLへのマイグレーションのハマリ所
MySQLからPostgreSQLへのマイグレーションのハマリ所Makoto Kaga
 
SQLアンチパターン メンター用資料
SQLアンチパターン メンター用資料SQLアンチパターン メンター用資料
SQLアンチパターン メンター用資料Hironori Miura
 
情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)
情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)
情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)Kuniharu(州晴) AKAHANE(赤羽根)
 
Springを何となく使ってる人が抑えるべきポイント
Springを何となく使ってる人が抑えるべきポイントSpringを何となく使ってる人が抑えるべきポイント
Springを何となく使ってる人が抑えるべきポイント土岐 孝平
 
トランザクションの設計と進化
トランザクションの設計と進化トランザクションの設計と進化
トランザクションの設計と進化Kumazaki Hiroki
 
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」Takuto Wada
 
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]Koichiro Matsuoka
 
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介T. Suwa
 
ゼロトラスト・アーキテクチャを無料で(やれるだけ)実現する
ゼロトラスト・アーキテクチャを無料で(やれるだけ)実現するゼロトラスト・アーキテクチャを無料で(やれるだけ)実現する
ゼロトラスト・アーキテクチャを無料で(やれるだけ)実現するKeioOyama
 
Elasticsearchを使うときの注意点 公開用スライド
Elasticsearchを使うときの注意点 公開用スライドElasticsearchを使うときの注意点 公開用スライド
Elasticsearchを使うときの注意点 公開用スライド崇介 藤井
 

What's hot (20)

競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf
競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf
競プロは社会の役に立たない+ベンチャー企業の話 (NPCA夏合宿OB講演).pdf
 
Hatena::Letの式年遷宮
Hatena::Letの式年遷宮Hatena::Letの式年遷宮
Hatena::Letの式年遷宮
 
チケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのか
チケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのかチケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのか
チケット管理システム大決戦 JIRA vs Redmine vs Trac ユーザーが語る、なぜ私はこのツールを使うのか
 
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
The Web Conference 2020 国際会議報告(ACM SIGMOD 日本支部第73回支部大会・依頼講演)
 
日本語テストメソッドについて
日本語テストメソッドについて日本語テストメソッドについて
日本語テストメソッドについて
 
「伝わるチケット」の書き方
「伝わるチケット」の書き方「伝わるチケット」の書き方
「伝わるチケット」の書き方
 
perfを使ったPostgreSQLの解析(前編)
perfを使ったPostgreSQLの解析(前編)perfを使ったPostgreSQLの解析(前編)
perfを使ったPostgreSQLの解析(前編)
 
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
講演1 Redmine導入のアンチパターン
講演1 Redmine導入のアンチパターン講演1 Redmine導入のアンチパターン
講演1 Redmine導入のアンチパターン
 
あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界あなたの知らないPostgreSQL監視の世界
あなたの知らないPostgreSQL監視の世界
 
MySQLからPostgreSQLへのマイグレーションのハマリ所
MySQLからPostgreSQLへのマイグレーションのハマリ所MySQLからPostgreSQLへのマイグレーションのハマリ所
MySQLからPostgreSQLへのマイグレーションのハマリ所
 
SQLアンチパターン メンター用資料
SQLアンチパターン メンター用資料SQLアンチパターン メンター用資料
SQLアンチパターン メンター用資料
 
情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)
情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)
情報システム部門のタスク管理とIT全般統制 ~ Excel管理からの脱却 ~ (ITS Redmine #RxTstudy #5)
 
Springを何となく使ってる人が抑えるべきポイント
Springを何となく使ってる人が抑えるべきポイントSpringを何となく使ってる人が抑えるべきポイント
Springを何となく使ってる人が抑えるべきポイント
 
トランザクションの設計と進化
トランザクションの設計と進化トランザクションの設計と進化
トランザクションの設計と進化
 
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
 
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
ドメイン駆動設計のプラクティスでカバーできること、できないこと[DDD]
 
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
 
ゼロトラスト・アーキテクチャを無料で(やれるだけ)実現する
ゼロトラスト・アーキテクチャを無料で(やれるだけ)実現するゼロトラスト・アーキテクチャを無料で(やれるだけ)実現する
ゼロトラスト・アーキテクチャを無料で(やれるだけ)実現する
 
Elasticsearchを使うときの注意点 公開用スライド
Elasticsearchを使うときの注意点 公開用スライドElasticsearchを使うときの注意点 公開用スライド
Elasticsearchを使うときの注意点 公開用スライド
 

Recently uploaded

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Recently uploaded (8)

論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

自作LLM作ろうとして 爆散した話 (1).pdf