kan
DeepSeekの紹介
2025.2.21
DeepSeekとは
• 中国に拠点を置くAI企業で開発したLLM製品
• OpenSource
代表モデル
• DeepSeek Coder(2023年11月リリース)
• DeepSeek LLM(2023年12月リリース)
• DeepSeek-V2(2024年5月リリース)
• DeepSeek-V3(2024年12月リリース)★
• DeepSeek-R1(2025年1月リリース)★
技術の特徴
• Mixture-of-Experts(MoE)アーキテクチャ
• 全パラメータを使用せず、必要な部分だけを動的に活用することで効率性と性能を両立。
• Multi-head Latent Attention(MLA)
• 推論時のメモリ負荷を軽減し、高速処理を実現。
• 補助損失なしの負荷分散
• 性能劣化を抑えつつ計算負荷を最適化
• 多トークン予測(MTP)
• 一度に複数トークンを予測し、生成速度と精度を向上。
• 強化学習(RL)
• DeepSeek-R1では教師あり微調整を省き、純粋なRLで推論能力を強化。
github上のリポジトリ
• DeepSeek-V3
• https://github.com/deepseek-ai/DeepSeek-V3
• 87k
• DeepSeek-R1
• https://github.com/deepseek-ai/DeepSeek-R1
• Star: 79.3k
他のLLMとの比較
利用コストの比較
1日100万トークンを処理する
• DeepSeek-V3 (API): 0.14〜0.28ドル
• GPT-4o (API): 5ドル(入力)+15ドル(出力)=20ドル
• Claude 3.5 (API): 3ドル(入力)+15ドル(出力)=18ドル
• Llama 3.1 (ローカル): 5〜10ドル(ハードウェア償却費含む)
• Gemini (API): 1〜5ドル

DeepSeekの紹介( 2025/2/21の勉強会で発表されたものになります)