HomeTags#distributed-training

Tag timeline

#distributed-training 3 total

同じキーワードで束ねられた更新を確認できます。カテゴリをまたいだ関連ニュースや実装トピックの追跡に使えます。

Total 3
Showing 3
Page 1/1
Updated 1m ago

Entries page 1/1 · 3 total

Tue, May 5 1 entries
NEW blog codex 1mo ago · openai-blog

OpenAI、大規模AI学習網を支えるMRC技術を発表 Unlocking large scale AI training networks with MRC (Multipath Reliable Connection)

重要度 Medium Medium priority 重要度 Medium · 技術記事 · OpenAI / Codex Medium priority · technical post · OpenAI / Codex 公開 5月5日 Published May 5

AI要約 OpenAIは大規模AI学習向けの新ネットワーク技術MRC(Multipath Reliable Connection)を公開した。複数経路を活用し信頼性とスループットを高め、スーパーコンピュータ規模のGPUクラスタを効率的に接続する仕組みで、学習基盤のスケーラビリティ向上に寄与する。

EN OpenAI introduces MRC (Multipath Reliable Connection), a new supercomputer networking protocol released via OCP to improve resilience and performance in large-scale AI training clusters.

fallback
Wed, Apr 22 1 entries
blog gemini 2mo ago · google-deepmind

Decoupled DiLoCo: 分散AI学習の新たな耐障害手法 Decoupled DiLoCo: A new frontier for resilient, distributed AI training

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 4月22日 Published Apr 22

AI要約 Google DeepMindは分散学習手法DiLoCoを拡張した「DDiLoCo」を発表。通信と同期を切り離し、ノード障害や帯域制約下でも大規模モデルの学習を継続でき、より柔軟で耐障害性の高い分散訓練を実現する。

EN Google DeepMind unveiled Decoupled DiLoCo (DDiLoCo), which separates communication from synchronization so large-scale model training continues despite node failures or limited bandwidth, enabling flexible, resilient distributed AI training.

Decoupled DiLoCo: A new frontier for resilient, distributed AI training media fallback
Mon, Mar 9 1 entries
NEW blog local-llm 3mo ago · huggingface-blog

Ulysses Sequence Parallelism: 100万トークン文脈の学習を可能に Ulysses Sequence Parallelism: Training with Million-Token Contexts

重要度 Medium Medium priority 重要度 Medium · 技術記事 · Local LLM / Open Models Medium priority · technical post · Local LLM / Open Models 公開 3月9日 Published Mar 9

AI要約 Hugging Faceが紹介したUlysses Sequence Parallelismは長文脈LLM学習向けの並列化手法で、アテンションヘッドをGPU間で分割して通信量を抑え、100万トークン級の文脈長での訓練を現実的にする。

EN Ulysses Sequence Parallelism splits attention heads across GPUs to cut communication overhead, making it practical to train LLMs with million-token contexts in distributed setups.

fallback