Hugging Face Hub、組織向けStorage Bucketsを導入 Introducing Storage Buckets on the Hugging Face Hub
- Hugging Faceは、組織がリポジトリのデータを自社のクラウドストレージ(AWS S3等)に保存できるStorage Buckets機能を発表した。
- データ主権やコンプライアンス要件に対応しつつ、Hub上のUIやAPIをそのまま利用できる点が特徴。
English summary
- Introducing Storage Buckets on the Hugging Face Hub
Hugging Faceは、組織アカウント向けに「Storage Buckets」と呼ばれる新機能を導入した。これはリポジトリの実データを、Hugging Face側のインフラではなく、ユーザー組織が管理する自社クラウドストレージ(AWS S3など)に保管できる仕組みである。Hubの利便性を保ちつつ、データの所在を組織側にとどめたいというエンタープライズ需要に応えるものと位置づけられる。
仕組みとしては、組織が自前のバケットをHubに接続し、そのバケットを指定したリポジトリのモデル重みやデータセットの保存先として利用する。Hub上ではこれまでと同様にファイル一覧やバージョン管理、Datasets ViewerやInference連携などのUI/APIが動作する一方、バイト列の実体はユーザーの管理下にあるストレージに置かれる。これにより、データ主権、リージョン制約、社内コンプライアンスやコスト管理上の要件に対応しやすくなる。
背景として、近年は大規模モデル・大規模データセットの取り扱いが増え、TBクラスのアーティファクトが日常的にやり取りされるようになっている。Hugging FaceはGitベースのストレージに加え、大容量ファイル向けにXetベースの新ストレージ層を展開しており、Storage Bucketsはこれらと同じ「データ層を抽象化しながらHubのワークフローを維持する」流れに連なる機能と見られる。
Hugging Faceは、組織がリポジトリのデータを自社のクラウドストレージ(AWS S3等)に保存できるStorage Buckets機能を発表した。
類似の発想は他のMLOpsプラットフォームにも見られ、Weights & BiasesやMLflow、Databricksなども顧客側オブジェクトストレージへのアーティファクト保存(いわゆるBYOB: Bring Your Own Bucket)をサポートしている。Hugging Faceがこのパターンを採り入れたことは、同社が単なる公開モデルハブから、規制業界を含む企業向け基盤へと軸足を広げつつあることを示唆している可能性がある。
現時点ではEnterprise Hub契約の組織が主な対象と見られ、対応プロバイダや権限設計、課金モデルの詳細は公式ドキュメントで確認する必要がある。データを外に出せない業界にとっては、Hubのコラボレーション機能を活かしながら統制を保つ現実的な選択肢になり得る。
Hugging Face has rolled out Storage Buckets, a new capability that lets organizations on the Hub keep their repository data inside cloud storage they own and operate, such as AWS S3, instead of on Hugging Face's managed infrastructure. The feature is aimed squarely at enterprise users who want the collaboration experience of the Hub without giving up control over where their bytes actually live.
The model is straightforward. An organization connects its own bucket to the Hub and designates it as the backing store for selected repositories. Model weights, datasets, and other large artifacts are written into that bucket, while the Hub continues to provide the familiar surface area: repository browsing, versioning, the Datasets Viewer, Inference integrations, and the Python and JS client libraries. From a developer's perspective, workflows like push_to_hub or load_dataset largely stay the same; what changes is the underlying location of the data.
The motivation is the increasingly enterprise-grade nature of modern ML work. Frontier-scale models and multi-terabyte datasets make data residency, regional compliance (GDPR, sector-specific regulations), egress cost, and internal security review a constant friction point. By letting customers keep artifacts within their existing cloud account, Hugging Face reduces that friction and likely makes it easier for regulated organizations — finance, healthcare, public sector — to standardize on the Hub as their internal model registry.
This also fits a broader pattern in the platform's evolution. Hugging Face has been steadily investing in its storage layer, including the Xet-based content-addressed backend designed to handle very large files more efficiently than plain Git LFS. Storage Buckets can be seen as a complementary move: rather than only optimizing the managed backend, it abstracts the storage layer so that the same Hub workflows can run on top of customer-controlled infrastructure.
The approach is not unique to Hugging Face. MLOps platforms such as Weights & Biases, MLflow-based offerings, and Databricks have long supported variants of bring-your-own-bucket for artifact storage, and major model providers increasingly let customers route data through their own cloud accounts. Hugging Face adopting this pattern suggests the company is continuing to position itself less as a public model gallery and more as a serious enterprise platform for model and dataset lifecycle management — though the competitive dynamics with hyperscaler-native registries will be worth watching.
A few practical caveats apply. Based on the announcement, Storage Buckets appears to be targeted primarily at Enterprise Hub organizations, and details around supported providers, IAM and permission design, encryption, and how billing interacts with customer-side storage costs should be verified in the official documentation. Teams considering migration should also think about how existing repositories, LFS objects, and Xet-backed files map onto the new arrangement. Still, for organizations that previously could not push proprietary data to a SaaS hub at all, this likely represents a meaningful unlock: the Hub's collaboration features without surrendering custody of the underlying data.
本ページの本文・要約は AI による自動生成です。正確性は元記事 (huggingface.co) をご確認ください。