- WEBサービス&アプリ提供者
株式会社FiNC Technologies
FiNCアプリのAI(画像解析)にさくらの高火力 GPUを利用。選定理由とは?
- クラウドサービス(IaaS)
- GPUサーバーサービス

「現実世界を計算可能にする」をミッションに、AI技術のバリューチェーンを垂直統合することでソフトウェアとハードウェアを高度に連携させ、さまざまな産業領域のサービスや製品として事業化している株式会社Preferred Networks(プリファード・ネットワークス、以下PFN)。今回、大規模言語モデル(Large language Models:LLM)の開発にあたって「高火力PHY」を採用した背景と理由、評価などについて計算基盤担当VP 土井 裕介氏、エンジニア 清水 翔氏に話を伺いました。
PFNでは、研究開発を支えるソフトウェアフレームワーク開発から、アルゴリズム、ハードウェア、それらを活かした多数のプロジェクトが同時進行しており、その適応領域は拡大し続けています。
「実例としては、ENEOS株式会社と共同開発した石油精製プラントの自動運転支援技術がそのひとつです。大規模かつ複雑なことから、長年の経験に基づいた運転ノウハウが求められる石油精製プラントでしたが、AI技術を用いて人の技量に左右されない安定運転を確立。手動操作を超える経済性と安定的かつ高効率な運転を達成しました。また、これまで培ってきたAI技術を活かし、チェーンストア向け業務改善ソリューション「MiseMise」を展開。品出し、在庫管理、値引き、棚割、分析などの業務をAIの判断と自律移動ロボットの活用によって効率化し、チェーンストア運営の業務改善、生産性向上に貢献します」と 土井氏は語ります。
同社は大規模言語モデル(LLM)が技術的なブレークスルーであること踏まえ、生成AIの分野に本格参入するにはLLMの開発が急務と考えていました。そのLLM開発で必要になってくるのが、AI開発に特化したGPU(Graphics Processing Unit)搭載の機械学習クラスタです。「当社はNVIDIA A100 Tensor コア GPUを所有しており、自前のクラスタも用意しています。ただ、LLM開発となると、最新の高性能GPU、NVIDIA H100 Tensor コア GPUが複数必要になります。早急にLLM開発に取り組む必要があるなか、最新GPUを搭載した機械学習クラスタを短期間で構築するのは、かなり困難な状況でした。そこで、外部のGPUクラウドサービスを利用するのが最適と判断しました」(土井氏)。
同社はさまざまなクラウドベンダーと付き合いがあり、GPUクラウドサービスの導入についても各社と多くの協議の場を持ちました。そのなかで「高火力PHY」を選定した理由は3つ。技術的な透明性、導入の早さ、そしてコストでした。
「LLMのトレーニングを行う際は、GPU同士の組み合わせや高速なネットワークなど、欠かせない技術要件があります。そういった当社の要求に対し、クラウドベンダー任せにしてしまうと不透明な部分が少なからず出てきます。その場合、何かトラブルが発生した際は、解決までのステップが長期化する懸念があります。しかし、さくらインターネットは透明性が高く、深い部分の技術要件まで協議することが可能でした。当然、トラブルにも素早く対応できます。また『高火力PHY』は、国内ベンダーの中でもNVIDIA H100の導入がいち早く行われることを伺いました。一刻も早く開発を進めたい当社としては、非常に重要な要件でした。そして、コストも重要な選定要件でした。他のクラウドベンダーも頑張っていただきましたが、さくらインターネットのアグレッシブな価格は大きな決め手となりました」と土井氏は笑顔で語りました。
2024年1月、同社のクラスタチームは「高火力PHY」を利用した機械学習クラスタの構築に着手。清水氏は次のように語りました。「GPUは高価で貴重なリソースですから、『高火力PHY』が利用できる状況を確保したあとは即クラスタを完成させる必要がありました。そこで、構築スケジュールは段階的なサーバー増設をもとに設定しました。ファーストステップは、本番環境のスムーズな立ち上げをサポートするための準備期間と位置付け、一部のサーバーが利用可能になると同時に、設計の進行と検証のためのクラスタを構築。また、将来の本番運用で必要な自動化のクラスタAPIの設計と実装を進めました。3~4カ月後のセカンドステップでは、多数のサーバーを追加して本番環境を完成させました。ファーストステップで準備した設計・検証クラスタ、および自動化のためのAPIを本番環境に統合して運用している状況です」
同社は「高火力PHY」導入後、構築した機械学習クラスタを用いて順調にLLMを開発しています。「当初、GPU間通信の性能が想定以下という問題がありましたが、我々とさくらインターネット、機器ベンダーのエンジニアが協力して対応し、2カ月ほどで問題は解決しました。機械学習クラスタ完成後は、ローカルの NVMe SSDを使った分散ストレージの運用に課題があったものの、致命的な問題はなく、現状、スムーズに動いています」(清水氏)。
土井氏も「現在『高火力PHY』に起因するようなトラブルは発生していません。安心して利用させていただいています。そもそも当社は、これまでもGPUに特化したクラスタを構築し運用してきていますから、『高火力PHY』のユーザーのなかではトップクラスに上手く使えているのではないかと自負しています」と語っています。
続けて「言語モデル学習に耐障害性を持たせるため、高速かつ安定したストレージが必要」と語る土井氏。そういったオプションを含め、「高火力PHY」にはさらなる性能向上に期待を寄せています。最後に「さくらインターネットとは、技術的にトランスペアレントである点が非常に魅力です。引き続き、深い部分の技術的な意見交換をさせていただければ幸いです」と土井氏は大きく頷きながら語ってくれました。