2024年5月11日 14:22 JST
東京(Jiji Press) – 富士通株式会社と東京工業大学の研究者チームは、金曜日に日本のスーパーコンピュータFugakuを使用して生成された人工知能の基盤となることができる大規模な言語モデルを開発したと述べた。
全体の学習データの60%を占める日本語データを広範囲に学習したFugaku-LLMモデルは、国内需要に合った生成AI研究につながると期待される。
東北大学、名古屋大学、政府支援研究機関であるRiken、CyberAgent Inc. そしてKotoba Technologies Inc.の研究者も、2023年5月に富士通とリケンが共同開発したスーパーコンピュータを使用するプロジェクトを開始しました。
Fugaku-LLMの高い日本語能力は、俳句大が松尾芭蕉の詩についての質問に流暢に答えることから証明できると彼らは言いました。
継続的な学習を使用するほとんどの日本語機能を持つ他のモデルとは異なり、Fugaku-LLMは、有害なデータを含まないチーム独自のデータを使用して最初から訓練されるため、全体の学習プロセスを理解できると付け加えました。 透明性と安全の条件。
グラフィックス処理装置ではなく、中央処理装置を使用するFugakuを使用して大規模な言語モデルを正常に学習したことも意味があります。
言語モデルのトレーニングでは、GPUを使用するのが一般的です。 しかし、今では激しいグローバル言語モデルの開発競争のために供給が不足しています。
研究者らは、フガクの通信性能を最適化し、計算能力が向上したと述べた。
TIT教授リオ・ヨコタは記者会見で「私たちはFugakuが提起した問題を克服する能力を証明しました」と述べた。 「私たちは外国製品にまったく依存していません。 これは素晴らしい成果です。」
Fugaku-LLMのソースコードはすぐに公開されました。 富士通のウェブサイトでも利用できます。
+ There are no comments
Add yours