Line Open-Sources ‘japanese-large-lm’: 36億のパラメータを持つ日本語モデル

Estimated read time 1 min read

2020年11月以降、 ライン は、特に日本語に合わせて調整された高級大規模言語モデルの力を作り活用するための研究開発の変革的な旅に着手しました。 この旅程の重要なマイルストーンとして、LINEのMasive LM開発ユニットは 日本語モデル「Japanese-large-lm」の発売を発表しました。 オープンソースソフトウェア(OSS)で。 このリリースでは、最先端の言語モデルを活用したい研究コミュニティとビジネスの両方に大きな影響を与える準備ができています。

これらの言語モデルは、36億(3.6B)パラメータモデルと17億(1.7B)パラメータモデルの2つのバリエーションで提供され、適切には3.6Bモデルと1.7Bモデルと呼ばれます。 これらのモデルを公開し、言語モデルの構成に関する包括的な洞察を共有することで、LINEはアプローチの複雑さを垣間見ることができ、その分野の発展に貢献することを目指しています。

1.7Bおよび3.6BモデルはHuggingFace Hub(1.7Bモデル3.6Bモデル)、普及した 変圧器ライブラリ。 Apache License 2.0 に基づいて、これらのモデルにライセンスを付与することで、研究者や商業団体を含む幅広いユーザーがさまざまなアプリケーションの機能を活用できます。

高性能言語モデル開発の基礎は、広範で高品質の教育データセットを活用することにあります。 LINEはこれを達成するために、さまざまなテキストデータで豊富なリポジトリである独自の日本Webコーパスを活用しました。 しかし、Webから派生したコンテンツが提起する問題は、ソースコードや日本語以外の文章を含む固有のノイズです。 LINEの対応は、細かいフィルタリングプロセスを採用することでした。 ほじちゃ OSSライブラリ。 これらのプロセスは、大規模で高品質のデータセットを蒸留してモデルの堅牢性の基盤を形成する上で重要な役割を果たしました。

モデル教育の効率性は主な考慮事項であり、LINEは3D並列処理と アクティベーションチェックポイント。 これらの進歩は、膨大なデータの効率的な同化を促進し、計算能力の境界を効果的に広げました。 驚くべきことに、1.7Bモデルは、A100 80GB GPUでわずか4000 GPU時間を使用して開発され、これは学習アプローチの効率性の証拠です。

特に、この日本語モデルの開発軌跡はHyperCLOVAとは異なりました。 LINEの専任Masive LM開発ユニットが丁寧に監督する別個の開発ラインに沿って構築されたこのモデルは、日本語のための優れた事前学習モデルを制作しようとするLINEの努力を示しています。 彼らの最も重要な目標は、大規模な言語モデルの広範な経験から得られた洞察とレッスンを統合することです。

LINEは、モデルの効率性を評価するために、質問の回答と読解作業の当惑度スコア(PPL)と精度を調査しました。 PPL はモデルの予測機能に関する洞察を提供し、精度比はタイプの性能測定を提供します。 LINEのモデルは様々な作業で競争力のある性能を見せ、現場で既存モデルと競争するなど結果が有望でした。

彼らの成功を支えることは、効果的な大規模言語モデル教育のための一連の貴重なヒントでした。 これには、微調整、ハイパーパラメータ Adam’s beta2、最適な学習速度、賢明な学習速度スケジューラの適用に関する考慮事項が含まれます。 LINEは、これらの技術的複雑性を探求することで、より広いコミュニティに役立つ強力なモデルと共有された洞察を開発しました。

結論として、LINEの1.7Bと3.6B日本語モデルの発売は自然言語処理でかなりの進歩を遂げました。 今後調整されたモデルをリリースするという約束は、言語モデルの機能を向上させるための彼らの献身を強調します。 LINEが継続的に発展するにつれて、グローバルコミュニティは継続的な貢献の持続的な影響を切望しています。


確認 参照記事。 この研究のすべてのクレジットは、このプロジェクトの研究者に渡されます。 また、参加することを忘れないでください。 29k+ ML SubReddit 40k+ Facebook コミュニティ、 ディスコードチャンネル そして 電子メールニュースレター最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有します。

あなたが私たちの仕事が好きなら、私たちに従ってください Twitter


NiharikaはMarktechpostの技術コンサルティングインターンです。 彼女は学部3年目で、現在KharagpurにあるIndian Institute of Technology(IIT)でB.Techを勉強しています。 彼女は機械学習、データサイエンス、AIに大きな関心を持っており、これらの分野の最新開発に熱心な読者を持つ非常に情熱的な個人です。


READ  最高のブロックチェーン専門家がCommonwealth Cyber​​ Initiativeに参加バージニア工科ニュース
Nakama Shizuka

"フリーランスの学生。微妙に魅力的な料理の達人。トータルベーコンの先駆者。旅行の第一人者。自慢のオーガナイザー。"

You May Also Like

More From Author

+ There are no comments

Add yours