世界中のユーザーを抱えてFacebookは、自動機械翻訳を使用して、プラットフォームに公開されているほぼすべてのコンテンツをユーザーが使用する言語に翻訳することができます。 新たにFacebook中間言語として英語を通さず、100個の言語を直接翻訳する機械翻訳システム “M2M-100」を開発したと発表した。
英語に依存せず、100の言語を翻訳する最初のAIモデル紹介-Facebook情報
https://about.fb.com/news/2020/10/first-multilingual-machine-translation-model/
Facebookの新しいAIは言語を相互に直接翻訳することができます。 Engadget
https://www.engadget.com/facebooks-ai-can-translate-languages-directly-into-one-another-150029679.html
Facebookニュースフィードでのみ、一日に200億回の翻訳を提供していますが、この翻訳システムは、一般的に、中間言語として英語を使用しています。 例えば、中国では、フランス語に翻訳する場合、まず中国語を英語に翻訳し、英語をフランス語に翻訳して中国語フランス語にしているのです。
この方法が使用されるのは、英語と他の言語の翻訳データセットが膨大だからですが、途中で、英語を挟むことで翻訳の全体的な精度が低下するものとなっています。 Facebook AIのAngela Fan氏は、世界中の英語以外の言語を使用する地域がいくつもあるため、英語を使用していない人々の需要に機械翻訳システムが満たすことが重要な課題であると指摘した。 Facebookのプラットフォームで毎日数十億件の投稿がなされていますが、それぞれの記事に使用される言語は、160個に達し、全体の3分の2以上が、英語以外の言語で実施してFan氏は言います。
だからFacebook中間言語として英語を使用せずに、2つの言語を直接翻訳することができる新しい機械翻訳システム “M2M-100」を開発しました。M2M-100は、合計で100以上の言語セットで任意の方向に直接翻訳することができる最初の多言語機械翻訳モデルであり、Facebookと主張しています。
M2M-100を開発しにあたりFacebookは100言語75億文章からなる膨大なデータセットを構築しました。まず、Webページをクロールする一般的なクロールを使用してテキストデータを収集し、FastTextというテキストの分類システムを使用して、テキストの言語を指定したとします。
翻訳データは、人間の翻訳を使用して作成されることが多いが、「英語とタミル語前述翻訳 “を見つけることよりも、「フランスとタミルを言う翻訳者」を見つけることがはるかに難しいとFan氏は指摘します。英語以外の言語を直接翻訳するためのデータを得るために、研究チームは「LASER(言語に依存しない文章表現)」と多言語の文章の意味に基づいてマッピングツールを利用したもの。
また、Facebookは言語の分類、地理、文化の類似性に基づいて言語を14のグループに分類する戦略も導入したします。 同じグループに属する言語はより頻繁にコミュニケーションをする傾向があるので、より高品質の双方向翻訳データがある場合Facebookは言う。
もちろん、すべての言語が、インターネット上で利用できる多くのテキストを持っているわけではないので、研究チームは、「単一の言語で作成されたデータ」に注目しました。 Fan氏は、中国で、フランス語に翻訳を例に挙げ、「私たちの目標は、中国で、フランス語に翻訳であるが、いくつかの理由で十分な程度のデータを得ることができない場合は、私たちは、このを改善するために、フランスの単一言語データを使用しますそして、「フランスで中国語に翻訳」というシステムの役を訓練します。 例えば、Wikipediaからフランス語のデータをすべて取得し、これを中国語に翻訳し、 “と言います。
逆翻訳することにより、得られた新しいテキストをデータセットに追加して、入力と出力の両方で使用できるデータが増加するため、機械翻訳システムは、より強力になること。
このように開発されたM2M-100は、機械翻訳の精度を測定するBLEU(Bilingual Evaluation Understudy)スコアで英語を中間言語として使用する機械翻訳システムを10ポイント上回っているとFacebookは言う。
まだM2M-100が網羅されていない言語は膨大であり、最終的にこの世に存在するすべての言語を直接翻訳することができるシステムの開発につながるかどうかは、記事作成時点で知ることができません。 Fan氏は、機械翻訳システムの成功は、AIが活用できるデータの量に依存すると指摘し、使用可能なデータが非常に少ない言語で追加の研究課題がある言いました。
この記事のタイトルとURLをコピー
+ There are no comments
Add yours