モデルがマイナーな変化で数学の問題を偶然発見したので、研究者はAIの「推論」能力に疑問を投げかけます。

1 min read

機械学習モデルはどのようなことを行いますか?そして彼らは本当に私たちが理解する方法で「考える」か「推理」していますか?これは実用的な質問であると同時に哲学的な質問ですが、金曜日に発表された新しい論文によると、少なくとも現在としてはその答えは非常に明確な「いいえ」です。

AppleのAI研究科学者グループが発表しました。 彼らの論文、「大規模言語モデルにおける数学的推論の限界を理解する」 木曜日の一般コメントまで。象徴的な学習とパターン再現のより深い概念はやや雑草にありますが、研究の基本的な概念は非常に理解しやすいです。

私があなたに次の簡単な数学問題を解決するように頼んだとしましょう。

オリバーは金曜日にキウイ44個を選びます。それから彼は土曜日に58のキウイを選びます。日曜日は金曜日より2倍のキウイを収穫します。オリバーはキウイを何個持っていますか?

明らかに答えは44 + 58 +(44 * 2)= 190です。大規模な言語モデルは実際には算術的に不足していますが、このような問題をかなり安定して解決できます。しかし、次のようにランダムな追加情報を追加するとどうなりますか?

オリバーは金曜日にキウイ44個を選びます。それから彼は土曜日に58のキウイを選びます。日曜日は金曜日より2倍のキウイを収穫します。 しかし、そのうちの5つは平均より少し小さかった。。オリバーはキウイを何個持っていますか?

同じ数学の問題ですか?もちろん小学生でも小さなキウイもキウイという事実はわかるだろう。しかし、明らかなように、この追加データポイントは最先端のLLMでさえ混乱します。 GPT-o1-miniの説明は次のとおりです。

…日曜日には、キウイのうち5つが平均より小さくなりました。これを日曜日の合計から差し引く必要があります。 88(日曜日キウイ) – 5(小キウイ) = 83キウイ

これは、研究者が軽く修正した何百もの質問のほんの一例ですが、ほとんどすべての質問がこれを試みるモデルの成功率を大幅に低下させました。

画像クレジット:ミルザデ他

さて、なぜそうするべきですか?問題を理解するモデルは、なぜランダムで無関係な詳細のためにそう簡単に廃棄されるのですか?研究者らは、これらの信頼できる失敗モードがモデルが実際に問題を全く理解していないことを意味すると提案しています。彼らの訓練データは、いくつかの状況で正解で答えることができますが、小さなキウイを数えるかどうかなど、マイナーな実際の「推論」が必要になると、奇妙で​​直感的ではない結果が出始めます。

研究者は論文に次のように書いた。

[W]e は、これらのモデルにおける数学的推論の脆弱性を調査し、問題の規定数が増加するにつれてパフォーマンスが大幅に低下することを示している。我々は、これらの減少は、現在LLMが真の論理的推論を行うことができないためであると仮定する。代わりに、トレーニングデータから観察された推論ステップを複製しようとします。

これらの観察は、LLMの言語能力のためにしばしば与えられる他の特性と一致する。統計的に「愛しています」というフレーズの後に「私も愛しています」が来ると、LLMはこれを簡単に繰り返すことができますが、これがあなたを愛しているという意味ではありません。そして、以前にさらされた複雑な推論チェーンに従うことができますが、このチェーンが表面的な偏差によって壊れる可能性があるという事実は、トレーニングデータで観察された繰り返しパターンほど実際に推論されないことを示唆しています。

共著者の一人であるMehrdad Farajtabar Xのこのスレッドでは、紙をとても素敵に分類します。

OpenAIの研究者はMirzadehらの研究を賞賛し、 彼らの結論に反対したいくつかの迅速なエンジニアリングは、これらのすべての失敗事例で正しい結果を得ることができると述べました。 Farajtabar(研究者が使用する一般的でありながら尊敬できる親近感に答える)は、より良い刺激が単純な偏差に効果があるかもしれませんが、モデルは複雑な注意を気にする要素に対応するために指数関数的に多くのコンテキストデータがあります必要かもしれないと指摘しました。アウト。

これはLLMが推論しないことを意味しますか?おそらく。彼らが推論することはできませんか?誰も知らない。これは明確に定義された概念ではなく、最新の技術が毎日変わるAI研究の最先端に質問が現れる傾向があります。おそらくLLMの「理由」であるかもしれませんが、ある意味ではまだ制御方法を認識していないかどうかはわかりません。

これは研究分野で魅力的な開拓地となりましたが、AIの販売方法については警告の話でもあります。彼らが主張することを実際に実行できますか?もしそうなら、どうすればいいですか? AIが日常的なソフトウェアツールになるにつれて、この種の質問はもはや学問的ではありません。

Nakama Shizuka

"フリーランスの学生。微妙に魅力的な料理の達人。トータルベーコンの先駆者。旅行の第一人者。自慢のオーガナイザー。"

You May Also Like

More From Author

+ There are no comments

Add yours