トウデジタルニュースセンター:新たな研究で、AI検索ツールの精度は平均60%に過ぎないことが判明

トウデジタルニュースセンター:新たな研究で、AI検索ツールの精度は平均60%に過ぎないことが判明

AI モデルに精度が欠ける可能性があるというのは議論の余地のない事実です。幻覚を起こしたり、虚偽の情報を繰り返したりすることは、開発者にとって常に厄介な問題でした。使用事例は非常に多岐にわたるため、AI の精度に関連する定量化可能なパーセンテージを特定することは困難です。研究者チームは、その数字が判明したと主張している。

Tow Center for Digital Journalism は最近、ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search、Copilot を含む 8 つの AI 検索エンジンを調査しました。彼らは各ツールの精度をテストし、ツールが回答を拒否する頻度を記録しました。

研究者らは、20 社のニュース出版社から 200 件のニュース記事 (各社 10 件) をランダムに選択しました。彼らは、記事の抜粋を使用すると、各記事が Google 検索で上位 3 つの結果を返すようにしました。次に、各 AI 検索ツールで同じクエリを実行し、検索が A) 記事、B) ニュース組織、C) URL を正しく引用しているかどうかに基づいて精度を評価しました。

研究者たちはその後、それぞれの検索をその正確さに基づいて「完全に真実」から「完全に偽」までの範囲で分類した。下の図からわかるように、Perplexity の 2 つのバージョンを除いて、他の AI のパフォーマンスは理想的ではありません。全体的に、AI 検索エンジンは 60% の確率で不正確でした。さらに、AI のこれらの誤った結果に対する「自信」も、誤った結果を強化します。

この研究が興味深いのは、私たちが何年も前から知っていたことを定量的に確認している点です。つまり、法学修士は「史上最も洗練された嘘つき」だということです。彼らは、たとえ事実でなくても、自分の言っていることは真実であると完全な権威を持って報告し、時には質問されると反論したり、他の誤った主張をでっち上げたりすることさえあります。

2023 年の逸話的な記事で、テッド・ジョイア (The Honest Broker) は、多数の問い合わせに対してボットが自信を持って「嘘をついている」ことを示す ChatGPT の応答が数十件あることを指摘しました。いくつかの例は敵対的な質問ですが、多くは単なる一般的な質問です。

ChatGPT は間違いを認めた後も、さらに誤った情報を提供し続けました。 LLM は、ユーザーからのすべての入力にどんな犠牲を払ってでも応答するようにプログラムされているようです。研究者のデータはこの仮説を裏付け、ChatGPT Search が 200 件の記事クエリすべてに回答できる唯一の AI ツールであることがわかりました。しかし、完全に正確だったのはわずか 28% で、完全に不正確だったのは 57% でした。

ChatGPTは最悪ではありません。 X の Grok AI の両方のバージョンのパフォーマンスは低かったが、Grok-3 Search は 94% の精度を達成した。 Microsoft の Copilot もあまり良い結果は出ず、200 件のクエリのうち 104 件に回答しませんでした。残りの 96 件のクエリのうち、「完全に正しい」のは 16 件、「部分的に正しい」のは 14 件、「完全に間違っている」のは 66 件で、精度は約 70% でした。

おそらく、このすべての中で最もクレイジーなのは、これらのツールを製造している企業が、一般の人々に月額 20 ドルから 200 ドルを請求しながら、この精度の欠如について透明性を保っていないことです。さらに、Perplexity Pro (月額 20 ドル) と Grok-3 Search (月額 40 ドル) は、無料バージョン (Perplexity および Grok-2 Search) よりもわずかに多くのクエリに正しく応答しますが、エラー率も大幅に高くなります (上記)。

しかし、誰もが同意するわけではありません。 TechRadar の Lance Ulanoff 氏は、ChatGPT Search を試した後、二度と Google を使うことはないかもしれないと述べています。彼はこのツールは高速、明確、正確で、インターフェースがシンプルで広告がないと説明しました。

中国産業情報ステーションより

<<:  何千人もの研究開発チームを抱える NIO のインテリジェント運転の進歩はなぜ業界より 2 歩遅れているのでしょうか?

>>:  PC価格も上昇:部品不足でメーカーは利益を狙う

推薦する

昆虫を食べる時期だ、いや、ヤマモモを食べる時期だ

「5月になると、森はヤマモモでいっぱいになり、最初は1個が金貨1,000枚に相当するようです。」 5...

リコリスを水に溶かして飲む効果

甘草の根茎は、食べられる一般的な漢方薬です。甘草の食べ方は様々ですが、比較的ポピュラーなのは、甘草を...

「龍の卵が共存」する驚異の光景! 1億9000万年前の恐竜の卵の巣が発見された →

最近、古生物学研究者らが貴州省安順市平坡区で特別な恐竜化石群を発見した。これは特別な埋葬地のある恐竜...

「穀物」レシピ = 「蜂蜜」レシピ?穀物の生産量を増やすために、なぜミツバチに頼るのでしょうか?

「平地でも山頂でも、果てしない景色はすべて占領されています。何百もの花から蜂蜜を集めた後、誰が一生...

もち米ロールを食べると太りますか?

毎年夏至と端午節になると、多くの人が大量の団子を作り始めますが、これは地元の風習に関係しています。ち...

宇宙旅行に行く前に、野菜を育てる技術を学んでみませんか?

CCTVニュース:4月26日に中国の宇宙ステーションに入った時から今日(5月26日)まで、神舟18...

脾臓と胃を強くする方法

多くの人が、下痢、吐き気、食欲不振など、脾臓や胃の不調に悩まされています。これに油断はいけません。脾...

ダブルスキンミルクのカロリー

ダブルスキンミルクは、私たちの体に非常に有益な牛乳から作られているので、食べることで牛乳の栄養成分を...

多くの抗生物質がマイコプラズマに対して効果がないのはなぜですか? ——「歩く肺炎」に関する8つの質問

薬剤耐性のため、中国では幼児のマイコプラズマ感染症の治療が困難な状況に直面している。著者:王晨光(ポ...

痛風患者は菊を食べても大丈夫ですか?

健康であれば心が軽くなるとよく言われます。健康な体は、仕事、勉強、生活など、どんな場面でも能力をより...

とてもとてもとてもとてもとてもとても美しい!

10月19日(現地時間) NASAが発表ジェイムズ・ウェッブ宇宙望遠鏡が撮影した円筒状の星間ガスと...

パパイヤ骨スープのレシピ

パパイヤは、最も胸を大きくする栄養価の高い植物性食品として常に知られています。そして、その高い栄養価...

松茸の効能と機能

近代化が継続的に進むにつれて、人々の生活水準も絶えず向上し、人々の生活の質も絶えず向上し、人々のライ...

ロンリー魚の切り身の炒め物の作り方

ヒラメの切り身は一般的にベトナム産のヒラメの切り身から作られ、ほとんどが冷凍保存されています。肉は柔...