新しいDeepSeekアプリ!杭州の90年代以降の人々の行動が話題になった

新しいDeepSeekアプリ!杭州の90年代以降の人々の行動が話題になった

東坡豚肉、キノコと野菜の炒め物、蒸しフナ、エビと豆腐...テーブルいっぱいの料理を作り、写真を撮って AI に投げ、次のように尋ねます。「写真の中で最もタンパク質含有量が多いのはどの食べ物ですか?」尿酸値が高い人は、どの料理を食べ過ぎてはいけないでしょうか?

AIは数秒間深く考え、推論プロセス全体を入力し、最終的に写真上の答えを丸で囲みました。

これは推論を学習した大規模なマルチモーダルモデルであり、将来的には日常生活における小さな応用シナリオとなるでしょう。これまでは、このような「目」を持ち、推論能力に優れたAIはまだ想像の段階にありました。しかし最近、杭州オムAIラボの95年以降のグループが、DeepSeek-R1のトレーニング方法を純粋なテキスト分野から視覚言語分野に移行することに成功し、マルチモーダルな大規模モデルにさらなる想像の余地を開きました。

彼らはまた、このプロジェクトをオープンソース化し、VLM-R1 と名付け、世界最大のコードホスティングプラットフォームである GitHub で公開しました。オンラインになってからわずか 1 週間で、さまざまな国の開発者から 2.7k のスターを獲得し、2 月 21 日にはホット トレンド リストに掲載されました。この成果は、このオープン ソース コミュニティでは傑出したものです。

VLM-R1 が GitHub で公開されてから 1 週間後の星のデータ曲線

2月21日、GitHubのホットトレンドリストに掲載されました

この研究開発チームのリーダーは、90年代以降の世代であり、Om AI Labの創設者である趙天成博士です。彼はまた、浙江大学濱江研究所のOm人工知能センターの所長および博士課程の指導者でもあります。

DeepSeek-R1推論を教える方法

マシンビジョンに導入

DeepSeek-R1 モデルの独自性は、DeepSeek が一般的なモデル推論手順を調整した点にあります。これまで、モデルは推論能力を向上させるために通常「教師あり微調整」(SFT、教師あり微調整)に依存していました。簡単に言えば、すでに多くのことを学習した大規模なモデルを採用し、特定のラベル付きデータを使用して、タスクをより適切に完了する方法をモデルに教えることです。すでに料理の仕方を知っているようですが、四川料理や安徽料理となると、特別な練習を通して調理技術を習得する必要があります。

DeepSeek-R1 は、トレーニング プロセス中にこのステップを直接スキップし、「強化学習」段階に入り、教師ありデータなしで純粋な強化学習を通じて大規模なモデルがどのように進化できるかを探ります。この革新的な強化学習方法には、Group Relative Policy Optimization (GRPO) と呼ばれる専門用語があります。

GRPO は DeepSeek-R1 の推論学習に役立っていますが、一般的なコンピューター ビジョン タスクで AI モデルのパフォーマンスを向上させることにも役立つのでしょうか?

繰り返し実験を行った結果、Om AI Lab R&D チームからの答えは「はい」です。

彼らは、視覚的位置特定タスクで Tongyi オープンソース視覚理解モデル Qwen2.5-VL をトレーニングしました。これに基づいて、R1法とSFT法を比較に使用しました。現時点での結論としては、R1 メソッドはさまざまな複雑なシナリオで安定した高いパフォーマンスを維持できるということです。これは実際のアプリケーションでは非常に重要です。

下のストリートビュー写真に示されているように、AI に与えられたタスクは、写真内で視覚障害者にとって危険となる可能性のある物体を見つけることです。

道路脇の歩道のシーンでは、人間が視覚障害者の歩行の障害物として思いつくのは、通常、石柱、バス停、歩行者などです。これらは、事前にマークできる「データ」です。しかし、この写真では、階段というかなり特殊な状況があります。

趙天成氏のチームが行った実験によると、R1方式でトレーニングされたAIモデルは、このシナリオのステップが視覚障害者にとって危険をもたらすことをうまく推測できるという。

「人間にとって、これは常識的な推論であり、非常に簡単です。しかし、従来のコンピュータービジョンモデルでは、これは実際には非常に困難です」と趙天成氏は説明した。

下の写真のように、テーブルの上には山芋、オムレツ、枝豆、緑の野菜、コーヒー、オレンジが置いてあります。 AI に写真の中で最もビタミン C を多く含む食品を見つけさせます。

R1方式を使用してトレーニングされたAIモデルは、すぐにオレンジにロックオンし、その思考プロセスを添付しました。 「以前は、問題の解き方を教えずに答えを直接教えてくれたため、エラー率が高かった。例えば、10問中4、5問しか正解できなかったのに対し、R1方式で訓練された人は7、8問正解できた。」

さらに、機械学習の分野では非常に一般的な状況があります。タスク A を使用してモデルをトレーニングする場合、トレーニング ステップの数 (トレーニング モデルによって実行される反復回数) が増えるにつれて、A とそれほど類似していないタスク B でのパフォーマンスが低下します (図の赤い曲線)。 「それは、あるボタンを押すと別のボタンがポップアップ表示されるようなものです。」そのため、以前は複数のタスクを実行する場合、タスク間の比率を慎重に制御する必要がありました。」ただし、R1 メソッドを使用してトレーニングされた AI モデル (図の緑の曲線) ではこの傾向は見られません。これは、R1 メソッドによって、モデルが視覚コンテンツを単に記憶するのではなく、真に「学習」して理解できるようになることを意味します。

緑の曲線は R1 メソッドを使用してトレーニングされ、赤の曲線は従来の SFT メソッドを使用してトレーニングされます。

視覚言語モデルのトレーニング

新しいアイデア

「実験は春節休暇中に始まりました。幸いなことに、初期段階で多くの経験を積んでおり、多くの『インフラ』がすでに整っています。アイデアが浮かんだら、すぐに実験を行い、結果を検証することができます。」 10人からなるチームには、研究所の研究開発担当者と、趙天成氏が率いる博士課程の学生が含まれています。

2月15日、趙天成氏はVLM-R1の実験結果を海外のソーシャルプラットフォームで公開し、オープンソース化してGitHubにアップロードした。 2月22日現在、世界中の開発者から2.7kのスターを獲得しています。

さまざまな規模の質問が殺到しました。トレーニングにはどのくらいの時間がかかるのか、最小のビデオ メモリはどれくらいなのか、モデルの思考プロセスをもっと詳しく教えていただけますか...

「基礎となるロジックは同じですが、視覚、数学、コードはまったく異なる様式です。視覚領域でどのように設計し、それを機能させるか?チームは実際に多くの試行錯誤を経て、現在の比較的効果的な組み合わせを見つけました。」趙天成氏は、現在のバージョンはバージョン0.1としかみなせず、成熟には程遠いことを認めた。 「さらなる実験で答えを出す必要がある問題がいくつかあります。」

彼の意見では、この期間の実験の最大の重要性の 1 つは、マルチモーダル モデルのトレーニングと業界にいくつかの新しいアイデアを提供したことです。これは、R1 メソッドの汎用性を証明しており、「テキスト分野で優れたパフォーマンスを発揮するだけでなく、視覚言語モデルのトレーニングにおける新しいトレンドにつながる可能性もあります。」

「挑戦する勇気のあるリーダーになりましょう

それはトレンドの中で他人を追随することよりも重要なのです。」

Om AI Labの親会社であるLianhui Technologyは、かつてAlibabaとNetEaseの台頭の発祥地であり、インターネットとIoTの技術が私たちの日常生活に浸透した杭州濱江インターネット工業団地にあります。現在、人工知能が主役となり、当社は人工知能インテリジェントエージェントプラットフォームの応用と実装に取り​​組んでいます。

2月21日、趙天成氏が率いるOm AI Labは、上海で開催された2025 Global Developer Conference(GDC)で、R1強化学習に基づく視覚理解マルチモーダルモデルVLM-R1とオープンソースの大規模言語モデルインテリジェントエージェント評価プラットフォームOpen Agent Leaderboardを初公開しました。

趙天城(写真提供:陳忠秋)

趙天成氏は昨年8月、インタビューで、米国のカーネギーメロン大学(CMU)在学中に指導者から言われた「追随者ではなくリーダーになれ」という言葉を常に覚えていると語った。トレンドの最前線にいる他の人に従うことよりも、敢えて挑戦するリーダーになることの方がはるかに重要です。

(出典:チャオニュース)

<<:  国家郵政局:2023年1月から2月までの郵便業界の配達業務量は合計210億個で、前年比3.0%増加した。

>>:  神話の中の「非神話」を払拭せよ! 『哪吒2』のサメ将軍のフカヒレは本当に美味しいのか?

推薦する

掘り出された石は、鱗の付いた竜の爪のように見えます。それは本当にドラゴンの爪の化石ですか?

制作:中国科学普及協会著者: 地球の重力プロデューサー: 中国科学博覧会少し前、湖南省武岡市で道路建...

卵の中で最も汚いものは、あなたが食べるものかもしれません! (あなたが思っているものとは違います)

卵は栄養が豊富です。キッチンに欠かせない食材として、安価で品質が良く、栄養価も高いです。卵を買うとき...

5 人の学者が議論: 宇宙には終わりがあるか?

「宇宙には終わりがあるのだろうか?時間には長さがあるのだろうか…?」映画やテレビのセリフから生まれ...

母ペンギンはなぜ最初の卵を放棄するのでしょうか?

制作:中国科学普及協会著者: EVEE (北京大学生命科学学院)プロデューサー: 中国科学博覧会ペン...

牛肉のスクランブルエッグ、おいしい牛肉炒めの作り方

牛肉のレシピ、牛肉のスクランブルエッグは、フケの悩みを解消するのに役立ちます。頭皮の状態を改善するに...

制御の本質:自動車ステアリング技術の解釈

車の運転のしやすさを判断するには、「アクセル」と「ブレーキ」の連携に加え、ステアリングシステムがスコ...

年間34mm!私たちの国で一番高い木の下では、まだ運動が残っています...

チベット自治区メドック県林業草原局によると、北京大学主導の科学研究チームとの協力により、メドック県北...

砂糖ニンニクの漬け方

ニンニクは解毒に良い選択です。この種の食品を食べる良い方法もあります。ニンニクは料理の味を高めること...

間違った食べ方をすると命を落とす恐れのある食品11選

1. トマト毒素: 生物相 有毒部位: 茎と葉 トマトは非常に人気がありますが、実際には有毒です。果...

キムチとサツマイモの春雨と豚肉の細切りの作り方

キムチは誰もが大好きな食べ物です。キムチは美味しいだけでなく、栄養も豊富です。キムチを定期的に食べる...

BlackBerry QNXが自動運転の分野に参入、今回は本格的にアクセルを踏み込む

カナダのブラックベリーは、自動運転車の開発競争にひそかに参入し、自動車業界の軍拡競争で不可欠な存在と...

寿司飯の食べ方

寿司は日本では非常に有名な食べ物であり、日本人がほぼ毎日食べなければならないものです。寿司にはさまざ...

Remix OS ハードウェア カーニバルの裏側: モニターのアップグレードとゲーム コンソールの作成、どちらがより有望でしょうか?

サードパーティ製の Android カスタマイズ システムを主に推進しているメーカーが、ハードウェア...

陰謀論に出てくるクールな人たちは、いったい何をしたいのでしょうか?

Coolpad は強力な企業であり、China Cool Alliance という名前は単なる見せ...

私からの科学普及丨木に「パン」が本当に育つ!穀物と果物がひっそりと「融合」した?

科学的思想を広め、科学的精神を促進する2024年海南省科学普及説明コンテストが数日前に成功裏に終了し...