コンピューターには視覚がありますか?コンピューターに世界を「見せる」

コンピューターには視覚がありますか?コンピューターに世界を「見せる」

1. ビジョンの誕生

地球上の生命は誕生以来数十億年の間、大きな変化を経験していません。彼らは原始的な海の底に「平らに横たわって」おり、自力で動くことも、狩りをしたり餌を探したりすることもできない。

進化が突然爆発的に進み始めたのは、およそ 5 億年前のことでした。その後の数千万年の間に、生命は多種多様な体の構造を模索し、今日のほぼすべての種類の生物を網羅するようになりました。彼らはまた、狩りをしたり、光を求めたり、危害を避けたりするなど、複雑な行動も持っていました。

カンブリア爆発による生命の出現には多くの理由があるが、重要な理由の一つは視覚の出現である。視覚は生物が環境に適応する能力を飛躍的に向上させ、最も重要な知覚機能となっています。

一見すると、私たちは常に目を使って物を見るので、視覚は目の機能のように思えます。しかし実際には、目は外界からの光情報を受動的に受け取ることしかできない単なる感覚器官です。この情報は、脳で理解される前に複雑な解読を経なければならず、それによって私たちは周囲で何が起こっているのか、どのように反応すべきなのかを知ることができます。したがって、脳は実際には最も重要な視覚器官です。

コンピュータにとって、「目」の機能をシミュレートすることは難しくなく、カメラなら簡単に行うことができます。しかし、視覚情報を脳の視覚領域のように真に理解するのは非常に困難です。

画像ソース: pixabay

私たち人間が幼い頃、人生で数匹の猫を見るだけで、猫の視覚的特徴を非常に明確に理解することができます。次に見知らぬ猫を見たとき、一目でそれが猫だとわかるでしょう。しかし、そのような特徴をコンピューターが理解できる形式に変換するのは困難です。たとえば、写真に写っている猫はすべて猫ですが、コンピュータにとっては類似点はありません。

そのため、従来の視覚アルゴリズムは、多数のルールを設定し、さまざまな画像の特徴を抽出しようとしますが、画像の内容を理解することができず、画像内の物体が猫なのか犬なのかを識別するなど、人間にとって簡単なことすらできませんでした。

2. ニューラルネットワークアルゴリズムの威力

画像を分類するアルゴリズムの精度を確認するため。 2010年、当時プリンストン大学で教鞭をとっていたコンピューター科学者のフェイフェイ・リー氏は、1,000以上のカテゴリを含む巨大な画像データセットであるImageNetをリリースしました。 2010 年には、最先端のアルゴリズムでも画像の約 72% しか正しく識別できませんでした。

しかし、ディープラーニングの登場によってすべてが変わりました。 2012年、トロント大学のジェフリー・ヒントンと彼の学生2人がニューラルネットワークAlexNetを発表しました。このネットワークはすぐに ImageNet に大きな進歩をもたらし、精度を 84% 以上に向上させました。

数年後、ヒントンはチューリング賞を受賞し、論文のもう一人の著者であるイリヤ・スツケヴァーはOpenAIの創設チームのメンバーになったが、それはまた別の話だ。

ニューラルネットワークはどのようにして画像を認識するのでしょうか?簡単な例を見てみましょう。 28×28 の画像上の手書きの数字を認識したいとします。画像内のピクセルを 784 個の数字のシーケンスに引き伸ばすことができます。次に、このシーケンスをニューラル ネットワークへの入力として渡すことができます。ニューラル ネットワークの出力には 10 個のニューロンが含まれ、各ニューロンの出力値は数値を表します。

最初は画像データを入力した後、出力結果はランダムになります。しかし、このニューラル ネットワークを大量のトレーニング データでトレーニングし、正しい結果に応じてネットワークのパラメーターを変更させ、継続的にフィードバックを提供すると、ニューラル ネットワークは徐々に数字を正しく認識する方法を学習します。

しかし、この単純なニューラル ネットワークには問題があります。

3. 新たな問題の出現

最初の問題は、パラメータがたくさんあることです。入力と出力に加えて中間層として 100 個のニューロンのみを使用する場合、接続は 784*100+100*10 = 79400 個になります。ただし、処理する必要がある画像は 28 x 28 ピクセルよりもはるかに大きいことが多く、その結果、モデル内のパラメーターが多すぎてトレーニングが困難になります。 2 番目の問題は、この方法では元の画像内のピクセルの分布が乱れ、人間の画像表示パターンと一致しなくなることです。

これら2つの問題をどのように解決すればよいでしょうか?研究者たちは2つの特性を観察しました。

まず、画像内のオブジェクトを識別するには、必ずしも画像内のすべてのピクセルをスキャンする必要はなく、画像の重要な領域に重要な特徴が現れるかどうかを見つけるだけで済みます。たとえば、白黒の皮膚の一部を見れば、その写真の動物がシマウマであると直接判断できるかもしれません。

第二に、画像内でのこの機能の位置は重要ではありません。写真のどこに猫が写っていても、それは猫です。

そのため、研究者たちはピクセルをシャッフルする代わりに、小さな窓に似たツールを使って画像上をスライドし、画像のさまざまな場所の局所的な特徴を捉えました。これらの小さなウィンドウは、一連のパラメータを使用して画像全体をスライドできるため、パラメータの数を減らしながら、画像のさまざまな領域をキャプチャできます。このような「小さなウィンドウ」を使用するニューラル ネットワークは、畳み込みニューラル ネットワークとも呼ばれます。 AlexNet は実際には単純な畳み込みニューラル ネットワークです。

その後、ニューラル ネットワーク技術は継続的に最適化され、ニューロンとネットワーク層の数は増加し続け、パフォーマンスは向上し続けました。数年後、ImageNet の精度は 97% を超え、少なくともこのデータセットにおける人間のレベルに近づきました。

ただし、画像分類に加えて、コンピューター ビジョンには他にも多くのタスクがあります。画像分類よりもさらに難しいのは物体認識です。オブジェクト認識タスクでは、画像内のオブジェクトを識別するだけでなく、オブジェクトの位置をマークすることも必要です。場合によっては、画像に複数の種類のオブジェクトが含まれることがあります。

自動運転システムは他の車、歩行者、信号、標識など、さまざまな種類の物体を認識できる必要があるため、物体認識は自動運転で広く使用されています。

さらに、さまざまな「モダリティ」からのデータを理解し、それらを組み合わせるためのモデルも必要です。たとえば、テキストと画像を組み合わせたモデルは、テキストに基づいて画像を生成できます。

既存の画像を処理するだけでなく、マシンで新しい画像やビデオを生成することも望んでいます。現在、OpenAI、Google、Baiduなどの機関はすでに比較的成熟した画像生成ツールを持っていますが、ビデオ生成技術はまだ比較的原始的で、改善の余地がたくさんあります。

コンピューター ビジョンの分野におけるもう 1 つの未解決の問題は、GPT-4 や chatGPT のような汎用ビジョン モデルを開発できるかどうかです。結局のところ、視覚的な理解は知能の不可欠な部分であり、視覚能力を欠いた大規模な言語モデルは、それが完全な知能を体現しているとすべての人を納得させることはできません。

この記事は、中国科学普及-星空プロジェクト(創造と栽培)によって作成されました。転載の際は出典を明記してください。

著者: 関新宇 科学人気作家

査読者: Yu Yang、Tencent Xuanwu Lab 所長

<<:  あなたのトイレは腐った卵のような臭いがしますか?気をつけて!

>>:  Kh-BDがデビュー、ロシア爆撃機の「第二の春」が来るのか?

推薦する

人工知能は実際のデータセットを「放棄」するのか?

現在、人工知能技術は、顔認識、音声認識、仮想デジタルヒューマンなど、私たちの日常生活のあらゆる側面に...

食欲を増進させる5つの夏のレシピ

夏は、暑い気候のためイライラするだけでなく、食欲も減退してしまいます。美味しい食べ物を前にしても、食...

壊滅的な転換点が近づく中、人類はどう対応すべきでしょうか?

壊滅的な気候変動の悪循環が15年以内に始まる可能性があり、地球の生態系はこれまで考えられていたよりも...

ロングインゲン豆の調理方法

野菜であるササゲの主な成熟期は夏です。夏の高温によりササゲの成長が促進され、栄養素の合成が促進される...

なぜ夏は冬よりも日が長いのでしょうか?

なぜ夏は冬よりも日が長いのでしょうか?地球の軸はわずかに傾いているため、これが一日の長さを決定する主...

妊婦は小豆スープを飲んでも大丈夫ですか?

妊婦は、人々の中で最も注目される存在です。同時に、誰もが食事に非常に気を配っています。妊娠中に何か悪...

おいしいカペリンの調理方法

現代社会では、ほぼすべての人が魚を食べており、この珍味はほとんどすべての家庭の食卓に並んでいます。さ...

ラズベリーフルーツケーキの作り方

誰もがケーキを見たり食べたりしたことがあると思います。ケーキを作る方法はたくさんあります。最もおいし...

春のたけのこのベーコン煮

春の竹の子は一般的な食用ハーブで、実際には竹の若い芽です。竹はジャイアントパンダの大好物であり、その...

空気清浄機は過渡期の製品に過ぎない:風が強くても豚は飛べないかもしれない

最近、株式市場は活況を呈しており、ハイテク株が急騰し、スモッグの天敵である空気清浄機メーカーも注目を...

魚をくっつかずに揚げる方法

魚は栄養価が高く、味も美味しいので、魚をたくさん食べることは私たちの体にとても良いです。そのため、多...

糖尿病患者はリブを食べることができますか?

現代人にとって糖尿病は珍しい病気ではありません。糖尿病とは、人体の血糖濃度が正常値よりも高くなる異常...

高性能タブレットが瞬時にサーマルイメージャーに変身

通常、製品を評価する際には放熱テストを行いますが、放熱テストでは通常、サーマルイメージャーが使用され...

大根の調理方法

日常生活では、大根は主に多くの薬効といくつかの栄養価を持つ根菜です。日常生活における大根は料理を作る...

1月から5月にかけて、自動車産業全体の運営は安定しており、新エネルギー車は急速な成長を維持した。

中国自動車工業協会は6月11日、北京で記者会見を開き、自動車業界の経済運営について報告した。統計によ...