写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

写真を撮ればすべてがわかります。 AIはどうやって写真を「理解」するのでしょうか?

科学普及中国冬休み特別コラム「子どものためのハイテク授業」へようこそ!

今日の最先端の技術の一つである人工知能は、驚くべきスピードで私たちの生活を変えています。スマート音声アシスタントから自動運転車、AI ペインティングから機械学習まで、AI は私たちに無限の可能性に満ちた未来をもたらします。このコラムでは、ビデオとテキストを使用して、人工知能の原理、応用、そして社会への大きな影響を子供たちにわかりやすく説明します。

私たちと一緒に AI の旅を始めましょう!

以下はテキストバージョンです。

AI画像認識は私たちの生活のいたるところに存在しています。

見覚えのない植物を見つけましたか?写真を撮って数分で調べます。自動運転車はまるで目を持っているようで、道路がどこにあり、木がどこにあるのかを簡単に判断できます。顔認識技術により、顔をスキャンして支払うことも可能になりました。

これらすべては、畳み込みニューラル ネットワークという 1 つのテクノロジーから切り離すことはできません。この技術はAIの目のようなものです。

AI の目がどのように機能するかを理解するには、まず動物の目がどのように機能するかを調べる必要があります。

猫の目からAIの目へ:視覚ニューロンからのインスピレーション

1950年代から1960年代にかけて、デイヴィッド・ヒューベルとトルステン・ヴィーゼルは猫の視覚を研究し、猫の視野に絵が入った後、猫の脳内の視覚を司るニューロンがさまざまなものによって活性化されることを発見しました。

理解しやすくするために、例を見てみましょう。たとえば、このような画像では、一部のニューロンは画像内の物体のエッジラインに非常に興味を持ち、この情報の処理に集中しますが、一部のニューロンは大きな色のブロックに敏感で、この情報の処理が得意です。これらの神経細胞は協力して働き、生物がさまざまな複雑な画像を認識できるようにします。

エドガー・ドガ、田舎の競馬場で、1869年

この研究により、デイヴィッドとトルスタインは1981年のノーベル生理学・医学賞を受賞し、人工知能の分野で非常に重要なアルゴリズムである畳み込みニューラルネットワークにも影響を与えました。

1980年代に、日本の科学者福島邦彦は、日本語の手書き文字を認識するためにネオコグニトロンと呼ばれるモデルを設計しました。 Neocognitron にはさまざまな「レイヤー」があり、さまざまな情報を抽出し、最終的にこの情報を組み合わせて認識された文字を判断します。

これに触発されたヤン・ルカンというフランスの科学者が、最も初期の畳み込みニューラル ネットワークを設計し、畳み込みニューラル ネットワークに基づく LeNet モデルを確立しました。このモデルは当時、多くの銀行で手書き文字を認識するために使用されていました。簡単な例を通して、畳み込みニューラル ネットワークがどのように機能するかを見てみましょう。

畳み込みニューラルネットワーク: 画像認識の知られざる英雄

ニューラル ネットワークと比較すると、畳み込みニューラル ネットワークでは、画像を認識するときに畳み込みと集約という 2 つのプロセスが追加されます。

この畳み込みのプロセスは、畳み込みカーネルと呼ばれるものによって実行されます。

コンピュータの視点から見ると、画像は実際にはピクセルで構成されたマトリックスです。畳み込みカーネルは、各ピクセルの情報を個別に考慮するのではなく、3×3や5×5などの特定の領域のピクセル情報を同時に処理します。このようにして、隣接するピクセルの情報を総合的に考慮し、より高レベルの特徴をより適切に抽出することができます。

畳み込みカーネルは、特定の視野を持つ望遠鏡を通して写真を見て、見た情報を処理して記録する観察者のようなものだと想像できます。

さらに、異なる焦点を持つ観察者を設定して、画像からさまざまな次元の情報を引き出すことができます。たとえば、色情報の抽出に重点を置くオブザーバーもあれば、物体のエッジ輪郭情報の抽出に重点を置くオブザーバーもあり、特定の形状の情報の抽出に特化したオブザーバーもあります。最後に、この情報が統合され、ニューラル ネットワークがより良い判断を下せるようになります。

さらに、畳み込みニューラル ネットワークには、集約 (プーリングとも呼ばれます) というもう 1 つの重要なステップがあります。

画像は非常に大きなマトリックスであることが多く、集約によってある領域内の情報を 1 つの情報に圧縮することができます。 16×16 行列の場合、収束法を使用して 2×2 グリッド内の最も暗いグリッドの情報を取り出すことができれば、次のように 8×8 行列に変換できます。同じ収束をもう一度実行すると、8×8 行列を 4×4 行列に変換できます。収束後、画像には多少の変化が生じますが、画像全体の基本的な特徴は保持されます。

畳み込みと収束により、畳み込みニューラル ネットワークは画像情報を非常に適切に抽出できるようになり、画像の学習と処理の効率が大幅に向上します。

もちろん、畳み込みニューラル ネットワークもニューラル ネットワークと同じバックプロパゲーション アルゴリズムを使用し、既知の結果に基づいてニューラル ネットワーク内のパラメーターを継続的に調整して、より正確な判断を下します。

では、AI は一部の業界の生態系をどのように変えるのでしょうか?次の数回のエピソードで、これについて一緒に探っていきましょう。

企画・制作

この記事は科学普及中国創造育成プログラムの成果です

制作:中国科学技術協会科学普及部

制作|中国科学技術出版有限公司、北京中科星和文化メディア有限公司

著者: 北京雲宇基文化コミュニケーション株式会社

査読者: 秦増昌、北京航空航天大学オートメーション科学・電気工学部准教授

企画丨Fu Sijia

編集者:傅思佳

この記事の表紙画像と画像は著作権ライブラリから取得しています

転載は著作権紛争につながる可能性がある

<<:  注意深い!高速鉄道の車内の電源ソケットは携帯電話にとって本当に有害です。

>>:  ソファを移動させるときに廊下の角をどうやって通すか?これは60年以上も数学者を悩ませてきた問題です。

推薦する

黒ゴマを食べて胸を大きくする方法

女性にとって、豊胸は常に最も人気がある話題です。豊胸に最適な食べ物は何ですか?最も早く、最も効果的に...

緑豆は熱を和らげることができますか?

緑豆は一般的な豆類です。栄養価が非常に高く、定期的に緑豆を食べると健康維持に良い効果があります。緑豆...

エシャロットとコショウを使った焼きカニの作り方

カニはよく食卓に並ぶ食べ物です。カニはとても美味しく、お年寄りや子供でも食べられるので、あらゆる年齢...

緑茶の効能と副作用

緑茶は非常に一般的です。この種の飲み物は、あらゆる面で人体に非常に役立ちます。ただし、緑茶を選択する...

ポラックの煮込み

スケトウダラは私たちがよく食べる魚の一種です。一般的に魚介類にはタンパク質が豊富に含まれていますが、...

厳しい環境にさらされ、絶滅の危機に瀕しているこの木

カエデの木については、誰もがあまり馴染みがないかもしれません。この言葉に詳しい友人はそれを「qī t...

ロータスワインのレシピ

毎年夏になると、暑さで身体が不快に感じますが、蓮の花のように美しい景色を見ると、心が落ち着き、幸せな...

防災科学普及 - 地震の強さの図解

震度とは、ある地域の地盤やさまざまな建物が地震の影響を受ける度合いを指します。私の国では地震の強さを...

「金属の王」 - なぜほとんどの金属にこの名が付けられているのでしょうか?

金は、通貨や宝石などとして古くから使用されているほど貴重な人気の貴金属です。金は最も希少でも最も高価...

クリームアイスクリーム

アイスクリームは多くの人に愛されています。夏にアイスクリームを食べると、熱を和らげる効果があり、この...

朝晩に蜂蜜水を飲むのは良いことでしょうか?

蜂蜜水は純粋な天然の栄養水です。糖分とビタミンが豊富です。蜂蜜水を毎日飲むと、体脂肪の燃焼を促進し、...

マンボウの調理方法

マンボウは我が国原産ではなく、遠く北アメリカから来ています。マンボウは非常に小さく、一匹の体重は50...

ベーコンチーズロール

ベーコンチーズロールは、とても一般的な珍味です。この種の食べ物は、食べると人間の栄養を補うのにとても...

饒子和:生命を守るために「見えない敵」と戦う

お使いのブラウザはビデオタグをサポートしていません人生は素晴らしい交響曲であり、細胞は音符として各人...