夜風のMixedReality

xRと出会って変わった人生と出会った技術を書き残すためのGeekなHoloRangerの居場所

Azure Computer Visionを理解する

本日はAzure学習枠です。

〇Azureとは?

 AzureはMicrosoft社によって開発、提供されているクラウドサービス群を指します。

 AzureではMicrosoftが世界各国に配置しているコンピュータとスマートフォンやPC、HoloLensといった端末を接続することでデバイス単体では処理できないことを実行、実現します。

MixedRealtyに特化したサービスとしてはAzure SpatialAnchorsやAzure RemoteRendering、AzureObjectAnchors等のサービスがありますが今回はMixedReality以外の現場でも多く使用されているAI系のサービスを学んでいきます。

〇Azure ComputerVisionとは?

Azure ComputerVisionはAzureで提供されるAI・・・人工知能系のサービスです。

ComputerVisionの名のままにコンピュータによる視覚情報処理を行うサービスです。

 これはカメラやすでに撮影されたビデオの映像、画像を用いてその画像、映像にどのような情報が含まれているかをあらかじめ機械学習しておくことで様々な活用を行うことができます。

〇Azure ComputerVisionの機能と分類

Azure Computer Visonで提供される主なサービスを見ていきます。例として挙げているものは一般的な使用例でAzureComputerVisonに限った使用例ではありません。’

・画像分類

 画像分類では与えられた画像が何に対しての画像であるかを推測します。

 例えばその画像が建物なのか動物に対しての画像なのか?それとも星に対しての画像なのかを分類します。

f:id:Holomoto-Sumire:20220205205515p:plain
画像はMicrosoftLearnより引用

活用例ではスマートフォンで撮影した写真から人物の写真だけをピックアップするなどがあります。

f:id:Holomoto-Sumire:20220205210122p:plain

 

・物体検出

 物体検出では与えられた画像のなかにどのようなオブジェクトが入っているかを検出します。

 これは類似の技術としてYoloなどが有名です。

  f:id:Holomoto-Sumire:20220205210240p:plain

・セマンティック セグメンテーション

 セマンティックとは「意味」、セグメンテーションは「区分け」を意味します。

 これはピクセル単位で画像を区域分けして画像内のオブジェクトを抽出する方法になります。

 このピクセル単位という点が特徴で、ほかの画像処理よりも正確にオブジェクトを抽出することができます。

 物体検出と異なる点は物体検出が画像内に存在するものを取り上げるのに対してセマンティックセグメンテーションはどこまでがどの物体であるかを認識、分類するといいう技術になります。

qiita.com

 

・画像解析

  画像解析は画像全体の状況を検出する処理です。

  人間は画像を一枚見るだけでその画像の状況を認識することができます。画像解析では画像のオブジェクトなどの情報をもとに画像の状況を解析することができます。

f:id:Holomoto-Sumire:20220205210500p:plain
画像はMicrosoftLearnより引用

  例えば前述のYoloの説明の画像の場合犬や車、自転車等から屋外であるということが判別できます。

  f:id:Holomoto-Sumire:20220205210328p:plain

 コンピュータ上で状況を解析することがこれに当たります。

・顔検出・解析・認識

 画像・映像から人の顔を検出する機能です。

 近年では防犯カメラの解析に用いられるほか、スマートフォンのカメラ撮影時や撮影した画像のアルバムを分ける際などにもこの技術が使用されています。

f:id:Holomoto-Sumire:20220205210545p:plain
画像はMicrosoftLearnより引用
 

・光文字認識

 OCR(Optical character recognition)とも呼ばれる技術で画像・映像ないから文字を認識する機能です。

 近年ではGoogle翻訳などで「カメラ入力」として知られています。

f:id:Holomoto-Sumire:20220205210620p:plain
画像はMicrosoftLearnより引用

〇ComputerVisionのデモ

MicrosoftではAzure ComputerVisionを理解するためのデモサイトが提供されてます。

aidemos.microsoft.com

デモサイトでは画像を選択することでその画像に対しての含まれる物体のタグ、画像全体の説明そして最後にその画像が過激であるか?そしてアダルトであるか?がパーセントとして抽出されます。

f:id:Holomoto-Sumire:20220205154027j:plain

この画像の場合[空]、[水]の要素が100パーセントで必ず入っていると断定し次いで90パーセントで[Lake(湖)]が検出されています。

筆者個人的には[Saw(海)]ではなく[Lake]なのかと疑問はありますが、そういう意味でも100パーセントではないことは信用できます。

全体の説明としては「水のある街並み」が信用度27パーセントとして出力されています。

 これらの情報をもとにこの画像が過激であるか?そしてアダルトであるか?の判定を行っています。ここでは当然ですがFalse(偽)と判定され過激でもアダルトでもないと判断されています。

 最後の判定はフィルタリングやSNS等での視聴者へ悪影響を及ぼすコンテンツの判断等に使用されます。

〇Seeing AI

Seeing AIはMicrosoft社がリリースしているスマートフォン向けアプリケーションです。

スマートフォンのカメラで撮影している画像、映像を用いてユーザーの状況を音声で説明するというもので、視覚的困難を持つ方々を想定してリリースされています。

www.microsoft.com

このアプリの処理にAzure ComputerVisionが使用されているようです。

今回はAzure のComputerVisionの概要を見ていきました。

今年はAzureも使っていけるようになるつもりですので次回は実際に使用していきたいと思います。

今回はMicrosoftの学習サイトMicrosoft Learnより次のドキュメントをもとに勉強していきました。

docs.microsoft.com