夜風のMixedReality

xRと出会って変わった人生と出会った技術を書き残すためのGeekなHoloRangerの居場所

生成AIの画像解析で点字の解析はできるのか?GPT-4o編

本日はAI枠です。

先日Copilotで点字の画像を投げて点字を訳そうとチャレンジしましたが、Copilotでは失敗しました。

redhologerbera.hatenablog.com

本日ChatGPTを提供しているOpenAI社が新しいモデルとしてGPT-4oをリリースしました。

GPT-4oについての勉強も兼ねこちらで試していきます。

〇GPT-4oとは?

GPT-4oは最新のAIで、oとはomuniModelを意味します。 omuniとは複合を意味する言葉です。

その名の通りテキスト、資格、音声などのモデルを統合しています。

これによって音声を使用して人間と機械が自然に対話することができるようになっています。

GPT-4でも画像解析が可能でしたが、それ以上の性能を発揮するようです。

上記ビデオではSeeingAIのように視覚的困難を抱える人がスマホをかざし状況を事細かに、そしてリアルタイムに情報を更新させ状況把握に役立たせています。

https://openai.com/index/hello-gpt-4o/

また、MicrosfotではAzure上に稼働するプレビューが試行可能になっています。

news.microsoft.com

〇GPT-4oで点字の解析を行わせる

GPT-4oはChatGPT上で限定的にアクセスが可能です。

無料でも数時間に3つほど写真などの画像をアップロードが可能となっています。

筆者はGPTPluseではないので、無料枠でGPT-4oを使用しています。

まずはネット上で取得した点字の画像をアップロードして点字を認識できるかを試しました。

結果としては両方とも点字を認識することができました。

では点字のみをアップロードしました。

この場合は点字として認識はできているものの適当な訳が返されています。

次に缶に書かれている点字をアップロードしました。

この場合は缶の状況から推測してお酒と返しました。

これは正しい訳ですが、点字として返された文字を見ると間違えていることがわかります。

アップロードの制限により本日はここまでですが、少なくとも点字点字として読もうとするが、間違えがある。 周囲の状況から推測して答える。

ということがわかりました。

今回は日本語に絞っているため英語の点字を訳させるとまた違う結果が出る可能性もあります。

本日は以上です。