生成AIの画像解析で点字の解析はできるのか？GPT-4o編

本日はAI枠です。

先日Copilotで点字の画像を投げて点字を訳そうとチャレンジしましたが、Copilotでは失敗しました。

本日ChatGPTを提供しているOpenAI社が新しいモデルとしてGPT-4oをリリースしました。

GPT-4oについての勉強も兼ねこちらで試していきます。

GPT-4oは最新のAIで、oとはomuniModelを意味します。 omuniとは複合を意味する言葉です。

その名の通りテキスト、資格、音声などのモデルを統合しています。

これによって音声を使用して人間と機械が自然に対話することができるようになっています。

感動するし凄すぎないこれ…
盲目の方がGPT-4oを使っていて街を歩く動画

字幕つけたから見てみんな… pic.twitter.com/1DingUcUa3
— woodstock.club | SNS型投資 (@woodstockclub) May 14, 2024

GPT-4でも画像解析が可能でしたが、それ以上の性能を発揮するようです。

上記ビデオではSeeingAIのように視覚的困難を抱える人がスマホをかざし状況を事細かに、そしてリアルタイムに情報を更新させ状況把握に役立たせています。

また、MicrosfotではAzure上に稼働するプレビューが試行可能になっています。

GPT-4oはChatGPT上で限定的にアクセスが可能です。

無料でも数時間に3つほど写真などの画像をアップロードが可能となっています。

筆者はGPTPluseではないので、無料枠でGPT-4oを使用しています。

まずはネット上で取得した点字の画像をアップロードして点字を認識できるかを試しました。

結果としては両方とも点字を認識することができました。

では点字のみをアップロードしました。

この場合は点字として認識はできているものの適当な訳が返されています。

次に缶に書かれている点字をアップロードしました。

この場合は缶の状況から推測してお酒と返しました。

これは正しい訳ですが、点字として返された文字を見ると間違えていることがわかります。

アップロードの制限により本日はここまでですが、少なくとも点字を点字として読もうとするが、間違えがある。周囲の状況から推測して答える。

ということがわかりました。

今回は日本語に絞っているため英語の点字を訳させるとまた違う結果が出る可能性もあります。

本日は以上です。

夜風のMixedReality