本日は引き続きSMPLモデルを理解するために、論文の著者であるマイケル氏自身が解説しているYoutubeビデオを読み解いていきます。
〇モーションキャプチャの歴史
前回、前々回までで1880年代に登場した連写装置、クロノフォトグラフィーの登場から1990年代初頭まではアルゴリズムや現代での3Dアニメーションの基礎となるKnematicTreeやねじれなどを考慮したジンバルロックを回避した方法などが登場しました。
90年代後半からいよいよ機械学習を使用したアプローチが登場しました。
〇機械学習の登場
1990年代後半には機械学習を用いたアプローチが登場しました。
マイケル氏によると最初の論文は96年ECCVで発表されたBaumberg とHoggによる『Learning Flexible Models from Image Sequences』でHoggは1982年にポイントライトの研究を行ったDavid Hoggです。
この論文では機械学習で様々な視点から歩いている人物のシルエットの輪郭を2Dとして抽出しました。
このアプローチの問題点としては結果がデータと一致しなかったことで、この理由としてモデルの形状がシンプルであることで複雑な人体とマッチしなかったとあげられています。
1990年代後半のこれまでに登場した代表的なアプローチのモデルは以下のようになっています。
どれも現在からするとシンプルであることがわかります。
人体の複雑な形状をシンプルな形状に落とし込んでいたためマッチさせることに 精度上の問題がありました。
〇ブレイクスルー 顔の3Dスキャンと2Dからの再構築
ブレイクスルーは顔から起こりました。
1999年にBlanzとVetterが発表した『a Morphable model for the syntesis of 3D face 』は人間の顔を3Dスキャンした大規模データセットを用いて新しい顔の形状とテクスチャを再現するためのパラメータを学習することができます。
つまり機械学習を用いて任意の顔を3Dで作成することができる技術です。
https://dl.acm.org/doi/10.1145/311535.311556
学習データに用いた顔のスキャンには次のようなセンサー自体は1989年には登場していました
これを顔の特徴に注目して学習させパラメータ化したという点が新しいアプローチです。
〇なぜ顔よりも体は難しいのか?
1999年に登場した技術からマイケル氏は体に反映させようと試行していたそうです。
ただ、体全体では600の筋肉、200の骨、200の関節という顔に比べはるかに多いパラメータが存在します。
これらが様々な自由度で呼吸などによって膨らんだり曲がったり、揺れたりします。
しかしながら前提としてマイケル氏の取り組みは見えない間接点を特徴点とするのではなく、実際に測定出来る表面に注目しています。
〇データの充実化
最初に全身の3Dスキャンを行ったのはCyberwareでした。
アメリカ軍は1999年ごろにCAESAR datasetとして北米およびヨーロッパの2000名を撮影し、データセットを作成しています。
これは2001年に発売されています。
このデータセットが革新的であったのは3Dデータとターゲットの年齢、体重などが1990年の米国国勢調査に基づいて取られていたことで、1990年以来のアメリカでは移民などによりより民族的ダイバーシティが生まれていました。
ワシントン大学にてBrian Curlessと当時学生であったBrett Allenが2003年に全身のスキャンをとる研究をしました。
この研究ではテンプレートとしてメッシュを作成し、すべてのデータが共通のトポロジー(メッシュ構造)を持つようにしました。
これはとても大変なことで、当時はすべてのデータセットに対して合わせることができませんでした。
しかし異なる体格のモデルの主成分分析という意味で非常に高い価値がありました。
つまり90年代後半から2000年前後で大量の3Dによるデータが登場し、それを使用して解析を行うアプローチが登場したということです。
これは現在の機械学習の基盤となるアプローチが登場したことを意味しています。
今回は2000年前後の取り組みを見ていきました。
そして2003年に次のブレイクスルーが起こったようです。
次回見ていきます。