夜風のMixedReality

xRと出会って変わった人生と出会った技術を書き残すためのGeekなHoloRangerの居場所

Azure MachineLearningを使用する その②回帰予測のチュートリアル データの整理

本日はAzure学習枠です。

今回はMicrosoft公式のチュートリアルドキュメントをさらいながらAzure Machine Learingを触ってみます。

今回はAzure MLのリソースを作成しAzure MachineLearning スタジオへアクセスできる状態から進めます。

redhologerbera.hatenablog.com

〇サンプルの車のデータから価格予測の回帰チュートリアル

今回はこちらのドキュメントにのっとって進めます。AzureはUIなどが定期的に大きく変わるようで、それが原因なのかチュートリアルでは画像がほとんどない文章が多いものでしたので今回読み解きながら進めていきます。

docs.microsoft.com

①Azure MLスタジオからデザイナーを起動します。

Sample datasetsからAutomobile price data(Raw)をドラッグアンドドロップでパイプラインに追加します。

Sample datasetsはその名の通りMicrosoftが提供しているサンプルのデータ集です。

今回使用するAutomobile price data(Raw)は自動車の価格データになります。

Automobile price data(Raw)を右クリックして[データの表示]を選択することでデータを見ることができます。

ここではPriceなど車と価格、そしてメーカーなどの情報が格納されていることがわかります。

このデータは一部がNaNとなっており取得できていないことがわかります。

 実際のデータ取得時も何らかの原因で一部のデータが取得できないことはよくあります。

 機械学習を行う際は欠損しているデータに対して何らかの処理を行いデータの平たん化を行う必要性があります。

Select Columns in Datasetsノードを配置して接続します。

 

Select Columns in Datasetsはデータ列の選択を行います。

 今回はデータの中でNormalized-lossesの列のデータがNaNで欠損が多いためこの列を除外します。

⑤条件を指定します。Select Columns in Datasetsを選択し[列の編集]から画像のようにすべての列を含みながらNormalized-lossesの列を排除するようにします。

この作業により条件が指定されたためSelect Columns in Datasetsのエラー表示が消えます。

これによってデータの欠損を列単位で排除できましたが、実際のデータでは列のごく一部など欠損がある場合があります。こちらを修正します。

Clean Missing Dataを追加し接続します。

Clean Missing Dataはデータの欠損を自動修正するコンポーネントです。

Clean Missing Dataを選択し、列の編集からすべての列を含むように設定します。

以上でデータの整理が完了します。 前述のとおり機械学習では使用するデータを整えることが重要な考え方になるようです。

Azure MachineLearningではこのデータの整理をスムーズに行うためのコンポーネントが提供されていることがわかりました。

次回機械学習のコンポーネントと今回整理したデータを接続して処理を行っていきます。