2015年7月22日
ライフイベント・出来事ごとに
写真を自動分類する「AIラベリング」機能を
オンラインストレージサービス「マイポケット」に搭載
~孫や子供の運動会、家族で過ごした思い出の写真などの検索が簡単に~
NTT コミュニケーションズ(略称:NTT Com)は、オンラインストレージサービス「マイポケット」に保管している写真をより楽しく簡単に整理できるようにするため、AI(人工知能)が写真に写っている出来事が何かを判断して適切な分類を提示する「AIラベリング」機能を開発しました。2015年冬の本格提供を予定し、2015年7月22日よりトライアル提供を開始します。
本機能は、写真全体の情報を自動で解析し、「入学式」「七五三」「海水浴」といったライフイベント*1の中から、最も近しい候補をAIが提示して分類を助けるものです。
人や物といった被写体単位ではなく、写っているシーン全体をAIが解析する機能をオンラインストレージサービスに組み込んで提供するのは、他にはない試みです*2。
<「AIラベリング」機能のイメージ>
1.背景
高性能なカメラを搭載したスマートフォンの普及によって、写真を撮る機会が飛躍的に増えました。一方で、大量に撮りためた写真の中から大切な写真を見つけ出したり、分類したりすることが大変だという声が聞かれるようになっています。
「マイポケット」はこれまでにも、撮りためた写真を整理し、楽しむことができる機能として、撮影時間に基づくカレンダー形式での表示や位置情報に基づく地図上への表示のほか、個々人の識別や笑っている度合いの測定までできる顔認識機能、表情検索機能、自動生成のスライドショー再生機能(「フォトストーリー」機能)など、数々の機能を提供してきました。
今回新たにAIとビッグデータを活用した先進機能を加えることによって、撮りためた写真をさらに楽しんでいただくことができるようになります。
2.概要
「AIラベリング」機能は、写真に写っている個々の被写体(オブジェクト)を認識して解析をするのではなく、写真全体から得られる意味や文脈(コンテクスト)を解析するのが特徴です。これにより、「ランドセル」「花」「海」「こども」といった被写体単位の分類だけでなく、「入学式」「海水浴」「学芸会」など、一般に人々が写真を撮影することが多い「ライフイベント」に合わせたラベリングの自動提案が可能になります。
これは機械学習技術(Deep Learning)*3と呼ばれる技術を用いたもので、「AIラベリング」機能によって、写っている様子が「入学式」である、「七五三」であるといったことを判断するばかりでなく、判断するための“ルール”に関しても、「マイポケット」に写真を預けていくだけで自律的に判断の精度を高めていくことができる、きわめて先進的な機能です。
また、「マイポケット」クラウド上のビッグデータである大量の写真も解析に利用しているため、高い精度を誇ります*4。
さらに、ユーザーが自身で設定した固有のラベル(例えば、子どもが通う幼稚園の名前など)に対しても、AIが自律的に学習を繰り返し、以降写真を預けた際にそのラベルを付与するように成長していきます*5。
<Deep Learning技術による分析のイメージ>
3.トライアルの利用方法
2015年7月22日(水)以降、「マイポケット」Webサイトにアクセスすることで参加可能です。
「マイポケット」にログインした後、左メニュー下にある「トライアルに参加する」ボタンを押下することで、写真のプレビュー画面に「おすすめラベル」が表示されるようになります。
4.今後の展開
トライアル提供時は適切なラベルの候補を提案する機能となっていますが、2015年冬の本格提供時には、ラベル付与の自動化などを予定しています。
将来的には、本機能をより発展させることで、預けた写真をもとにユーザー本人も気づかない嗜好(好みの構図、好きな場所や色など)を学習し、ユーザーのお気に入りと思われる写真をピックアップする機能の実現などを検討しています。ユーザーのアクションに対してAIからのリアクションがあるような、インタラクティブなユーザー体験を目指していきます。
なお、この「AIラベリング」機能を「マイポケット」のAPIとして提供することを検討しており、他社とのパートナーリングによる新たなサービスの創出も目指しています。
さらに「マイポケット」サービスの枠を超え、Deep Learning技術を活用した画像解析をNTT Comのクラウドサービスに組み込んで、新ビジネスとして展開していくことも視野に入れています。
関連リンク
*1: 当初は、七五三/成人式/お正月/誕生日/海水浴/宴会/テニスなど46のライフイベントからスタート。
*2: 2015年7月現在、NTT Com調べ。
*3: Deep Neural Networkや、深層学習とも言う。人間の脳の神経回路構造を模倣し、ソフトウェアで再現した機械学習技術のこと。例えば画像の特徴量を認識させるために、人間による事前のルール設定を必要としない。自動で学習し、画像に写っているものが何か認識できるようになる点が従来の機械学習技術と一線を画しています。
*4: ライフイベントに分類する際の正答率は現在80%以上で、AIが学習を重ねるにつれて継続的に向上していきます。なお写真の解析は機械的に行われているものであり、人的に個々の写真を閲覧することはありません。
*5: ユーザー単位での学習を行うため、あるユーザー固有のラベリングを他のユーザーに提案することはありません。