満足できるアノテーションはここが違った。ABEJAに頼んで見えた、精度と管理の「勘所」

会社名

ヤフー株式会社

事業内容

ポータルサイト「Yahoo! JAPAN」の運営など

インタビュイー

テクノロジーグループ
サイエンス統括本部・サイエンス2本部
山下 直晃 様(理学博士)

導入の背景

OCRのデータを増やしたい。でもクラウドは安全面や精度が...

山下)私が所属している部署では、社内の業務を効率化するための機械学習のモデルを開発しています。その一つが、画像に乗っている文字を認識する技術「OCR」(光学文字認識)とAIを活用した取り組みです。

サイトに載っている商品や広告の画像に含まれる文字とその意味を認識するAI-OCRモデルを作れば、広告の効果的な文字レイアウトを探ったり、画像広告の入稿の際のカテゴリー分類が自動化されて手間が省けます。このため、2017年後半からOCRを取り入れたモデルを作り始めていました。

自動化を実現するには膨大な学習データが必要です。ただ画像処理関連のアノテーション作業自体をこなせる人材は少なく、社内の作業だけでは、十分な量のデータを作るのは困難でした。

とはいえクラウドソーシングなどに外注しづらい事情もありました。発注の際に渡したデータがクラウド上で不特定多数から見られる可能性が高く、セキュリティの面で不安が残ります。

また、精度が高いデータが作れるスキルがあるのか確信が持てないという点も心配でした。値段が安くても精度の低いデータが入ってしまうと、かえってデータを整理する仕事が増えてしまいかねないからです。

こうした思いもあり、情報管理がしっかりしていて、かつ精度の高い教師データ作りができる業者を探していました。ただ、いくつかの業者に問い合わせをすると「その内容は難易度が高くて無理」と言われたり「データ作りはクラウドソーシングを通じて外の業者に出す」と言われたりする。なかなか私たちの求める水準に見合った業者に出会えませんでした。

同僚を通じてABEJAのアノテーションサービスを知ったのは、その頃です。それまでは画像処理やディープラーニングに関する製品を扱っている企業というイメージを抱いていましたが、アノテーションのサービスも手がけているのは知りませんでした。

2018年9月ごろ、ABEJAの担当者からアノテーションサービスの詳細について説明を受けました。アノテーションをするにあたり、私たちがどうしても必要だったテンプレートがありました。文字や画像の輪郭をなぞって座標情報を出す「ポリゴン」です。OCR用のデータづくりのなかで、広告や商品画像のレイアウトの位置情報を的確に把握させるには不可欠なツールでした。

ABEJAの担当者と話す中で、それまで懸念していた点はすべてクリアできること、そして私たちが希望していた「ポリゴン」のテンプレートも新たに用意します、と提案いただいたことからABEJAに発注することにしました。

実際の活用方法

経験豊かなアノテーターが、ニーズを的確にくみ取ってくれた

山下)発注したアノテーション作業は、画像の中に含まれている言葉を認識するための学習データづくりです。サイトの商品画像の中の文字情報を抜き出し、範囲を指定します。たとえて言うなら、折込チラシのキャプションを抜き出して範囲指定するイメージです。

本来なら、画像の中の1文字1文字をアノテーションで範囲指定した方が精度が上がりますが、その分手間がかかり単価も高くなります。文字をひとかたまりで範囲指定すれば、ある程度の費用に収まる。その点、費用を勘案しながら使いやすいものにしていくバランスの難しさがありました。

アノテーションをどう進めていくかを説明する手順書づくりにも注力しました。私たちのニーズにあったアノテーションをしてもらえるよう、細かなルールや定義をつくり、アノテーターが理解しやすい内容にする必要がありました。

その点助かったのは、ABEJAに経験の豊かなアノテーターがいて、手順書から私たちのニーズを的確にくみ取ってくれた点です。

本契約の前の試作の段階で、私たちが手順書でどういう指示を出すとどういう学習データができるのか、アノテーターからフィードバックをもらいました。フィードバックでの指摘を受け、次はこういう指示を出してみよう、と次の対策が立てやすくなりました。

2018年12月下旬に1,000点ほどの画像とともに発注すると、2週間ほどでアノテーションされた1,000点のデータが返ってきました。 試作の段階で私たちが指摘したところは本番では的確に反映され、クオリティは十分満たしていました。

自社でもAIモデルを作っているABEJAだからこそ、データづくりの「勘所」をきちんと押さえている。一連のやり取りを経て、そう思いました。

どの業者に発注するのかを選ぶにあたり、すでに取引したことのある社内の部署での評判は、発注の判断には欠かせません。私たちがABEJAと手がけたアノテーションの仕事ぶりや結果について、すでに他部署から問い合わせが来ています。

今後の展望

社内業務のさらなる効率化は、使い手を考慮した機械学習を

山下)先ほども話しましたが、私が所属している部署の任務の一つは、社内の業務を効率化することです。簡単ながらも数をこなすのが大変だったり、操作に人手がかかったりするような仕事を簡略化したり自動化したりできるような機能(コンポーネント)を機械学習で開発し、別の業務にも使い回せる汎用的なものになることを期待しています。

使い手のことを考慮せずに機械学習モデルを開発して終わり、ということは、開発現場ではしばしばあります。そうすると、せっかく作られたモデルが使いづらく、その結果あまり使われない、ということが起きます。

実際にどう使われるのかを考えながら、そのために必要な環境づくりを考えたり、運用コストを考慮したシンプルな機械学習モデルを設計・開発したりすることが必要だと考えています。

また、業務で効率よく使ってもらえるように、使い勝手を考えた設計、再学習用データを集める仕組みも作っていきたいと思っています。そのためには、再学習しやすく、使い勝手のいい機械学習モデルを開発し、使えば使うほど業務の改善につながるようなデータ集めの仕組みを進めていきたいと思っています。

写真撮影 = 川しま ゆうこ

Success Storiesの
詳細お問い合わせ

お気軽にご質問、ご相談ください。
内容確認後、担当からご連絡いたします。

PAGE TOP