カテゴリー

リサーチ

Steerable CNNs の紹介

この画像には alt 属性が指定されておらず、ファイル名は D4_exp-1024x957.png です
こんにちは、先進技術部の古川とプロダクト開発部の中井です。今回は、Steerable CNNs と呼ばれるネットワークの論文解説と Chainer による実装 のレポートを行います。なお、この記事は前任者の実装・レポートを元に、ブログ用に追記・編集したものです。

1. 概要

Steerable CNNs とは

Steerable CNNs は、Taco S. Cohen と Max Welling が提案した、入力画像の平行移動・回転・鏡映の作用を保つような CNNs (Convolutional Neural Networks、畳み込みニューラルネットワーク) です。 このアイディアを発表した論文 [CW17] はICLR 2017 で採択されました。以下のような特徴があります。
  • 高精度である。WideResNet をベースにしたネットワークが CIFAR-100 でエラー率 18.82\% と、当時の最高精度を出した。
  • 上記の精度は、水平反転と平行移動のみのデータオーグメンテーションで達成した。
  • 少ないパラメータ数である。ResNet50 が 2000 万程度、2019 年 5 月現在最高精度の AmoebaNetB は 5.5 億程度あるのに対し、WideResNet ベースのネットワークは 920 万ほどで済んでいる (ただし、その後 EfficientNet-B0 では 400 万程度のパラメータで transfer-learning を使って より低いエラー率を出すなど CNN 自体もさらに進歩しています)。
続きを読む Steerable CNNs の紹介

ニューラルネットワークによる三次元表現手法

図の一部をStanford Computer Graphics Laboratory より引用
はじめまして、2020年新卒で入社した プロジェクト推進部 の童です。今回は新卒研修の一環として取り組んだ、ニューラルネットワークによる三次元表現手法の技術調査について書かせて頂きます。三次元とニューラルネットワークというテーマに沿って比較的近年のトピックについて解説するつもりです。特にニューラルネットワークによる三次元表現について、陰関数表現をアイディアとしたIM-NETとDeepSDFについて解説します。また今回の内容と類似したテーマで、NeRFについて解説した記事がありますので、そちらも併せてご覧ください。 続きを読む ニューラルネットワークによる三次元表現手法

物理の力学系、特に解析力学を事前知識としたニューラルネットとその応用

こんにちは、プロジェクト推進部の久良です。 2020年3月に東京大学大学院の物理学研究科にて博士号を取得し、同4月に新卒としてALBERTに入社しました。この記事を執筆している現在は、新卒研修を終えて個別のタスクにアサインされているところです。 今回は物理学における力学系を事前知識として組み込んだニューラルネット (NN) をいくつか取り上げ、そのメリットやデメリット、考えられる応用先を紹介していきます。

なお、本記事の内容は新卒研修の「技術調査課題」で調査した結果であり、同課題において提出した報告書をベースとして執筆されたものです。

続きを読む 物理の力学系、特に解析力学を事前知識としたニューラルネットとその応用

深層学習を用いた数値シミュレーション

こんにちは。2020年に新卒としてALBERTに入社した、プロジェクト推進部の曾怡庭(チェン イーティン)です。今回で新卒研修の技術調査に関するブログは4件目になります。本稿では、「深層学習を用いた数値シミュレーション」について紹介していきたいと思います。私がこの課題を選んだのは、大学・大学院で環境科学を専攻し数値シミュレーションに触れ合う機会があり、最新の動向を知りたかったためです。

こうした深層学習と数値シミュレーションの融合はまだまだ新しいテーマです。この手法は、数値シミュレーションの解釈可能性と深層学習の汎用性を融合させるため、これから広く応用されることが期待されます。

続きを読む 深層学習を用いた数値シミュレーション

映像に自然な音をつける技術 ~用途と技術例~

アイキャッチ画像

はじめに

こんにちは、2020 年入社のプロダクト開発部に所属しております、渡邉です。このたび新卒研修の課題として「動画から自然な音をつける技術」というテーマで技術調査を行い、その結果をこのようにブログという形でアウトプットすることになりました。ここでは技術の詳細には立ち入らず、「この技術が現在どれぐらいの精度が出ており、現在あるいは将来的にどのような場面に応用できそうか」という点を中心に議論していきたいと考えています。どうぞよろしくお願いします。 続きを読む 映像に自然な音をつける技術 ~用途と技術例~

説明可能AIが社会から必要とされる理由、その研究動向・応用事例について

はじめに

こんにちは。2020年4月に新卒として入社した、データソリューション本部の森西です。新卒研修の技術調査課題で調査した結果についてブログを執筆します。 この課題では、設定された10個の技術的テーマからそれぞれ好きなテーマを選択し、4日間かけて調査した結果をまとめました 。私は、10のテーマの中で「Explainable AIに関する技術調査」を選択し、今回はそのまとめた内容について紹介します。

Explainable AIについて

まず初めに、Explainable AIについて説明します。Explainable AIとは、その言葉通り、予測結果や推定結果に至るプロセスが人間によって説明可能になっている機械学習モデル、あるいはそれに関する技術や研究分野のことを指します。(引用元:AI・機械学習の用語辞典 XAI(Explainable:説明可能なAI) /解釈可能性(interpretability)とは?[23])

昨今では、AI(機械学習)の技術発展に伴い、社会実装の期待が高まっています。 一方でそれらの技術に対して不安も増加しています。その背景として、AI(機械学習)の中身の技術が非常に複雑で「ブラックボックス」となっており、AI(機械学習)の予測結果や推定結果に対する説明が十分ではないことが理由として挙げられます。医療分野など、AI(機械学習)の予測結果や推定結果に理由を求める分野も存在し、説明可能なAI(機械学習)を求める社会的機運は高いと考えられます。

本ブログでは、Explainable AIについて社会的に求められるようになった背景、最近の研究動向、応用例、展望について述べていきます。

続きを読む 説明可能AIが社会から必要とされる理由、その研究動向・応用事例について

チャットボットは個性を獲得できるのか?

はじめに

こんにちは。プロダクト開発部の飯田です。

2020年に新卒として入社し、AIチャットボット「スグレス」をはじめとした、自然言語処理の研究開発に取り組む予定です。

スグレスはユーザーの要望に的確に回答できるチャットボットで、対話の内容はクライアント毎に調整します。

たとえば弊社のコーポレートサイトに設置されたスグレスでは、電話番号や所在地といった会社概要のほか、採用情報や事業内容に至るまで、弊社に関連する事項を幅広く回答します。

おすすめは弊社の扱う技術要素について尋ねることです。ディープラーニングやクラスター分析など、名前はよく聞くけれども複雑で難しい……という様々な手法について、大変わかりやすく教えてもらえるので、私も頻繁にスグレスの力を借りています。

そんなスグレスですが、その口調は一貫して事務的で丁寧です。現在は質問に対する回答を返すことを目的としたシステムなので問題はありませんが、より汎用的なAIチャットボットとしての進化を考えると、TPOに応じて口調を変えられると夢が広がるでしょう。

個人的に欲しいのは、メールやSNSの返事を代筆してくれる機能です。人間関係の距離感は難しいので、どれだけ丁寧にするか、くだけた口調にするか、私はよく迷うのですが、そうした判断をスグレスに助けてもらえれば心にゆとりが生まれます。

そこでチャットボットに個性を与える研究が実現できないか?と考え、まずは世界の最先端がどこにあるのかとサーベイを行いました。本記事ではその調査結果についてまとめます。

続きを読む チャットボットは個性を獲得できるのか?

FAQ 検索の精度改善の取り組みについての紹介

こんにちは。プロダクト開発部で弊社の AI・高性能チャットボット「スグレス」の開発および自然言語処理の R&D をしている中井です。

チャットボットとは、「チャット」と「ボット」を組み合わせた言葉で、人工知能 (AI) を組み込んだコンピューターが人間に代わって一定の会話を自動化する「自動会話プログラム」のことです。スグレスは人工知能 (AI) を搭載した高性能チャットボットサービスです。

スグレスには Frequently Asked Question (FAQ) 検索と呼ばれる、ユーザーが入力したメッセージ (以下、クエリと呼ぶ) から、適切な回答候補を推測する機能があります。

今回は、FAQ 検索の精度改善の取り組みについて紹介します。 続きを読む FAQ 検索の精度改善の取り組みについての紹介

動画認識手法の紹介とキャプション生成手法Masked Transformerについての解説

はじめに

こんにちは、プロジェクト推進部の水船です。前の記事でもご紹介した先進技術WGでは今、動画分析を重要テーマとして調査しています。今回は2018年に提案された手法で少し古いですが、Masked Transformer [1]という動画キャプション生成モデルについての解説をしていきます。またそれに関連して、動画認識のための諸手法についてもざっくりと紹介します。Masked TransformerのPyTorch実装も公開しているのでご覧ください。 続きを読む 動画認識手法の紹介とキャプション生成手法Masked Transformerについての解説

三次元空間のニューラルな表現とNeRF

はじめまして、先進技術部の山内です。入社4年目にしてついに技術ブログを書くことになりました。わたしが文章を書くとどうもペダンティックな文体になりがちなのですが、頑張って書いたので気に食わない表現には適宜目を塞ぎつつお付き合いいただければと思います。今回はニューラルネットワークによる三次元空間表現手法の紹介と NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[1] という論文の解説です。PyTorch による再現実装も公開しているのでご覧ください。 続きを読む 三次元空間のニューラルな表現とNeRF