野島

ストラテジックアライアンス部所属のデータアナリストです。大学では数学を専攻していました。趣味は、ピアノとハイキングです。

野島の記事一覧

QT-Optの紹介とオフライン経験データに関する実験

はじめに

こんにちは、ストラテジックアライアンス部データアナリストの野島です。

今回は、Kalashnikov et al. の論文「QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation」 [1]について紹介します。この論文では、深層強化学習手法QT-Optを提案し、ロボットアームの把持で96%という高い把持成功率を達成しています。同じ問題を扱った先行研究Levine et. al. [2] の手法では把持成功率は78%となっており、20%近く成功率が向上しています。また、QT-Optでは、過去の経験データ(オフライン経験データ)を用いた学習により、Levine et. al. の手法と比較して、より少ない把持試行によるデータで成功率を向上させています。

最初にロボットへの期待と強化学習について概観したのち、QT-Optの論文、そして関連して行ったオフライン経験データに関する実験についても紹介していきます。 続きを読む QT-Optの紹介とオフライン経験データに関する実験