
はじめに
こんにちは、2020 年入社のプロダクト開発部に所属しております、渡邉です。このたび新卒研修の課題として「動画から自然な音をつける技術」というテーマで技術調査を行い、その結果をこのようにブログという形でアウトプットすることになりました。ここでは技術の詳細には立ち入らず、「この技術が現在どれぐらいの精度が出ており、現在あるいは将来的にどのような場面に応用できそうか」という点を中心に議論していきたいと考えています。どうぞよろしくお願いします。“映像に音をつける”とは

- ある音のない映像が与えられた際に、なんらかのプロセスを通して与えられた映像と調和する音を付与すること。
なぜ映像に音をつけるのか
映像に音をつける技術と聞いて私が一番気になったのは、「どうしてわざわざ映像に音をつける必要があるのか」ということでした。チャップリンの映画などを代表とする 100 年以上前に撮影されたような映像を除いて、大半の映像には音がついていることが一般的かと思います。ましてやこの 21 世紀、もうすぐ 5G 通信網がサービスインしようとしているなかで音のない映像を利用しなければならない理由とはなんなのか。そして、その映像へ音を後づけするとどんなメリットがあるのか。とても気になりました。そこで少し調査を行うと、映像に音をつける技術が有用である候補として大きく 2 種類の利用者が浮かび上がってきました。その 2 種類の利用者というのが、
- コンテンツ製作者
- 視覚障がい者
コンテンツ制作の場合
まず映像や Virtual Reality (VR) などのコンテンツ製作者の現場に注目します。結論から申しますとコンテンツ制作の場合において、課題と解決策は以下になります。- 課題:編集作業にかかる時間の増加と求められる質の向上
- 解決策:音の候補を提示することで制作工程を削減し、編集作業に集中させる

- 撮影
- 編集

映像コンテンツの良し悪しは音と映像の調和度と高い相関がある[1] 1. 岩宮眞一郎:”「音」 がないと映像はつまらん!”, 日本人間工学会大会講演集 日本人間工学会第 50 回記念大会. 一般社団法人 日本人間工学会, pp. 110-111, 2009.と発言しており、これによると製作者に期待される音の質は、その映像の質とともに向上するため、製作者への負担増加を更に後押ししていると推察されます。また音に限った話ではありませんが、動画投稿サイトYouTubeへ動画投稿を行っている YouTuber のひとりである HIKAKIN さんは、2018 年 3 月 19 日放送の「プロフェッショナル 仕事の流儀」(NHK)にて
7分の動画を完成させるため、編集作業に6時間かけている 2018年3月19日放送の「プロフェッショナル 仕事の流儀」(NHK)と発言しており、個人レベルにおいても編集作業の負担の大きさがうかがい知れます。

図4では音を付与するために必要な工程として、YouTube: ハリウッド映画特殊効果音の作り方を大公開!を参考にして
- 音がなる物を探す
- それを使った録音
- 編集
- 編集
視覚障がい者の場合
次に視覚障がい者の場合について考えていきます。結論から申しますと、この場合における課題と解決策は以下が挙げられます。- 課題:他の感覚で代用するための訓練が必要
- 解決策:訓練の必要がなく、かつ自然な音を提示し、ストレスのない生活を実現する


しかし一方で、変換された音は目立つためにあえてあまり快適とは言えないような「グワングワングワン」というようなゲームの効果音のような音になっています。(2020 年 4 月初旬時点では YouTube にデモ動画があり、音を聞くことができたのですが、現在は限定公開に設定されているようです。) このような音は障害物などに接近しており、危機に瀕する際には有効だと思いますが、普段からこのような音を聞いて生活を行うことはあまり現実的ではないと推測されます。 そこで私はこのような音を、その機能を保ちつつ、少しでも人間にとって心地よい音に変えられると良いのではないかと考えています。そのもっとも類似した例として、電車の発車メロディが挙げられます。これは
発車メロディには、乗車を促し、注意を喚起するだけではなく、心地よさを演出するという役割も求められるという見方に基づいて設計されているそうです。 私はこの目標を達成するための第一段階として、まずは映像から自然な音を付与する技術が必要だと感じています。
ITmediaビジネスONLiNE 近距離交通特集:向谷実氏が考える鉄道と音楽(前編)――発車メロディ3つのオキテ (1/3)
映像に音をつける技術
ここまでで、映像に自然な音をつける技術の需要と用途を説明しました。そこでここからは、実際に映像に音をつける技術について少し掘り下げていきます。今回の調査で発見した文献で提案されている技術を表1に箇条書きでまとめました。それらの技術は大きく音を生成する技術と音を検索する技術に分けられます。表1. 映像に音をつける技術例
技術例 | 音への変換方法 | 考えられる応用場面 |
いくつかのシーンにおける”自然な音”を生成[2] | 生成 | – 映像・VRコンテンツ製作者のための音源制作支援 – 視覚障がい者のための周辺環境把握支援 |
人が積極的に鳴らしたときの”音”を生成[3] | 生成 | – 映像・VRコンテンツ製作者 |
人が話している映像から”音声”を生成[4] | 生成 | – 視覚障がい者のための会話支援 |
映像から関連する”音楽”を検索[5] | 検索 | – 映像・VRコンテンツ製作者のための音源制作支援 |
映像から自然な音を”生成する”技術
まずはこの技術の紹介ビデオを見て頂けると何をしているのかが、わかりやすいと思います。ビデオはまず Visual to Sound というタスクの説明から始まります。次に映像は同じで音が異なる 2 つのビデオ流し、どちらが生成された音なのかを尋ねるクイズ形式になっています。最後に失敗例をいくつか紹介して終了という流れです。ちなみに私が一番好きな失敗例は、最後のドラムを叩いているのにお鍋の蓋を叩いたときのような音が流れてしまった例です。このように映像から音を生成することができるようです。次にこの技術の入出力構造について簡単に見ていきます。入出力構造

オプティカルフロー
オプティカルフローに関する説明を行っているWebページを引用するとオプティカルフローとは物体やカメラの移動によって生じる隣接フレーム間の物体の動きの見え方のパターンですと説明されています。ざっくりいうと「映像内における画素の動く方向と量を表すもの」と考えて良さそうです。
鳥取大学 小山田研究室 > OpenCV-Python Tutorials 1 documentation > OpenCV-Python チュートリアル > 動画解析 > オプティカルフロー(Optical Flow)

出力する音の妥当性
最後に論文内で報告されている音の評価について言及します。評価方法は「ひとつずつ動画を人間に見せ、作られた音なのかどうかを2択で判断してもらう」というものです。評価尺度は「作られた音を本物と判断した割合」です。ここでは、オプティカルフローを入れた場合の DNN での評価値と、オプティカルフローを入れない場合の DNN での評価値を、それぞれ表2に示します。表2. 映像から音を生成する技術の評価結果

表2上段をみると、それぞれのカテゴリにおいて学習・評価を行った DNN はオプティカルフローを導入する場合「特定の 1 カテゴリにおいて 73.36 % で人間を騙せるほどのクオリティの音を生成できた」ということになります。
一方で、オプティカルフローを導入しない場合は 72.63 % と報告されています。オプティカルフローの有無であまり変化がないように見受けられますが、Drum カテゴリのみの結果に着目すると、オプティカルフローありでは 70.83 % 、なしでは 64.58 % となっており、音のタイミングがシビアなカテゴリにおいて特に良い結果をもたらしているようです。
しかし私個人的には、この実験設定はあまり実用的ではないと考えています。なぜならば、将来的にあらゆるカテゴリの音を生成できるような DNN を構築するとなれば、この実験設定のままでは、そのすべてのカテゴリの数だけの DNN が必要となるからです。その上、どの DNN に映像を入力するかを別途判断する必要があります。 一方表2下段では1つのDNNで全 10 カテゴリを学習・評価した場合の評価値を示しています。この値は提案論文の 5.5 節 Additional experimentsのなかで言及されており、「特定の 10 カテゴリにおいて 46.29 % で人間を騙せるほどのクオリティの音を生成できた」ということになります。紹介ビデオでの結果を聞く限りは少なくとも明らかに理解不能な音ではなかったため、私の直感とも一致する評価結果であると感じました。
しかし「本物の音のうち本物だと判断された割合が 91.43 %」であることも論文内では報告されており、まだまだ本物の音には遠いのかもしれません。また論文が対象としたデータセットに含まれている音のカテゴリはどれも特徴的であり、生活音の中では大きな音の部類に入るものを対象としているようにも感じます。このため、より音のカテゴリを増やすと、この評価指標値は下がってしまうと考えられます。
これらを鑑みると現状では
- 視覚障がい者支援などの音の忠実さが求められる用途には不向き
- コンテンツ制作支援などの人間による補正が可能な用途には、カテゴリを絞ることで利用は可能
まとめ
映像に自然な音をつける技術に関して、前半ではその必要性を、後半では現在存在する実際の技術例を紹介させて頂きました。より詳しく述べると、この技術を必要としている方は VR や映像制作などに関わられているコンテンツ制作者や、周囲の環境を視覚以外から把握する訓練に苦労している視覚障がい者でありました。その中で現在存在する技術として DNN とオプティカルフローを組み合わせた方法が提案されており、一定の能力を持ちつつも、あらゆる映像から正確な音を再現するまでには至っていない状況であることを説明しました。このため現在応用可能な領域は、コンテンツ制作支援などの忠実さがあまり求められない用途に限るのではないかと考えています。これを箇条書きにまとめたものを以下に示します。- 考えられる用途
- コンテンツ制作支援(Virtual Reality: VR、映像制作など)
- 視覚障がい者支援
- 技術の現状
- DNN とオプティカルフローを組み合わせた方法が提案されている
- 現状コンテンツ制作支援などの忠実さがあまり求められない用途には応用できる可能性がある
感想
ALBERT に入社しておよそ 3 ヶ月が過ぎました。リモートでの研修ということではじめは不安ではありましたが、徐々にそのような環境にも慣れていき、現在もリモートでこのブログを書いています。研修ではデータ分析に必要な Linux, Python の基本、機械学習や統計を用いた分析手法を満遍なく教わりました。私はプロダクト開発部所属ですが、データサイエンティストとして一通りの分析の流れを体験した非常に貴重な機会でした。 同時にデータサイエンティストが抱える課題も研修の中で少し垣間見れたと思っています。例えばデータサイエンティストは基本的に Jupyter Notebook を使って分析コードを書き、その結果をグラフや文章として残します。一方で分析作業は非常に多くの試行錯誤の繰り返しです。そのため、その中で書かれたコードというのは、私も含めてですが、たとえ分析者が意識していたとしても自然と読みづらいコードとなってしまうことが少なくないようです。プロダクト開発部では、そのような課題を解決できるようなお手伝いができればと考えております。ALBERT では、データサイエンティストを募集しています。ぜひ採用ページをご覧ください。
参考文献
- 岩宮眞一郎:”「音」 がないと映像はつまらん!”, 日本人間工学会大会講演集 日本人間工学会第 50 回記念大会. 一般社団法人 日本人間工学会, pp. 110-111, 2009.
- Yipin Zhou, Zhaowen Wang, Chen Fang, Trung Bui, and Tamara L. Berg. “Visual to sound: Generating natural sound for videos in the wild.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
- Andrew Owens, Phillip Isola, Josh McDermott, Antonio Torralba, Edward H. Adelson, William T. Freeman. “Visually indicated sounds”, Proceedings of the IEEE conference on CVPR, pp. 2405-2413, 2016.
- Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja Pantic. “Video-Driven Speech Reconstruction using Generative Adversarial Networks”, arXiv preprint arXiv:1906.06301, 2019.
- Sungeun Hong, Woobin Im, Hyun S. Yang. “Content-Based Video-Music Retrieval Using Soft Intra-Modal Structure Constraint”, arXiv preprint arXiv:1704.06761, 2017.
- Soroush Mehri, Kundan Kumar, Ishaan Gulrajani, Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron Courville, Yoshua Bengio. “SampleRNN: An unconditional end-to-end neural audio generation model.”, arXiv preprint arXiv:1612.07837, 2016.