『トピックモデルによる統計的潜在意味解析』読書会を開催中です

はじめまして。データ分析部の越水です。

本日は、弊社セミナールームで定期開催している 『トピックモデルによる統計的潜在意味解析』読書会について ご紹介したいと思います。

『トピックモデルによる統計的潜在意味解析』について

トピックモデルとは、文書中の各単語およびそれらの単語が属するトピックが確率的に生成されていると仮定するモデルです。近年活発に研究が行われている分野であり、ニュースサイトでの記事の自動分類や、ユーザープロファイリングなど、多岐にわたる応用例があります。

ここでは、簡単にトピックモデルについて解説します。 まず、文書には潜在的なトピック(その文書のカテゴリ・話題のようなもの)があり、そのトピックから各単語が生成されていると想定します。その潜在的なトピックを、得られた文書集合に含まれる単語から推定することが主たる目的です。

例えば、いろいろなニュース記事のトピックについて考えてみます。あるニュースが「自民党は28日、総裁選挙を~」という内容で始まっていたとしましょう。我々人間は、一目見て「ああ、これは政治に関するニュースだな」ということがすぐにわかります。同様に、あるニュースが「サッカー日本代表のメンバーが発表され~」という内容で始まっていれば、スポーツに関するニュースであることがわかります。たとえそれが「スポーツ」カテゴリであることが隠されていたとしても、ニュースに含まれる単語を見ることにより、そのニュースがもつ潜在的なトピックを想像することが可能です。

topic_v2

トピックモデルを用いて大量の文書データから学習することで、人間がトピックを判断せずとも、それぞれの文書が持つトピックを自動的に推定することが可能となります。

『トピックモデルによる統計的潜在意味解析』(監修:奥村学, 著:佐藤一誠, 発行:コロナ社)は、今年3月に発行された、トピックモデルについて解説された書籍です。この本を読むことで、トピックモデルのみならず、ギブスサンプリングや変分ベイズ法などの関連する機械学習手法についても習得できるような内容になっています。統計学・機械学習に関する広範囲の知識が必要となるため、必ずしも実務で扱わなくとも、データ分析者にとってトピックモデルを学習する価値は大いにあるのではないかと思います。

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)
佐藤一誠
コロナ社
売り上げランキング: 47,477

どんな読書会なのか

topicstudy05第5回勉強会の模様です。

この読書会は、『トピックモデルによる統計的潜在意味解析』、通称「#トピ本」を、月2回のペースで読み進める会です。

読書会の形式は、各担当者に本の内容を発表していただき、その後質疑応答タイムで議論を行う、というスタンダードなものです。また、発表の後にはLTも行われ、本の内容に留まらない様々な発表をしていただいております。

これまでに5回の勉強会が行われ、第3章3.5節までの発表が終わりました。
ここでは、軽くこれまでの会を振り返ってみたいと思います。

第1回(2015/6/4) 範囲:第1章, 第2章

記念すべき第1回の範囲は、第1章「統計的潜在意味解析とは」・第2章「Latent Dirichlet Allocation」でした。

第1章の発表者は、私、越水が担当いたしました。

「潜在的意味」とはそもそもどういうものか、潜在意味解析の歴史から始まり、 本書で頻出するグラフィカルモデルの説明を行いました。

第2章前半の発表者は、@_kobacky さん。 Latent Dirichlet Allocation(LDA)の概要に加え、 LDAを理解するのに不可欠な確率分布である多項分布とDirichlet分布について、 わかりやすく解説していただきました。

第2章後半の発表者は、@aki_n1wa さん。 LDAではどのように単語が生成されるかを、わかりやすい図とともに説明していただきました。 また、LDAの応用例についても発表いただき、言語データに留まらない様々な応用例をご紹介いただきました。

第2回(2015/6/18) 範囲:第3章3.1, 3.2

第2回の範囲は、第3章3.1「統計的学習アルゴリズム」・第3章3.2「サンプリング近似法」でした。

第3章3.1は、弊社アナリストの中野が担当いたしました。 本書の最大の山場である第3章を乗り切るために、このあたりはしっかりとおさえておきたいところですね!

第3章3.2の発表者は、同じく弊社アナリストの青木が担当いたしました。 第1回の復習も兼ねて、グラフィカルモデルを使わずに数式から条件付き分布を導出しました。 次に、LDAで用いられる学習アルゴリズムとして、ギブスサンプリング・周辺化ギブスサンプリングについて解説しました。 だんだん難しくなってきました…!

第3回(2015/7/7) 範囲:第3章3.3前半

第3回の範囲は、第3章3.3「変分近似法」でした。 発表者は、@tn1031 さん。

ギブスサンプリングとは異なり、決定論的アルゴリズムである変分ベイズ法。この分野を説明した和書は少ないのですが、どういうアルゴリズムなのか、どういう性質なのかを詳しく解説していただきました。

第4回(2015/7/30) 範囲:第3章3.3後半, 3.4

第4回の範囲は、第3章3.3「変分近似法」後半・3.4「逐次ベイズ学習——変分近似法の場合——」でした。

第3章3.3後半の発表者は、越水が担当いたしました。 LDAにおいて変分ベイズ法をどのように適用するのか、また、周辺化変分ベイズ法(CVB)についても解説いたしました。

第3章3.4の発表者は、@MOTOGRILL さん。 これまでの学習アルゴリズムは一括(バッチ)学習と呼ばれ、データ全体に大して学習を繰り返す必要がありました。本発表では、データをひとつひとつ逐次(オンライン)学習する確率的変分ベイズ法についてご紹介いただきました。

第5回(2015/8/27) 範囲:第3章3.5

第5回の範囲は、第3章3.5「逐次ベイズ学習——サンプリング近似法の場合——」でした。

第3章3.5の発表者は、@y__uti さん。 前回の変分近似法と同様に、逐次学習をサンプリング近似法でどのように行うか、というのがテーマです。 周辺化ギブスサンプリングや粒子フィルタについて、わかりやすいイメージ図を用いて説明していただきました。 また、本文中で言及されている、サンプルの活性化についての論文もご紹介いただきました。

会場について

この勉強会の会場は、弊社オフィス内のセミナールームです。このセミナールームでは、他にも弊社開催の「データサイエンティスト養成講座」や、エンジニア向け勉強会「Java女子部JVM勉強会」が開催されておりますので、ご興味のある方はぜひご参加ください。

次回日程と範囲

次回は9月17日(木)を予定しております! 範囲は第4章4.1~4.3節『潜在意味空間における回帰と識別』ですので、皆様ぜひご参加くださいませ。 今後の勉強会の進め方ですが、本書の第3章はやや重い内容なので残りの節はスキップし、先に第4章・第5章を学習します。そして、最後に第3章の残りの節に挑む予定となっております。

参加者・発表者ともに大募集中ですので、ご興味のある方はぜひ下記URLからご応募ください!
第6回『トピックモデルによる統計的潜在意味解析』読書会 – connpass –

また、これまでの読書会の詳細や発表資料は下記URLから確認できますので、合わせてご覧ください。
『トピックモデルによる統計的潜在意味解析』読書会


koshimizu

データ分析部 koshimizuです。RとSQLを用いて業務に取り組んでおります。トピックモデル勉強会開催中です。→ http://topicmodel.connpass.com/