佐藤奏

さとう・そう システムソリューション部所属。修士(文学)→なぜかソフトウェアエンジニアに。データ分析ロジックのシステム化などを担当しています。休日はオーケストラでトロンボーンを吹いています。

佐藤奏の記事一覧

AWS Data Pipeline の 稀によくあるQ&A

システムソリューション部の佐藤奏です。

業務でAWS Data Pipelineを結構ヘビーに使ったので、調べにくいところやハマりどころをQ&A形式でご紹介します。

サービスの概要について少しだけコメントします。その後はひたすら細かい話になります。なお、以下はもっぱらリソースとしてEC2を使う場合の記述です(EC2の他に、EMRクラスタを起動することもできますが、筆者は使ったことがありません)。

続きを読む AWS Data Pipeline の 稀によくあるQ&A

Apache Spark を使ったシステム構築のための Tips

システムソリューション部の佐藤奏です。

並列分散処理フレームワークApache Sparkがホットな昨今。サンプルコードや活用事例もいろいろと公開されていますが、では実際にSparkを利用してシステムを構築しようとするとき、どのような考慮が必要なのでしょうか。

今回は「SparkとAWS EMRを使ったシステム構築」を念頭に、開発の初期段階――技術選定や開発スケジュール検討、外部設計、プロトタイプ作成・評価――において有用な情報や開発の進め方のポイントをいろいろとご紹介してみようと思います。結構、地味な話が多いですがお付き合いください。

本記事執筆時点でのSparkの最新バージョン1.6.1をベースとした記述です。

続きを読む Apache Spark を使ったシステム構築のための Tips