「HubSpot の CRM データと Snowflake の売上データを合わせて分析したい」「Google Sheets の予算表と商談パイプラインを突き合わせたい」——これまではエンジニアが ETL パイプラインを書くか、CSV を手動でマージするしか方法がなかった。Data Studio はスプレッドシート感覚のノーコード UI で複数データソースのブレンド・変換・計算式の適用・データセットの構築を実現する。本章では Data Studio の全体像・データソース接続・変換とブレンド・AIによる数式提案・ユースケース別のパイプライン設計を解説する。
Data Studio(データスタジオ)は HubSpot Data Hub に2025年追加されたノーコードのデータ統合・変換プラットフォームだ。複数の外部データソース(Snowflake・BigQuery・AWS S3・Google Sheets・CSV ファイル)と HubSpot CRM データをスプレッドシートのような UI で結合・変換し、HubSpot 内で使えるデータセット(Dataset)として公開する機能を持つ。
「HubSpot CRM のデータと、もう1〜2個の外部データソースを結合して、結果を HubSpot のレポートや自動化に使いたい」——このニーズに Data Studio は完璧にはまる。大規模な複雑 ETL が必要な場合は dbt・Fivetran との組み合わせが適切だが、RevOps が日常的に使うデータの統合・確認作業であれば Data Studio で80%はカバーできる。
Data Studio に接続できるデータソースは大きく「HubSpot 内部ソース」と「外部ソース」の2種類に分かれる。外部ソースへの接続には認証設定が必要で、プランによって利用できるソースが異なる。
| 接続先 | 推奨認証方式 | 注意事項 |
|---|---|---|
| Snowflake | 専用サービスアカウント + 読み取り専用ロール | 本番データベースへの書き込み権限は与えない。Data Studio 専用の read-only ロールを作成する |
| BigQuery | サービスアカウント JSON キー + BigQuery Data Viewer ロール | プロジェクトオーナー権限を与えない。クエリコスト管理のため最大スキャン量を設定する |
| AWS S3 | IAM ユーザー(最小権限:s3:GetObject のみ) | バケット全体へのアクセスより、特定プレフィックス(フォルダ)へのアクセス制限を推奨 |
| Google Sheets | OAuth(Google アカウント認証) | 退職者のアカウントで接続していると権限が切れたときにデータ取得できなくなる。共有サービスアカウントで接続する |
Data Studio の核心は「複数のテーブルを JOIN して、変換して、集計する」パイプラインをノーコードで構築できることだ。UI 上でドラッグ&ドロップで各ステップを並べていくと、裏側では SQL クエリが自動生成される。
| JOIN 種類 | 動作 | HubSpot での典型的な使い方 |
|---|---|---|
| LEFT JOIN(推奨デフォルト) | 左のテーブルの全行を保持。右テーブルに一致がない行は NULL になる | 「すべての HubSpot コンタクト + Snowflake に存在するものは売上データを結合」。コンタクトが消えない |
| INNER JOIN | 両テーブルで一致する行のみ保持 | 「HubSpot の取引 AND Snowflake の請求レコードの両方に存在する行だけ分析したい」 |
| FULL OUTER JOIN | 両テーブルのすべての行を保持。一致しない行は NULL | 「HubSpot にはあるが Snowflake にない(請求漏れ)・Snowflake にあるが HubSpot にない(未登録取引)を両方検知したい」 |
HubSpot のコンタクト ID(数値型)と Snowflake の customer_id(文字列型)を JOIN しようとすると結合できない。JOIN する前に「計算列」でデータ型を統一する(例:HubSpot ID を文字列に変換 → CAST(contact_id AS VARCHAR))。UI の「計算列を追加」から AI に「この列を文字列に変換して」と依頼するのが最速。
Data Studio の大きな差別化機能の一つが「AI に数式を提案してもらう」機能だ。計算列の追加画面で「このデータから ARR を計算したい」「業種と会社規模に基づいてティア分類をしたい」などと自然言語で指示すると、AI が対応する数式を生成してくれる。
「ARR を計算して」より「月次・四半期・年次の3種類の BILLING_CYCLE フィールドがある。それぞれ12倍・4倍・そのままで年換算した ARR 列を作って」のようにフィールド名・条件・期待する出力を具体的に伝えるほど精度が上がる。生成された数式は必ず「プレビュー」で数行のサンプルデータに対して結果を確認してから本番適用すること。
Data Studio の実際の活用パターンは大きく3つに分類できる。それぞれのパイプライン設計を具体的に見ていく。
「HubSpot の商談データと Snowflake の実際の請求データを突き合わせて、HubSpot の売上予測と実績のズレを可視化する」というユースケースだ。営業チームが CRM に入力した商談金額と、財務システムが実際に認識した売上を比較することで、見込み精度の問題・未請求案件・二重登録を検知できる。
「HubSpot CRM + 製品利用データ(BigQuery)+ サポートチケット(Zendesk API)を結合して、顧客健全性スコアを計算し、HubSpot のコンタクトプロパティに書き戻す」ユースケースだ。CS チームが毎週 CSV を手動でマージしていた作業が完全自動化できる。
Data Studio のデータセットは「手動更新」または「スケジュール更新(最短1時間ごと)」を選択できる。リアルタイム性が必要なダッシュボード用は1〜4時間ごと・月次レポート用は日次・重い変換処理を含むデータセットは週次が目安。スケジュール更新が増えると API クォータを消費するため、本当にリアルタイムが必要なものだけ頻度を上げること。
ETL ツール(dbt/Fivetran)は柔軟だがエンジニア工数が必要。BI ツール(Tableau/Looker)は可視化が強力だが CRM への書き戻しができない。Data Studio は「HubSpot CRM データと1〜3個の外部ソースを結合して HubSpot 内で活用したい」というニーズにノーコードで対応できる最速の方法。
HubSpot CRM(内部)・Snowflake・BigQuery・AWS S3・Google Sheets・CSV の6種が使える。外部接続には専用サービスアカウントと最小権限の認証設定が必須。退職者の個人アカウントで接続しないよう、組織の共有アカウントを使うこと。
ほとんどのユースケースは LEFT JOIN(HubSpot レコードを全保持)が正しい選択。両側に存在するレコードの差分を検知したい場合のみ FULL OUTER JOIN を使う。JOIN キーのデータ型が不一致(数値 vs 文字列)は最多エラー原因——計算列で型変換してから JOIN する。
「ARR を計算して」より「BILLING_CYCLE フィールドが Monthly/Quarterly/Annual の3値を持ち、Monthly は12倍、Quarterly は4倍、Annual はそのままで ARR 列を作成して」のように具体的に指示する。生成された数式は必ずプレビューで検証してから本番適用すること。
HubSpot 商談 × Snowflake 請求データの FULL OUTER JOIN で、HubSpot にはあるが請求されていない案件・請求はされているが HubSpot にない案件を自動検知できる。差異率5%超を「要確認」フラグにしてレポート化するだけで、月次の売上照合作業が1時間→5分になる。
すべてのデータセットをリアルタイム更新する必要はない。ダッシュボード用は1〜4時間ごと、月次分析用は日次、重い結合処理は週次が目安。頻度を上げすぎると API クォータを消費し、他の処理に影響が出る。「このデータは何時間古くても意思決定に影響ないか」を考えて設定する。