「HubSpot のすべての CRM データを、分析チームが使う Snowflake にリアルタイムで同期したい」「BigQuery の機械学習モデルが算出したスコアを HubSpot の自動化に使いたい」——これらは Data Hub Enterprise のデータウェアハウス統合(DWH 統合)が解決する問題だ。本章では Snowflake・BigQuery との双方向同期のアーキテクチャ・スキーマ設計・セットアップ手順・データリネージ追跡・BI ツールとの連携設計を体系的に解説する。
HubSpot Data Hub Enterprise の DWH 統合は、HubSpot CRM のすべてのオブジェクトデータをほぼリアルタイムでデータウェアハウスに同期する機能だ。単なる「エクスポート」ではなく、変更検知型の差分同期(CDC: Change Data Capture)で動くため、HubSpot 側の更新が数分以内に DWH へ反映される。
| データカテゴリ | DWH への同期 | DWH からの書き戻し | 備考 |
|---|---|---|---|
| 標準オブジェクト (コンタクト・会社・取引・チケット) |
✓ 全プロパティ | ✓ プロパティ値の書き戻し | 削除されたレコードは is_deleted フラグで管理 |
| カスタムオブジェクト | ✓ 全プロパティ | ✓ 対応 | Enterprise のカスタムオブジェクトも同期対象 |
| エンゲージメント (メール開封・クリック・活動) |
✓ イベントテーブルとして同期 | ✗ 書き戻し不可 | 分析用途のみ。DWH からの書き込みは不可 |
| マーケティングメール (送信履歴・購読ステータス) |
✓ 同期 | △ 購読ステータスのみ書き戻し可 | メール送信履歴の上書きは不可 |
| 添付ファイル・画像 | ✗ 非対応 | ✗ 非対応 | バイナリデータは同期対象外。URL のみ同期 |
| ワークフロー実行ログ | ✓ 同期(Enterprise) | ✗ 書き戻し不可 | 監査・コンプライアンス用途 |
Snowflake には2種類のスキーマが自動生成される。V2_LIVE:15分ごとに更新される準リアルタイムスキーマ。ダッシュボードや当日の営業数値確認に使う。V2:日次バッチで全件スナップショット。過去履歴の保持・重い分析クエリに使う。BI ツールのメインデータソースは V2 を推奨(V2_LIVE はクエリのたびに最新を取得するためコストが高い)。
Snowflake との統合は HubSpot 側で「データウェアハウス」設定から行う。接続が完了すると HubSpot が自動的に Snowflake 上にデータベース・スキーマ・テーブルを作成し、以降は自動で同期が維持される。手動でテーブルを作る必要はない。
HubSpot が Snowflake に自動生成するテーブルは HubSpot の CRM オブジェクトと1対1対応する。各テーブルにはすべてのプロパティが列として展開され、さらにシステム管理用の列(_hs_synced_at・hs_object_id・is_deleted)が追加される。
BigQuery との統合も Snowflake と同様に HubSpot 側の設定だけで完結する。Google Cloud のサービスアカウントを作成して JSON キーを HubSpot に渡すだけで、あとは HubSpot が自動的に BigQuery データセット・テーブルを作成・管理する。
BigQuery はスキャンしたデータ量に応じて課金される($5/TB)。hubspot_live テーブルへのフルスキャンクエリを BI ツールが頻繁に実行すると月数万円のクラウドコストが発生することがある。対策:① SELECT * は避け必要な列だけ SELECT する / ② パーティションキーで絞り込む(WHERE _hs_synced_at > ...)/ ③ BI ツールには hubspot_daily を向け、hubspot_live は緊急確認用のみに限定する。
Enterprise プランではデータリネージ追跡機能が利用できる。「この HubSpot プロパティの値はどこから来たのか・どのワークフローが書き込んだか・DWH 経由で更新されたか」の来歴をすべて記録・可視化できる。コンプライアンス対応・監査・データ品質の根本原因分析に不可欠な機能だ。
| BI ツール | 接続方法 | 推奨データソース | 注意事項 |
|---|---|---|---|
| Tableau | Snowflake / BigQuery コネクタ(標準搭載) | V2(日次)をメインに・V2_LIVE は最新値確認用 | Live 接続は避け Extract(抽出)モードを推奨。クエリコストを抑えられる |
| Looker / Looker Studio | BigQuery コネクタ(ネイティブ統合) | hubspot_daily をメイン利用 | Looker Studio は無料で使えるが同時接続数が多いとクエリコストが上昇。キャッシュを有効化する |
| Power BI | Snowflake / BigQuery コネクタ | Import モード(日次更新)推奨 | DirectQuery は BigQuery コストが高くなる。Dataset を Import して定時更新するほうが安い |
| Metabase | Snowflake / BigQuery コネクタ | V2 / hubspot_daily | HubSpot の標準レポートと BI の両方を使うチームに人気。無料の OSS 版も利用可 |
変更があった行だけを転送する CDC 方式のため、全件エクスポートより遥かに効率的。V2_LIVE(15分更新)と V2/hubspot_daily(日次)の2スキーマが自動生成される。BI ツールのメインデータソースは日次スキーマを推奨——リアルタイムは BI コストが高くなる。
Snowflake は専用ロール+ウェアハウス+データベースを作成。BigQuery はサービスアカウントに BigQuery Data Editor + Job User のみ付与。プロジェクトオーナーや管理者権限を HubSpot サービスアカウントに付与するのは重大なセキュリティリスク。
HubSpot → DWH の一方向だけでなく、BigQuery/Snowflake で計算した機械学習スコア・セグメント分類・予測値を HubSpot API 経由でプロパティに書き戻せる。これにより「ML が算出したチャーンリスクスコアが閾値を超えたら CSM にアラート」のような高度な自動化が実現する。
「このスコアはどこから来たのか」「いつのモデルバージョンが計算したのか」を追跡できる仕組みがないと、問題発生時に原因特定に丸1日かかる。データリネージ記録 + dbt のバージョン管理 + 書き戻しログの3点セットで説明責任のあるデータ組織を作る。