AI が間違えるのは、AI が悪いのではなくデータが汚いからだ。リードスコアの精度が上がらない・パーソナライズメールが明らかに間違った情報を送る・Sales が「このコンタクト、重複してない?」と毎回確認する——これらはすべてデータ品質の問題だ。本章ではData Quality Command Center の全体像・重複検知と自動マージ・フォーマット自動修正ワークフロー・欠損データの補完設計・データ品質 KPI と週次ダイジェスト運用を解説する。
Data Quality Command Center(データ品質コマンドセンター)は、HubSpot ポータル全体のデータ品質問題を一画面で把握・修正できる統合ダッシュボードだ。「Data Management → Data Quality」からアクセスできる。
従来はデータの問題を発見するために個別レコードを手作業で確認するか、CSV エクスポートして Excel で分析するしかなかった。Command Center では重複・フォーマット問題・欠損データ・未使用プロパティの4種類の問題が自動的に検出され、件数・傾向・推奨アクションがまとめて表示される。
| タブ | 検出される問題 | 主な対処アクション | 必要プラン |
|---|---|---|---|
| 重複(Duplicates) | 同一メールアドレスの重複コンタクト・類似ドメインの重複会社・AI が推定した類似レコード | 1件ずつ確認してマージ・自動マージルールの設定 | Free〜(AI 検知は Pro〜) |
| フォーマット問題(Formatting) | 電話番号の書式不統一・名前の大文字小文字混在・日付フォーマット不統一・メールアドレスの形式異常 | 一括修正・自動修正ルールの設定(今後も自動修正) | Professional〜 |
| 欠損データ(Missing Data) | 重要プロパティ(業種・会社規模・ライフサイクルステージ等)が空欄のレコード | 補完ワークフローの設定・手動一括更新 | Free〜(自動化は Pro〜) |
| プロパティ(Properties) | 90日以上値が入っていないプロパティ・未使用ワークフロー・重複した似た意味のプロパティ | プロパティの廃止・統廃合・命名規則の整備 | Free〜 |
Command Center の「概要」タブ右下にある「Data Quality Digest を設定」から、毎週月曜朝に自動でデータ品質サマリーをメール通知する設定ができる。管理者が毎週ログインして確認しなくても、「先週より重複が増えた・フォーマット問題が急増した」といった異常に自動で気づける。設定は1分でできるので最優先で有効化すること。
重複レコードは CRM の最大の敵だ。同じ人が2つのレコードに分かれていると、営業が同じ顧客に別々にアプローチ・メールが2通届く・エンゲージメント履歴が分断されて AI の判断が狂うという問題が連鎖する。HubSpot の重複検知は3つのレイヤーで構成されている。
2つのレコードをマージするとき、どちらのレコードの情報を「正」として残すか(勝者レコード = Winner)を決める必要がある。HubSpot のデフォルトは「古いレコード(先に作成された方)を Winner」とするが、以下の考え方で変更することを推奨する。
| 判断基準 | 推奨 Winner | 理由 |
|---|---|---|
| 作成日が古い vs 新しい | 古い方(デフォルト) | エンゲージメント履歴・活動ログが多い古いレコードを残す方が情報量が多い |
| エンゲージメントが多い vs 少ない | エンゲージメントが多い方 | メール開封・Web 閲覧・商談履歴が豊富なレコードを残す |
| Lifecycle Stage が進んでいる | Stage が上の方 | Customer / MQL のレコードを Winner にして Subscriber のレコードをマージする |
| フォーム入力で作成 vs 手動作成 | フォーム入力の方 | 顧客本人が入力した情報が最も正確である可能性が高い |
HubSpot のマージでは、Winner レコードのプロパティ値が優先され、Loser 側のユニークな値は失われる場合がある。特に「カスタムプロパティに入力した重要情報」「内部メモ」はマージ前に必ず確認し、必要に応じて手動でコピーしてからマージする。一度マージした後の取り消しは困難なため、大量の自動マージを有効にする前に少数サンプルで動作確認を行うこと。
Data Hub Professional 以上では、ワークフロー内に「データ形式を整える(Format Data)」アクションが追加される。これを使うと、レコードが作成・更新された瞬間に自動でフォーマットを統一できる——人間が修正し続ける必要がなくなる。
上記の WF はデフォルトで「新規作成されたレコード」にのみ適用される。既存の数万件のレコードに一括適用するには、Command Center の「フォーマット問題」タブから対象プロパティを選択し「Fix and Automate(修正して自動化)」ボタンをクリックする。これにより現在の問題を一括修正した上で、以降は新規レコードも自動修正されるルールが設定される。ただし大量処理は HubSpot 内で順次処理されるため、完了まで数時間かかる場合がある。
「重複していない・フォーマットも正しい、でも重要フィールドが空欄」という問題が欠損データだ。業種・会社規模・ライフサイクルステージが空欄のままでは、AI の精度・セグメントの精度・パーソナライズの精度がすべて下がる。欠損データへの対処は「発生を防ぐ(入力必須化)」と「すでに空欄のレコードを補完する」の2方向で設計する。
欠損データの最良の対策は「入力されないことを仕組みで防ぐ」だ。HubSpot のプロパティ設定で「入力必須」にチェックを入れると、そのプロパティが空欄のままではレコードを保存・次ステージに進められない設定にできる。ただし、すべてのプロパティを必須にするとデータ入力が重くなり、かえって誤入力や適当な値の入力が増えるため、本当に重要なもの(3〜5個程度)に絞ることが重要だ。
| フェーズ | 必須化を推奨するプロパティ | 理由 |
|---|---|---|
| リード作成時 | メールアドレス・姓名・会社名 | 重複検知のキー・パーソナライズの最低要件 |
| MQL 昇格時 | 電話番号・業種・コンタクトオーナー | Sales ハンドオフに必要な最低限の情報 |
| 商談作成時 | 金額・クローズ予定日・商談ステージ | パイプライン予測・レポートの基本データ |
| 顧客クローズ時 | プランタイプ・契約開始日・担当 CSM | CS ハンドオフとヘルスモニタリングの起点 |
データ品質は「一度クリーニングしたら終わり」ではない。毎日新しいレコードが作成され・フォームが送信され・インポートが行われ・外部システムから同期が届く——つまりデータは常に新しく汚れていく。継続的に品質を維持するには、KPI を設定して定期的に確認するケイデンスを作ることが不可欠だ。
| KPI | 計算方法 | 初期目標 | 成熟目標 |
|---|---|---|---|
| 重複率(コンタクト) | 重複レコード数 ÷ 総コンタクト数 × 100 | 5% 以下 | 2% 以下 |
| メール有効率 | 有効メールアドレス数 ÷ 総コンタクト数 × 100 | 85% 以上 | 95% 以上 |
| 業種フィールド充足率 | 業種が入力済みのコンタクト数 ÷ 総数 × 100 | 60% 以上 | 85% 以上 |
| Lifecycle Stage 設定率 | Stage が設定済みの数 ÷ 総コンタクト数 × 100 | 80% 以上 | 98% 以上 |
| コンタクトオーナー設定率 | オーナーが設定済みの数 ÷ 総コンタクト数 × 100 | 70% 以上 | 95% 以上 |
| 電話番号 E.164 準拠率 | E.164 形式の数 ÷ 電話番号ありコンタクト数 × 100 | 70% 以上 | 99% 以上 |
① Command Center の週次ダイジェストを今日中に設定する(5分)。② フォーマット自動修正 WF(名前・メール・電話)を作成して既存レコードに一括適用する(1〜2時間)。③ 重複コンタクトを Command Center の「重複」タブから上位100件だけマージする(30分)。——この3つだけで、ほとんどの組織で翌週のデータ品質スコアが5〜10pt 改善する。完璧を目指すより「まず一番大きな問題から」が最速の改善路だ。
Data Quality Command Center は4つのタブ(重複・フォーマット・欠損・プロパティ)で問題を一元把握できる。週次ダイジェストメールを設定すれば管理者がログインしなくても問題の増減に気づける。まず今日ダイジェストを有効化することが最初のアクション。
同一メールの即時マージ(全プラン)→ AI による類似候補提示(Pro〜)→ カスタムルールによる自動マージ(Pro Beta)の3レイヤーで重複をゼロに近づける。マージ前は「Winner レコードの選択基準」を組織で統一して誤マージを防ぐ。
新規レコード向けの「コンタクト作成時フォーマット修正 WF」を設定してフォーマット問題の発生を防ぐ。既存の問題は Command Center の「Fix and Automate」で一括修正する。名前・メール・電話の3フィールドが最優先ターゲット。
必須フィールド設定で入力を源流でブロックしつつ、すでに空欄のレコードはエンリッチメント・ワークフローで補完する。必須化は本当に重要な3〜5フィールドに絞り込む。すべて必須化すると誤入力・適当入力が増える逆効果になる。
日次・週次・月次・四半期のケイデンスを決め、各タイミングで確認すべき指標とアクションを事前に決めておく。特に週次の「重複候補のレビュー(30分)」と月次の「欠損 TOP5 への対処」を習慣化するだけで、品質スコアは継続的に改善し続ける。
重複率・メール有効率・業種充足率