PerfData

歪みの世界

表示速度の遅延で歪むWebアクセス解析

2017年3月30日
著者: 竹洞 陽一郎

Google Analytics、Adobe Analyticsなどを使って、Webサイトのアクセス解析をする重要性は、今や広く認知されています。
ウェブ解析士のような民間資格も広く認知されており、20,000名を超える人が受講しているそうです。

ページビュー、滞在時間、直帰率、コンバージョン率など、様々な指標値を駆使してWebサイトのコンテンツの改善を行います。
しかし、そのデータは、本当に信頼できるデータなのでしょうか?

因果関係を狭い範囲で捉えてしまうと、データは、人を思わぬ間違いへと導いてしまうのです。

実験と観察

一言に、「データの取得」と言っても、実は、統計学的には、データ取得の関わり方によって、種類が異なります。

実験

調査対象で、原因となる要素(因子と言います)を制御して(介入といいます)調査データを得ます。
つまり、調査する側が、調査対象に対して関与します。
この制御・介入の設計・計画を「実験設計」とか「実験計画」と言います。

観察

因子を制御する(介入する)ことが難しい・不可能な場合は、対象を観察して、そこからデータを得ます。
調査する側は、調査対象そのものには関与しません。

データの分析は、出来る限り、因果関係を明確にして、改善に反映させたいですよね。
データ分析では、実験のみが、因果関係を証明することが可能です。

医療のように、観察データによって、因果関係を証明するに近い事をせざるを得ない分野もあります。
その場合には、分析の厳密さが高く求められます。

証拠としてのレベル

実験データと観察データは、どの程度まで、証拠として使えるのでしょうか?
米国の保険社会福祉省(Department of Health and Human Services)が運営するNational Guideline Clearinghouseが公開しているDepressionというページで詳細に解説しています。

Depressionとは、測量における俯角という意味です。
俯角とは、観測者のいる平面と、水平線下にある被観測物との角度を指します。

何故、俯角というタイトルかというと、俯角があると、人間の認知にズレを生み、正しく認知できないからです。
俯角が齎す認知バイアスについては、立命館大学人間科学研究所の所長を勤められた、松田隆夫先生の「仰角および俯角の知覚」を読まれると、面白いです。

証拠のレベル
レベルデータの取り方証拠の種別
1++実験 High quality meta-analyses, systematic reviews of randomised controlled trials (RCTs), or RCTs with a very low risk of bias
質の高いメタ・アナリシスランダム化比較試験(RCT)システマチック・レビュー、偏りのリスクが非常に低いランダム化比較試験
1+ Well conducted meta-analyses, systematic reviews of RCTs, or RCTs with a low risk of bias
良く実施されたメタ・アナリシス、ランダム化比較のシステマチック・レビュー、偏りのリスクが低いランダム化比較試験
1- Meta-analyses, systematic reviews of RCTs, or RCTs with a high risk of bias
メタ・アナリシス、ランダム化比較試験のシステマチック・レビュー、偏りのリスクが高いランダム化比較試験
2++観察 High quality systematic reviews of case control or cohort studies. High quality case control or cohort studies with a very low risk of confounding or bias and a high probability that the relationship is causal
質の高いケース・コントロールコホート研究のシステマチックレビュー。交絡因子や偏りのリスクが非常に低く、関係が因果である確率が高い、質の高いケース・コントロールやコホート研究
2+ Well conducted case control or cohort studies with a low risk of confounding or bias and a moderate probability that the relationship is causal
良く実施された、交絡因子や偏りのリスクが低く、関係が因果である確率がほどほどのケース・コントロールやコホート研究
2- Case control or cohort studies with a high risk of confounding or bias and a significant risk that the relationship is not causal
交絡因子や偏りのリスクが高く、関係が因果ではない確率がかなり高いケース・コントロールやコホート研究
3実験でも観察でもない Non-analytic studies, e.g., case reports, case series
分析的な研究ではないもの。例えば、事例報告、事例集
4Expert opinion
専門家の意見

この表で注目して欲しいのは、以下の点です。

誰か、専門家が言うことより、実際の事象や、分析データの方が遥かに証拠としてレベルが高いのです。

お給料やコンサルティング料金を貰っている対価として、結果を出さなくてはいけないわけです。
それが業務としてのWebサイトの改善です。
できるだけ証拠レベルの高い=信頼できるデータと分析でなければ、誤った方向へとサイト改善を導く事になってしまいます。

観測データ分析としてのWebアクセス解析の注意点

Webアクセス解析は、観察に該当します。
こちらから、分析したい対象(Webサイトの訪問者)に対して、介入ができないためです。

証拠レベルとしては、実験で得たデータよりも低くなります。
観察データの分析には、より一層の注意が必要となります。

あなたが行っているWebアクセス解析の証拠レベルは、2++〜2-のどのレベルでしょう?

Webアクセス解析の指標値に大きな影響を及ぼす表示速度

Webアクセス解析で、各種メトリックスに影響を及ぼしている主変数はページデザインやコンテンツの内容だと思われています。
だから、皆さんは、A/Bテスト、広告効果測定、ヒートマップ、フォーム最適化などをしているわけですよね。

通常、Webアクセスの因果関係として考えている主変数

しかし、本当にこの二つが主たる要因なのでしょうか?
各種の調査データが、「それは、違う」という事を明らかにしています。
表示速度が、大きな影響力を持っているのです。

表示速度は、ページビュー数、コンバージョン率、直帰率、ページ滞在時間などに大きな影響を及ぼしています。
新しいモバイルサイト表示速度の業界指標で紹介したとおり、GoogleとSOASTAの分析は、直帰率の増大について、精神物理学の基本法則である「ヴェーバー−フェフナーの法則」に近似することを明らかにしました。
これは、速度が二乗で効果を発揮するという事です。

実際は、Webアクセスの因果関係で重要な表示速度

それだけ大きな影響を表示速度は及ぼす事を考えた上で、質問です。
あなたのWebサイトのページビュー数、コンバージョン率、直帰率、ページ滞在時間は、コンテンツの内容やデザインのせいですか?
それとも、表示速度のせいですか?

これは、データでは、絶対に理由は分からないのです。
何故なら、そこに、ユーザが明確に理由を書いたデータを取得できないからです。

つまり、そのようなWebアクセス解析は、証明できない理由を推測して、Webサイトの分析をしているという事なのです。
それで、どうして、正しい結論を導き出せるというのでしょうか?

アメリカの著名な統計学者ネイト・シルバーは、著書「シグナル&ノイズ 天才データアナリストの『予測学』」で以下のように書いています。

数字自体は何も語らない、語るのは私たちだ。

データを分析して解釈する私達が、広い視野で、本質を考えて、因果関係を考えないと、私達の持つ認知バイアスによって、誤った方向へと分析結果を導いてしまうのです。

誤った分析を回避するために

このような誤った分析を回避するにはどうしたら良いのでしょうか? 統計分析でよく用いるのは層別分析です。

層別で分析する

層別とは、たくさんあるデータを、ある特徴によって、いくつかのグループに分ける事です。
そうすることで、その特徴=変数の影響を固定して分析する事が出来ます。
ですから、ブロック化とも言われます。

時間帯による影響が大きいのであれば、時間帯別にデータをグループ化して、それぞれで分析します。
表示速度による影響が大きいのであれば、表示速度別にデータをグループ化して、それぞれで分析をするわけです。

影響を最小化する

しかし、定常的に、Webサイトの表示速度が遅い場合にはどうしたら良いのでしょうか?
また、全体を通して、表示速度だけが一番影響力が強い要因と言い切って良いのでしょうか?

本来、データ分析は、一度に複数の要因を調べると、間違いやすいものです。
データ分析をするときは、一度に一つの要因を調べる方が、間違った分析を回避できます。
そのためには、他の影響を及ぼす要因を十分に改善して、データに影響を及ぼさないように、最小化するのがお勧めです。

つまり、まずは、Webサイトを徹底的に高速化するのです。
正しい分析が出来るように、環境を整えるのです。

表示開始時間0.5秒、表示完了時間2秒を目標に、表示速度を改善すれば、表示速度による影響を最小化できます。
その表示速度の状態になったとき、Webサイトのコンテンツの内容やデザインの影響だけで、データを分析できる状態、つまり本来のWebサイトの実力が発揮できている状態だと言えるのです。

十分に表示速度が高速化された状態であれば、Webアクセス解析の各種数値の影響は、コンテンツの内容か、デザインか、どちらかに限定されます。
コンテンツの内容を情報理論や情報品質に照らし合わせて整えれば、あとは、デザインだけが主たる変数となります。
この状態になってから、A/Bテストをやれば、最も効率的に改善が出来ます。

Webアクセス解析を正しく行うためのWebサイトの改善

上記の内容を纏めると、以下のようになります。

  1. Webサイトの表示速度を高速化して影響を最小化する
  2. コンテンツの情報の価値を情報理論に基いて最大化し、情報品質に基いて信頼性を高めておくことで、コンテンツが最大限に効果を発揮する状態にする
  3. 自分たちでコントロールできる部分を予め整えておいた状態で得られたデータを、他の要因で層別で分析する

この順番でWebアクセス解析を行えば、真の値にぐっと近づいた分析ができるようになります。