1.クロス集計とは
アンケートの結果を、実数、パーセント数のような数値に置き換えたものが集計です。例えば、選挙調査で「内閣を支持しますか?」というクェスチョネアに対して、「支持する」50%、「支持しない」40%、「わからない」10%というように、〇〇%という数値に置き換えることが集計です。
集計は、単純集計とクロス集計の大きく2つに分けられます。単純集計は、GT(グランドトータル)とも呼ばれ、アンケートの回答全体の実数や比率のことで、集計の基本となります。内閣支持率の例で示しますと、回収数(n *1)が1,000だとすれば、500(n)が支持、400(n)が不支持、100(n)が「わからない」ということになります。これを比率で表すと、支持50%、不支持40%、「わからない」10%となるわけです。これが単純集計です。
*1 統計学では、 母集団の大きさを表す場合は、N(ラージエヌ)、その母集団からアンケートで得たサンプル数を表す場合は、n(スモールエヌ)を使用します。内閣支持率の例で説明しますと、調査地域が東京都の有権者であれば、N=東京都の有権者数、n=回収数1,000ということになります。因みに、nは、Number of casesの略です。
しかし、単純集計だけでは、全体の支持率はわかっても、どのような属性の人が内閣を支持しているのか、まではわかりません。支持率を「性別で知りたい」、「年齢別で知りたい」、「選挙区別で知りたい」などの属性で知りたい場合が必ずといってよいほど発生します。この属性別(基本属性=デモグラフック)のような層別で集計することがクロス集計です。当然、基本属性だけがクロス集計ではなく、買物調査の場合は、来店頻度別、CS調査の場合は、満足度別、広告効果測定調査の場合、テレビ視聴時間別など、調査の種類・目的によって様々な軸でクロス集計は活用されています。つまり、クロス集計は、GTの中身の詳細を知るということになります。
<内閣支持率を例にしたクロス集計の見本>
Q内閣支持率 | 支持する | 支持しない | わからない |
全体GT (n=1,000) | 50% | 40% | 10% |
性別男性(n=400) | 60% | 30% | 10% |
女性(n=600) | 43% | 47% | 10% |
年齢別30歳未満 (n=150) | …% | …% | …% |
30~40歳未満 (n=180) | …% | …% | …% |
40~50歳未満 (n=200) | …% | …% | …% |
50~60歳未満 (n=220) | …% | …% | …% |
60歳以上(n=250) | …% | …% | …% |
*一般的に、クロスの対象となるクェスチョネアを「表頭」、クロスの軸となる項目(アイテム)を「表側」といいます。
2.クロス集計のメリット
クロス集計は、アンケート分析の基本中の基本です。例えば、性別、年齢別での特徴や傾向などを分析するうえで、なくてはならないものです。性別×年齢別を軸した三重クロス集計も頻繁に活用されています。性別×年齢別を分析軸にすることで、男性・20代と女性20代の差異も明確にわかるようになるのです。
しかし、このようなデモグラフィックを軸にした分析以外に、新たな分析軸を発見することやクェスチョネア同士を組み合わせて分析軸を作成することも分析者として必要な能力となってきます。昨今は、エクセルなどの表計算ソフトのアドイン集計ソフトで、手軽にクロスする項目を選定して短時間で集計結果を得られて、分析者の仮説を簡単に検証できるようになったというメリットがあります(汎用機で集計し、コストが非常にかかる時代もあったのです)。
また、クロス集計分析は、多変量解析を行う場合のベースにもなりますので、マーケテイングリサーチャーとしては、GT分析と同様に基礎技術といえます。
3.クロス集計を基にできる分析
「1. クロス集計とは」「2. クロス集計のメリット」で既述していますように、クロス集計は、GTの中身を詳細に分析する、ということです。 その種類は以下のように大きく3つに分けられます。
(1)カテゴリー×カテゴリー 例. 表頭:内閣支持 × 表側:性別、年齢別、支持政党別など
(2)数量×カテゴリー 例. 表頭:数量データで得た年収 × 表側:カテゴリーの年齢別
(3)数量×数量 例. 表頭:数量データで得た年収 × 表側: 数量データで得た預金額*2
*2 (3)の例については、分析する前に、ある程度の予想が立てられます。「貯金が多ければ、年収も高いであろう」という相関関係を予測しても妥当だと考えられます。しかし、最終的には相関係数を求めて、相関関係があるのか否かを実証する必要があります。
以上の3つにクロス集計は分類されますが、業種や分析対象などによって活用するクロス集計は異なってきますが、一般的には「(1)カテゴリー×カテゴリー」が最も活用頻度が高いと想定されますので、「(1)カテゴリー×カテゴリー」のクロス集計事例を、下表のようなスーパーの食品売場で買い物をした購入者の購入品目同士の併買状況で示します。前提条件を、実際の購入者からアンケートでデータを取ったものとします*3。
*3数値ははダミーです。
<クロス集計の事例:併買購入品目間の併買率>
表頭M.A. 表側M.A. | 赤ワイン | 缶ビール | ローストビーフ | チーズ | フランスパン | ・・・ |
赤ワイン | 85% | 50% | 75% | 40% | ・・・% | |
缶ビール | 75% | 60% | 30% | 35% | ・・・% | |
ローストビーフ | 45% | 70% | 15% | 30% | ・・・% | |
チーズ | 70% | 40% | 20% | 35% | ・・・% | |
フランスパン | 30% | 25% | 30% | 40% | ・・・% | |
・・・ | ・・・% | ・・・% | ・・・% | ・・・% | ・・・% |
表頭にも表側にもスーパーマーケットの食品売場で買った商品という項目を使っています(購入品目は、複数回答を前提としていますので、複数回答=M.A.(M.A.はMultiple Answerの略)間クロス集計となります。マルチトータル=M.T.≦100%となります)。従って、数値(%)は、併買率を示します。赤ワイン購入者の85%は缶ビールを、75%はチーズを購入しているということで、併買率は高いといえるでしょう。この比率を分析する限りにおいては、缶ビールの赤ワイン併買率も75%と高いので、アルコール類は同時に購入される比率が高いということがわかります。また赤ワインの場合、チーズの併買率も高いことから、チーズをワインの近くに置く、といったような陳列戦略も立てられます。
このようにクロス集計分析でも、購入商品の併買率がわかり、「併買商品が何であるか」を知ることで活用できます。しかし、併買については、リフト(Lift)値をPOSデータ(トランザクション*4形式データ)活用することによって算出し、より精度の高い結果が得られます。アンケートは、全数調査ではなく、サンプリング調査であるため標本誤差が生じますので、トランザクションの分析であれば、膨大なデータ数を活用しますので、精度が高いといえます。
ところで、「リフト(Lift)値」とは、商品間の購入関連性を分析するもので、バスケット分析(ある商品と併買される商品を見つけ出すこと)の中でも、支持度(Support)や確信度(Confidence)ともに重要な指標の1つです。リフト値の計算方法は以下の通りです。
*4 ここでは、「トランザクションデータ」とは購入履歴データという意味で使用しています。
<「リフト値」の計算方法>
・前提条件 : Xは、ある商品、Yは、X以外の商品を意味しています。
(1)第1段階 : 確信度(Confidence)の算出
計算式 : 確信度(Confidence) = ( XとYを共に含むデータ数) ÷ (Xを含むトランザクションデータ数)
(2)第2段階 : リフト値の算出
計算式 : リフト(Lift)値 = 確信度(Confidence) ÷ (Yを含むトランザクションデータ数)
このリフト値の解釈については、計算式を吟味すればわかるように、リフト値が高ければ、商品Xと商品Yの関連性で購入されているということを意味します。逆に低ければ、商品Yは、商品Xとの関連性で購入されていないということを意味します。では、リフト値がどれくらいあれば、関連性があるのか、という目安については、一般的には「1」より大きい場合だとされています。
確信度(Confidence)もリフト(Lift)値も併買品の関連性を発見するものですが、これら2つ以外に「支持度(Support)」というものがあります。支持度の計算方法は以下の通りです。
(3)支持度(Support)の算出
計算式 : 支持度(Support) = ( XとYを共に含むデータ数) ÷ (全トランザクションデータ数)
以上、3つの指標を紹介しましたが、これらの3つの指標とクロス集計の結果を総合的に分析することによって、今まで隠れていた商品同士の関連性が発見できる可能性は非常に高くなります。
4.注意しておきたいクロス集計のデメリット
クロス集計は、非常に有効な分析手法であることは間違いないのですが、当然、デメットもあります。まず、サンプリング調査の場合、分析に入る際にサンプル数(n)の制約を受けます。例えば、「性別×年齢別で細かく分析したい」と考えていても、女性20代といったような1つのカテゴリーのnが少なく、代表性を失ってしまうことが多々あります。女性・20代のnが10であったとすれば、分析するには無理が生じます。統計学に基けば、1カテゴリーのnが最低30は必要になってきます。従って、調査のサンプルサイズを決める際に重要なことは、どこまで詳細に分析するか、ということをあらかじめ決めておく必要があります。しかし、クロス集計分析の精度を高めれば高めるほど、サンプルサイズが大きくなり、コスト増となり、日程も長くなりがちです。サンプルサイズ、コスト、日程において妥協点を見極めておくべきでしょう。
次は、1カテゴリーのnについてです。既述したことですが、昨今は集計ソフト、表計算ソフトでクロス集計が簡単に出来るようになりました。しかし、クロス集計した場合、確実に1カテゴリーのnは少なくなります。つまり、標本誤差が大きくなるということを意味しますので、有意差検定の知識を身につけておかなければなりません。事前にクロス集計結果に検定結果を表示させるという仕組みを取り入れることも視野に入れておくべきことの1つだと考えられますが、nによって、どれくらいの標本誤差があるのか、常に意識しておく必要があります。
最後になりますが、クロス集計をペーパーで打ち出した場合、本のように分厚く、膨大な量になることが頻発します。分析者がクロス集計の結果を読み込み、解釈する時間は一向に短縮できていない、ということが現状だと想像されます。解決策としては、目的志向(最終的に何を明らかにすべきなのか、何がわかればよいのか、何をソリーションしたいのか、ということなど)でクロス集計項目を決定し、極力集計量を減らすことです。しかし、減量したクロス集計で目的が達成できない場合は、追加クロス集計をまとめて行うべきですが、このようなステップの方が効率的です。