弊社メールマガジンで配信した「コンサルタントのつぶやき」です。
IT利活用のトレンドやお役立ち情報をメールマガジンでお届けしています。
記事の執筆

システムコンサルタント久保田 一樹
メーカー系SIerに入社後、メガバンク案件でプロジェクトマネジメントを経験する。多くのステークホルダーと厳格なスケジュールのもと、プロジェクトの成功に貢献する。その後、信用調査会社で社内システムの要件定義から移行までを担当し、利用者視点の設計で高く評価される。 これらの経験を活かし、現在は開発者と利用者双方の視点を持つコンサルタントとして、PMO支援を中心に活動している。
「数字は嘘をつかないが嘘つきは数字を使う」という言葉がありますが、意図的でなくとも分析方法を誤れば、導き出される結論も誤ったものになります。
先日、私が担当しているクライアントのシステムで、システム処理時間が目標時間を超えた日があり、対策を検討することになりました。
そこで、システム担当者が直近1か月のシステム処理時間を分析し、以下のように報告してくれました。
「処理時間の平均値は3.3時間、最小値は2.3時間、最大値は6.0時間です。目標処理時間は3.0時間のため、0.3時間の処理改善が必要です。最大時間となる日のことを考えると、3.0時間の改善が望ましいです。」
もし、あなたが意思決定者だった場合、この報告をそのまま受け入れてしまうと、見当違いな対策を承認してしまうかもしれません。
では、どのような点に注意すれば良いのでしょうか。
データのばらつきを把握する
例えば、締め日のある請求書発行システムでは、締め日に処理が集中し、処理時間が通常より大幅に長くなることがあります。
処理時間を平均値のみで評価すると、実態を正確に把握できません。
今回のケースも同様のことが言えます。
データのばらつきを把握することで、平均値のみでは分からない実態を明らかにすることが可能です。
基本統計量には、データの代表値やばらつきを示す指標があります。
主な指標がいくつかありますが、私がよく利用する指標の算出結果は、以下の通りです。
- 平均値:3.3時間
- 中央値:2.7時間
- 第1四分位数:2.7時間
- 第3四分位数:3.0時間
- 標準偏差:1.2時間
第1四分位数と第3四分位数は、それぞれ25パーセンタイル、75パーセンタイルとも呼ばれ、データの下位25%と上位25%の境界を示します。
このデータでは、25%のデータが2.7時間以下、75%のデータが3.0時間以下であることを意味します。
また、標準偏差はデータの平均値からのばらつきを示す指標です。
データが正規分布に近い場合、「平均±標準偏差」の範囲に約68%、「平均±2標準偏差」の範囲に約95%のデータが含まれます。
このデータが正規分布に近い場合は、0.9時間から5.7時間の範囲に95%が含まれることを意味します。
これほど広範囲にわたるということは、データのばらつきが大きいと考えられます。
今回のケースでは、標準偏差を使うよりも、第3四分位数の方が実態を直感的に理解しやすいと思います。
中央値が2.7時間で、75%のデータが3.0時間以下であることから、一部の極端に長い処理時間が平均値を押し上げている可能性があります。
データのばらつきを考えると、「0.3時間の処理改善が必要です」という報告に疑問を持つでしょう。
ばらつきの特徴を視覚的にイメージしやすくするために、具体例を図1から図3に示します。
これらは、処理時間ごとの件数(頻度)を棒グラフで表したヒストグラムで、3つの図すべての平均値は3.3時間(赤線)となっています。
今回のケースは図1に該当し、処理の多くが3時間未満で完了していることが分かります。
図2では処理の多くが3時間以上で完了しており、図3ではおおよそ半数が3時間以上となっています。
このように、データのばらつきによって、意思決定に影響を与える可能性があることをご理解いただけるかと思います。



目的にあったデータ分析を行う
対象のシステムは、土日祝日には利用されないため、分析対象外とする必要がありましたが、システム利用の前提を考慮せずに分析をしていました。
さらに、土日は平日と異なる処理が行われるため、処理時間は長期化する傾向にあり、平均値などが不必要に高められていました。
改めて土日祝日を除外して基本統計量を算出した結果は、以下の通りです。
- 平均値:2.9時間
- 中央値:2.7時間
- 第1四分位数:2.6時間
- 第3四分位数:2.8時間
- 標準偏差:0.9時間
平均値と中央値がともに3.0時間未満で、第3四分位数が2.8時間であるため、多くの日は目標処理時間の3.0時間以内に完了していると解釈できます。
また、土日祝日を除外したことで平均値が低くなり、「0.3時間の処理改善が必要」という考察が誤りであったことが明らかになりました。
さらに、1か月の処理時間の内訳を見てみると、処理時間が3.0時間を超えている日は2回しかありませんでした。
このように、データ分析においてデータのばらつきを把握することは重要ですが、それ以上に「何のために分析しているのか」を意識しなければ、適切な分析はできません。
単に、ばらつきを示す指標(標準偏差など)を求めることを担当者に指示するだけでは、意思決定に必要な材料が揃わない可能性があります。
例えば、商品の売上に基づいて施策を検討する際は、商品の特徴に応じた分析が必要です。
季節に左右されず、消費者の購入タイミングによって売上の時期が多少前後するような商品の場合、前年同月比を確認しても意味がないかもしれません。
それよりも、前年と今年の累計売上を比較した方が意思決定の材料として適している可能性があります。
分析者は常に、「何を意思決定したいのか」、「何のために分析をしているのか」を意識し、適切な手法を選択することが重要です。
データ分析では、データの偏りを把握することや、目的にあった分析手法を選ぶことが重要です。
誤った意思決定をしないためにも、データ分析を行う際は、これらのポイントをぜひ意識してみてください。
2025年04月14日 (月)
青山システムコンサルティング株式会社
久保田一樹