データ分析

主な分析領域や手法

分析手法は、統計、数学、情報工学、機械工学、医学、心理学、経済学など種々の領域から発展してきました。近年は機械学習の台頭により手法の種類や複雑さが加速的に増しています。これらの横断的・体系的な整理はあまり行われておらず、さまざまな背景や要因から生まれたこれらの手法を分類することは容易ではありません。

今回は、機械学習の領域から「教師あり学習」「教師なし学習」、数理最適化、ロボティック分野の強化学習、及び画像解析・自然言語処理といった種類に既存でかつ近年よく使われる手法を取り上げます。

また、それらと独立しているものの幅広い実務領域で頻繁に見られるデータ課題の特性である「スモールデータ」「データの方より」「データの欠損」を紹介します。

教師あり学習・分析

教師あり学習は、一つまたは複数の要因が、一つまたは複数の定量的・定性的な結果を生み出すと考えるモデルであり、学術領域です。例えば、学歴や性別が与える収入への影響、何らかの生活習慣が身長や体重に与える影響を考える際に、教師あり学習のモデルが適用可能です。

回帰 (数値推定)

売上・需要・故障までの時間など、数値の推定や、それに影響する要因の分析を行う領域は回帰と呼ばれます。

分類 (ラベル推定)

この画像は犬か猫か、この文章はポジティブかネガティブかといった、ラベルで出力が与えられるような分析を行う領域を分類と呼びます。

昨今、多くのモデルは回帰と分類が同時に可能であり、これらの手法の境目が意識されることは減りつつあるでしょう。

代表的な手法	強み	弱み
回帰モデル (線形回帰)	信頼性・解釈性の高さ・少量データでも安定・汎用性	複雑な構造を表現しにくい
決定木	直感的に理解しやすい・汎用性が高い	過学習しやすい・単体では精度が頭打ち
勾配ブースティング (XGBoost, RandomForest, LightGBM)	表形式データで非常に高精度・欠損や異種データに強い	解釈が難しい・計算量が多い
ニューラルネットワーク (CNN, RNN, Transformer)	非線形・高次元データに強い・画像/音声/テキストに適合	大量データと計算資源が必要・ブラックボックス化しやすい
生成AI	非構造データ理解・自然言語処理・知識統合が可能	精度保証が難しい・再現性と評価が課題

時系列予測 (時系列分析・Time Series Analysis)

分析に時系列の概念がある場合、教師あり学習での手法を直接的に用いる場合当てはまりが悪いケースが多くあります。推定・予測という言葉は、時系列的な予測を内包していると誤解がされやすいですが、「犬か猫を判定する」ような非時系列的な予測と、「株価を予想する」といった時系列的な予測は大きく異なります。

時系列予測は過去に遡る時系列分析と、未来の予測を試みる領域に二分されます。未来のデータがあるからこそ過去の情報に示唆が与えられるのが前者で、後者は性質上検証が行いにくい難しさがあります。

過去の時系列分析

過去を遡る時系列分析では、後述の因果推論とよく組み合わせて議論されます。過去に起こした何らかのイベントが、実際に別の要素に影響を及ぼしたかどうかを時系列の推移を見て確認することができます。

過去の時系列分析によって得られた知見は、例えば「税率を上げると出費が落ちる」といった主張の裏付けに用いられ、未来の意思決定に寄与します。

未来予測

過去のパターンから推定を行うあらゆる分析手法の性質上、未来予測が行えるのは、その未来の事象が過去にも繰り返し観測されているケースに留まります。しかし、もし未来に期待されている事象が過去に繰り返し観測されているのであれば、そのパターンから未来を予測することが可能な場合があります。未来予測の領域としては天気や地震の予測が古くから行われてきました。

一方で株価等の予測は、その予測を元に新たな意思決定を行った時点で、その予測自体に影響を与えかねず、また多種多様な要因が関与されるため基本的には完全に確率的に動くランダムウォークと考えることが主流です。

代表的な手法	強み	弱み
古典的時系列モデル (ARMA / SARIMA)	解釈性が高い・少量データでも機能	複雑な構造を表現しにくい
ノンパラメトリック時系列モデル	複雑なパターンに柔軟対応	多次元で直接の利用が困難
ベイズ回帰	不確実性を明示可能・スモールデータに強い	計算コストが高い・利用難度が高い

教師なし学習(クラスタリング分析)

クラスタリング分析は、そのデータに対する理解が非常に乏しく、データ内の類似性によってそのデータ自体の傾向を分析する領域です。実務上の課題は9割が教師あり学習と言われる通り、教師なし学習が必要とされるケースは決して多くありません。しかし、クラスタリングによって得られた示唆は、その後の教師あり学習の際の一つの有益な知見となることがあります。

主な活用例

顧客セグメンテーション
商品・店舗のグルーピング
異常値・外れ値の発見
ラベルが存在しない業務データのパターン抽出

代表的な手法	強み	弱み
デンドログラム（階層クラスタリング）	データ間の類似構造を樹形図で直感的に理解できる・クラスタ数を後から調整可能	計算量が多く大規模データに不向き・距離尺度に依存
主成分分析（PCA）	高速で安定・次元削減により構造を把握しやすい・ノイズ除去に有効	線形構造しか捉えられない・クラスタリング手法そのものではない
混合正規モデル（GMM）	確率的解釈が可能・柔軟なクラスタ形状・所属確率が得られる	初期値依存・分布仮定が必要・局所最適に陥る可能性
トピックモデル（LDAなど）	文書データの潜在テーマ構造を抽出できる・解釈性がある	結果の安定性が低い・パラメータ選択が難しい・再現性に課題
Auto Encoder	非線形な潜在構造を学習可能・高次元データ圧縮に強い・画像/テキストに有効	解釈が難しい・大量データと計算資源が必要・クラスタリングは別途必要
Embedding（BERT / Word2Vec / SentenceTransformer など）	意味・文脈・構造をベクトル化できる・テキスト/画像/行動ログに汎用的・クラスタリングや類似検索の土台になる	事前学習モデル依存・解釈性が低い・計算コスト

数理最適化 (オペレーションズ・リサーチ)

数理最適化は資源やリソースを複数保有する一つの意思決定者や機関が、そのリソースの価値を最大限に活用するための計画を数学的に導出する分野です。

例えば、Google Mapにて自宅からある地点への最短路を求めようとする場合、それを数理最適化と考えることができます。

数理最適化は、主に連続値のリソース (在庫数・原料の割合)を扱う数理最適化と、定性的なリソース (人員・パズルの駒)を扱う組み合わせ最適化に分類されます。

問題クラス（正式名称）	種別	何を決める問題か	主な応用分野
線形計画問題（LP）	数理最適化	制約条件の中でコスト最小・利益最大を求める基本形	在庫最適化、資源配分、原料ブレンド
混合整数計画問題	組み合わせ最適化	一部が連続値、一部が「やる／やらない」などの離散選択	生産計画、物流計画、エネルギー運用
割当問題	組み合わせ最適化	人や機械などを最適な相手に割り当てる	人員配置、タスク割当
車両経路問題	組み合わせ最適化	複数車両の最適な配送ルートを決める	配車計画、宅配、ラストマイル物流
スケジューリング問題	組み合わせ最適化	順序や時間割を最適化する	シフト作成、生産スケジュール
確率計画問題	数理最適化	需要など不確実性を考慮した最適化	需要変動下の在庫、電力需給計画

因果推論

因果推論は「次に何が起きるか」ではなく、「施策が何を変えたか（介入効果）」を問います。ランダム化実験が最も強い一方、観察データでは仮定と研究デザインが成否を決めます。反実仮想（ポテンシャルアウトカム）** や 因果グラフ、そして準実験デザイン（傾向スコア、DID、RDD、操作変数など）を状況に応じて使い分けられます。

元々統計分析は予測と因果推論が表裏一体であり、事象の説明がモデルに行えるならば、モデルは当然予測をし得るという前提がありました。しかし、画像認識や自然言語の理解を筆頭とする、この世の大多数の事象は単純なモデルでは説明が行えません。

機械学習領域ではこの説明力を担保するために、モデルの大規模化を行いました。大規模言語モデル(LLM)がその代表例ですが、ある時点で「予測は行えるけれど、予測が行えている理由はわからない」ようなブラックボックス化が進みました。

こうした背景で、近年「説明可能なAI」や「因果推論」の領域に脚光が当たっています。

代表的なモデル	強み	弱み
線形回帰モデル	実装が容易・基礎的な因果推定に使える・解釈性が高い	モデル仮定に強く依存・交絡除去が不十分な場合がある
傾向スコア法	観察データから疑似的な比較群を作れる・実務適用が多い	未観測交絡に弱い・推定工程が複雑
反実仮想モデル	「もし施策を行わなかったら」を推定でき直感的	前提条件が多い・設計と検証に手間がかかる
Difference-in-Differences（DID）	時系列変化を利用し政策効果を推定可能	トレンド仮定が成立しないと誤推定
Regression Discontinuity Design（RDD）	実験に近い精度で因果効果を推定できる	適用できる状況が限定的
操作変数法	観測不能な交絡があっても推定可能な場合がある	有効な操作変数を見つけるのが難しい
因果グラフ	因果構造を明示化でき仮定が透明	モデル設計に専門知識が必要

強化学習

強化学習は、機械学習のような予測手法とよく混同されますが、実際には数理最適化のモデルと同様で、実社会の問題を行動やその報酬といった概念によって数理的な課題やシミュレーションに落とし込んだものです。

ランダムな行動を行わせ、その行動による結果を成果報酬や罰則としてアルゴリズムに組み込むことで、徐々に機械が自ら実装者の目的を達成するような行動を自主的に学習させる方法です。

ロボティックス領域で主に注目されるこの領域は、一部レコメンドシステムや生成AIの学習で活用もされています。

問題クラス・モデル枠組み	代表的な手法	何を扱う枠組みか（平易な説明）	主な応用分野
マルコフ決定過程（MDP）	動的計画法、価値反復法	状態に応じて最適な行動を継続的に選ぶ意思決定の基本モデル	在庫制御、設備運用、動的価格設定
多腕バンディット問題	ε-greedy、UCB、Thompson Sampling	試しながら最良の選択肢を見つける学習問題	レコメンド、広告配信最適化

画像解析・自然言語処理

Transfomerの登場以降、言語の理解・生成はAttentionと呼ばれる仕組み・手法が主流になりました。画像でもTransformer（ViT系）が有力になりましたが、ResNetなどCNNは計算効率や少量データ、低レイテンシ要件で依然強い選択肢です。テキスト×画像のようなマルチモーダルでは、共有埋め込み空間（例：CLIP系）により検索や類似度計算に直結する使い方がされることもあります。

手法	強み	弱み	応用分野
Transformer系モデル（BERT, GPT, Vision Transformerなど）	文脈・関係性の理解に強い・事前学習により高精度・汎用性が高い	計算コストが高い・モデルが大規模で解釈しづらい	文書分類、要約、検索、画像認識、マルチモーダル解析
事前学習済み埋め込みモデル（SentenceTransformer, CLIP など）	少量データでも高性能・類似検索やクラスタリングと相性が良い	モデル依存・タスク特化には追加学習が必要	類似文書検索、画像検索、レコメンド、ナレッジ検索
CNN系モデル（ResNetなど従来型画像モデル）	計算効率が高い・小規模環境でも扱いやすい	文脈理解はTransformerに劣る	外観検査、医療画像、監視映像解析

よくある特殊なケース

スモールデータ：ベイズ推定で不確実性を明示し、転移学習で既存知識を再利用し、正則化（Lasso/Elastic Netなど）で過学習を抑えて安定化させます。
データの偏り（分布ずれ・サンプリング偏り）：重み付けなどで補正し、学習時と運用時のギャップを小さくします。
欠損：単なる「穴埋め」ではなくモデリング課題として扱い、多重代入などを含めて欠損メカニズムと目的（推定か予測か）に合わせて設計します。