リアルワールドデータ(RWD)の新たな可能性 電子カルテとDPC、両データで見る新しい医療インサイト MDV/TXP Medical共催 無料オンラインセミナー

コラム

データ解析とは?分析との違いや手法を解説 #008

ヘッダー画像

IT技術の進歩によって、ビッグデータのような大容量データの処理を可能とする技術が開発され、さまざまな業界でデータ解析の必要性に注目が集まっています。
しかし、解析手法の目的や、データ内容に適した解析手法を知らないままデータを取り扱っては、価値あるデータ解析の結果を得ることができません。

そこで今回は、データ解析の具体的な手法や製薬会社での取り組み例などを交えながら、データ解析について詳しく解説します。


データ解析とは

データ解析とは、データ分析した結果を受けて、なぜこのような結果になるのか原因や理由を解明することをいいます。
データ解析には、その目的に応じてさまざまな手法があります。

AIや機械学習の分野では一般的に用いられていますが、マーケティングなどのビジネス分野や、薬剤の効果測定をする医療分野、さらに教育分野などでも、幅広くデータ解析が活用されています。

データ分析との違い

データ解析と似た言葉に「データ分析」があります。
言葉の響きはそれぞれ似ていますが、この両者には目的に明確な違いがあります。

まずは解析と分析、言葉が持つ意味の違いからみていきましょう。

  • 分析
    ある事柄の内容・性質などを明らかにするため、細かな要素に分けていくこと
  • 解析
    物事を分析して論理的に明らかにすること

データ分析もデータ解析も目的とするところは、上述の言葉の意味するとおりです。
データ分析では、データをいくつかの要素に分けることを目的としています。

一方、データ解析では、分けられた要素から論理的に何らかの答えを導きだすことが目的です。

例をあげると、学習塾の保護者アンケートで「成績が上がった50%、現状維持20%、成績が下がった30%」と結果を出す作業が分析にあたります。

この結果を受けて、「成績が下がった生徒が30%もいるのは、授業内容に問題があるのではないか?」などと仮説を立てて、さらに分析を重ねて原因を追究する作業が解析です。
データ分析から得られた事実に対し、データ解析によって深い考察を加えることで、事業に役立つ価値ある情報を得ることができます。

データ解析の手法

データ解析の手法の図

データ解析する目的や内容によって、解析手法もさまざまなものがあります。
今回は数ある手法の中から、代表的な8つのデータ解析の手法について解説します。

1. 決定木分析

決定木分析とは、「分類木」と「回帰木」を組み合わせてツリー図(樹形図)を使って解析していく手法です。
分類木とは、複数ある条件とその条件下でなされた選択(YES/NO)を分類することです。

スポーツクラブ入会の例で説明すると、入会の条件設定を「平日利用と週末利用、日中利用と夜間利用」と複数設定した場合、それぞれの条件で「入会する/しない」の選択結果を分類します。
回帰木とは、ある条件と選択結果に対して、新たな条件と選択結果を設定し、階層的につなげていきます。

上述のスポーツクラブ入会の例でいくと、平日利用→入会50名→夜間利用→入会30名という感じです。
決定木分析では、どの要素がどれくらい影響を与えているのか、各要素の影響度合いを視覚的に捉えることができます。

2. RFM分析

顧客解析の手法の1つであるRFM分析は、直近の購入日(Recency)、購入頻度(Frequency)、購入累計額(Monetary)の3つの指標を用いて、顧客をグルーピングし解析します。
RFM分析という名称は、これら指標のアルファベットの頭文字をとったものです。

グルーピングする目的は、顧客をランク付けすることにあります。
ランク付けすることにより、それぞれのランクに応じた有効なマーケティング施策を取ることができるようになります。

例えば、購入頻度は高いが、直近での利用がない顧客グループに対して、おすすめ商品などを紹介するDMを送るといったようなことです。
RFM分析は、マーケティング施策を効率的に実行する有効な解析手法でもあります。

3. 回帰分析

回帰分析は、将来予測をする際に使われるデータ解析の手法です。
どのような要因があると、どういった結果がでるのかといった変数を用いて解析します。

なお、要因を表す変数を説明変数、結果を表す変数を目的変数といいます。

例えば、気温の変化がアイスの売り上げに関連がある場合、回帰分析を使って気温の変化からアイスの売上予測を立てることができます。
回帰分析は、変数の数や種類に応じて手法が異なり、単回帰分析、重回帰分析、ロジスティック回帰などさまざまな解析手法があります。

売上や来場者予測などビジネスの分野だけではなく、病気の予測など医療の分野でも用いられる解析手法でもあります。

4. クラスター分析

クラスター分析とは、異なる性質が混ざり合った集合体の中から、似たような特徴をもつ個を集めてクラスター(集団)をつくり、解析する手法のことをいいます。
この解析方法では、性別や年齢といった外的要因でグルーピングせず、「ヘルシー志向」、「アニメ好き」といった内的要因でグループピングし解析する際に用いられます。

クラスター分析には、解析の過程で小さなクラスターから大きなクラスターへと分類していく「階層分析」と、あらかじめいくつかクラスターを想定した上で振るい分けする「非階層分析」の2タイプがあり、ビッグデータのクラスター分析では後者を用いるのが一般的です。

5. アソシエーション分析

アソシエーション分析とは、無数のデータの中から関連性を見つけ出す解析手法です。
「Aという条件の場合に、Bという結論が出る」といったルールの信頼性を、支持度(全体の中で先述のルールが発生する割合)や確信度(Aの条件下でBの結論がでる割合)などを使って評価します。

アソシエーション分析を説明する有名なエピソードに「オムツを買う顧客は、ビールも一緒に購入する」という話があります。
このエピソードが示すとおり、アソシエーション分析では、思いもよらない関連性が発見されることがあるのです。

6. バートレット検定

バートレット検定では、3項目(3群)以上のデータの分散(ばらつき)が、それぞれ均一かを確かめることを目的とします。
医療統計で用いられるT検定や分散分析のような分析手法を用いる場合、データの分散が均一であることを分析の前提条件としているため、バートレット検定であらかじめデータの分散具合を確かめる必要があるのです。

バートレット検定と似た手法にF検定がありますが、これは2項目(2群)に対して分散具合が等しいかを検証するものであり、両者では扱う項目数に違いがあります。

7. ランダムフォレスト

ランダムフォレストでは、ビッグデータからサンプルをランダムに抽出し、決定木を用いて各々のサンプルを分析します。
それぞれの分析結果から多数決もしくは平均を採って、将来の予測などをする分析手法になります。

複数の分析を組み合わせて検証することで、より精度の高い分析を目指しているのが、この手法の特徴です。
実装も容易にできることから、機械学習の中では広く使われているデータ解析手法でもあります。

8. SVM(サポートベクターマシン)

サポートベクターマシンも、ランダムフォレスト同様に、高い精度をもって解析をしたい場合に使われる手法です。
データを使って予測解析をする場合、外れ値を入れた状態でデータ解析をすると、精度の低い結果が抽出される可能性があります。

そこで、サポートベクトルを使ってデータを補正し、外れ値をなくしてから、解析精度を高める手法になります。
機械学習の分野では、サポートベクターマシンも精度の高い解析手法として用いられています。

製薬会社でのデータ解析

データ解析の手法について具体的に解説してきましたが、ビジネスの分野だけではなく新薬の開発・治療効果の検証などの分野においても、データ解析の手法は幅広く活用されています。

ここでは、医薬品の開発現場でどのようにデータ解析が活用されているか、紹介します。

データ活用によるプレシジョンメディシン(精密医療)

同じ疾患をもつ患者へ同じ治療薬を投与する場合、治療薬の効果や副作用のあらわれ方には個人差があります。
プレシジョンメディシンは、データ解析によって、この個人差を減らして、個々に有効性のある治療をするという考え方を示したものです。

活用例として、ヒトゲノム情報をはじめとする生体情報などの医療ビッグデータを解析し、個人が持つ特性によって治療薬の効果や副作用がどう変わるのか予測する研究が行われています。
この研究は、個人の病状や特性にあった適切な治療薬の投与に、役立てられることが期待されています。

治療薬の効果検証にネットワークメタアナリシスを活用

ネットワークメタアナリシスは、医薬品の評価において最近注目を集めている解析手法です。
従来の手法では2種の治療を比較できましたが、このネットワークメタアナリシスでは3種以上の治療を同時に比較できるとして、評価する治療数が多い状況下で、この解析手法が活用されているケースがあります。

活用事例として、双極性障害の治療に関する臨床試験の蓄積データを基に、ネットワークメタアナリシスによって解析し、治療薬の有効性や安全性を検証する取り組みが報告されています。

データ解析は価値あるデータを得るための必要な手段

データ分析から得られた事実に対して、さらに考察を加えることで理由や原因を探り当てるデータ解析は、有益なデータを得るために欠かせない手段です。

このため、データ解析の手法は、ビジネスの現場だけではなく、医療や製薬業界においても採り入れられています。

メディカル・データ・ビジョン株式会社は、データ解析をサポートするツールやサービスを提供しています。
ぜひ一度お問い合わせください。

page top