電力使用量データに適した匿名化
そこで、本提案では、各家庭からの電力消費量の匿名化の手法として、「ガウス分布を用いた存在確率表現」注3で示すことで、分布情報を温存することが考えられている。
〔1〕ガウス分布を用いた存在確率表現
ガウス分布を用いた存在確率表現について、数式を図3に示す。この数式では、μはi番目のクラスタの平均値を表し、αはデータのあいまい度合いを表している。
図3 電力消費量の匿名化に使用する「ガウス分布に基づいた存在確率表現」
〔出所 西宏章氏資料より〕
各家庭からの電力使用量データをこの方法で匿名化した場合、ガウス分布の頂点がもっともデータ密度が高い場所になり、また、ガウス分布の裾を見ることで、データの分布の幅に関しても把握することができる。
加えて、ガウス分布の曲線内は、存在確率の合計なので、面積の合計は100%、すなわち1.00となる。つまり、電力の使用量が、供給を予定されている電力の10%を上回ると予想される場合、このグラフよりも10%面積が小さくなる境界線を求めることで、10%の電力使用を削減するデマンドレスポンスのプランが作成できる。
〔2〕匿名化データを使用したデマンドレスポンス
具体的に、この手法を利用して、デマンドレスポンスのプランを作成する例を、図4に示す。
図4 「ガウス分布に基づいた存在確率表現」による匿名化データを使用したデマンドレスポンスの例
〔出所 西宏章氏資料より〕
この図は、50件の家庭の電力消費データについて、ガウス分布を用いた存在確率表現で表したものである。このグラフを用い、通常時の電力使用量の多寡にもとづいてグループ分けを行うことで、各家庭に発令するデマンドレスポンス情報が生成できる。ここでは、電力の使用が多い家庭にはより多い電力削減を、少ない家庭には少ない電力削減を提示することを想定する。この場合、一般的には各家庭の電力使用量の情報を入手する必要があるが、この匿名化手法を用いると、各家庭からの電力使用量データという個人情報を取り扱わずに、適正なデマンドレスポンスを行うことができる。
また、個人情報を取り扱う機会が減るため、アグリゲータ企業の個人情報管理のリスクも軽減することができる。
提供データ管理機関の設置
〔1〕匿名性の喪失
ここまで、ガウス分布を用いた存在確率表現を用いることで、各家庭からの電力データの有用性を損なわず、匿名化した情報を提供できることを説明した。しかし、匿名化は、オリジナルのデータをもとに、異なったパラメータ(設定値)で匿名化された複数のデータを照合することで、匿名性が喪失されてしまうことがある。
図5では、同じデータをもとにした2匿名化と3匿名化注4のデータテーブルを示している。それぞれのデータは、2匿名化のものは最大でも2データまでしか特定できず、3匿名化のものは3データまでしか特定できないように匿名化されている。この2匿名化と3匿名化のデータテーブルを互いに照合してみると、オリジナルデータの情報(図5左、k=1のデータテーブル)が特定できてしまう。
図5 匿名性喪失問題とその対策
〔出所 西宏章氏資料より〕
〔2〕発行済み匿名データの管理
このような問題を解決するため、本提案手法では、「データ二次利用基盤の構築」と「匿名化データの要求/提供フォーマットの作成」についても提案している。次に、それぞれについて解説する。
データ二次利用基盤として、次のような機能をもつ機関が提示されている(図6)。
- データの発行機関
- データの提供ルールの管理機関
- 発行済データの管理機関
図6 データ二次利用基盤のイメージ図
〔出所 西宏章氏資料より〕
先ほど述べた、いくつかの匿名性データを組み合わせることで、匿名性が薄れてしまう問題は、匿名化された複数のデータのどちらもが、最初のオリジナルデータから作られた場合に発生する。しかし、例えば3匿名化のデータを発行する際、すでに2匿名化のデータが発行されていることを認識し、発行済みの匿名化データ(この場合2匿名化データ)をもとに漏えい対策が施されたデータを提供することで、データ同士の照合を行っても、2匿名化以前のデータを特定することはできない〔図5中央下、k=3のデータテーブル(対策あり)を用いる〕。
このように、データ管理機関が、発行したデータの管理を行い、かつ、それらをもとに対策を施した匿名化データを提供すれば、新たなデータの発行を行ったとしても、データの匿名性は保証される。
しかし、提供するデジタルデータに関しては、不正な複製操作や、データ改ざんなどが行われる可能性がある。その危険を防ぐため、データ管理機関が、データの認証に関しても責任をもち、電子透かしによる複製の区別を行うことも想定される。電子透かしを入れることで、正式な認証機関から発行されたものである証明が行えることに加え、データが漏えいした場合にも、漏えい元が特定できる。
これらに加えて、提供データの管理を行ううえでは、どのレベルの匿名化されたデータが要求され、そして、どのようなデータを提供したのかということを、統一のフォーマットで管理する必要がある。そのため、本提案では、将来の技術標準化を見据えて、このフォーマットをXMLベースで作成し、プライバシー基準の指定(匿名化度合い)のほか、注目属性注5の指定、準識別子注6の指定が可能な形式を定めている(図7)。これにより、対象データからどのような匿名化データが発行されたかを管理できる。
図7 匿名化データ取引時のXMLベースフォーマット
〔出所 西宏章氏資料より〕
〔3〕需要家、企業ともにメリットのあるビジネスの創出に期待
ここまで、スマートグリッドにおいて必要となる、電力消費量データの匿名化と管理、そして流通について解説してきた。
「本提案は、デマンドレスポンスに必要となる個人情報の処理に関してはもちろん有効だが、データ管理機関によって発行される情報を各企業に販売するなどによって、需要家にとっても企業にとっても、メリットのあるビジネスを展開できる」と西教授は言う。
例えば、電力会社やアグリゲータ企業が、取得した各家庭からの電力使用量情報を企業のマーケティング部門に販売して収益を得た分、需要家には情報提供相当分の電力使用料金を安くするなどのモデルが考えられる。
もちろん、このようなビジネスを展開するには、企業が取得した個人情報をビジネスに利用してよいかどうか、オプトインを徹底し、法体制なども整える必要がある。しかし、今まで得ることができなかった有用性の高い情報が生まれるスマートグリッドにおいて、安全な情報インフラを整え、適切な形で使用していくことで、消費者としてもメリットを享受できるようになるであろう。
現在、川崎市の武蔵小杉駅周辺で進められているスマートコミュニティ事業では、本提案手法を取り入れた需要抑制が行われる予定である。
今後さまざまなデータビジネスが展開されると考えられるが、特に電力インフラにおいては、2年後に控えた電力自由化や今後急速に普及するスマートメーターなど、大きな変革点を迎えようとしており、この機会をとらえるかどうかが今後の展開に大きく作用するであろう。新たなビジネスが活発に生み出されることに期待したい。
▼ 注3
ガウス分布を用いた存在確率表現:ガウス分布とは、正規分布と同意であり、データの密度が高いところが頂点となるような確率の分布である。存在確率とは、確率変数の各々の値に対して、対象(ここでは需要家)が存在する確率のことである。
▼ 注4
2匿名化と3匿名化:「k匿名化」という匿名化の手法のひとつ。あるデータから個人の情報が特定されないよう、項目データの組み合わせがk個以上存在するように加工すること。
▼ 注5
注目属性:データの要求者が最も重要視している情報のこと。
▼ 注6
準識別子:注目属性以外で、個別のデータの特定が可能な情報のこと。