ちびのはてな

「ちび(猫)」と「キノコ」から生まれた「ちびキノコ」。ドラゴンボール最強!純粋なサイヤ人のように生きたいと思っているモノ作りを楽しむ人です。IT技術で少しでも多くの人が笑顔になってくれたらいいなと。

【メモ】知識について

これは、G検定のための個人的なメモである。
内容はとても薄い。


データ基盤技術

ビッグデータに対応する技術のこと。 データ基盤技術 には大きく3つある。

  • 大量のデータを低コストでシェアするための 「オープンデータ技術」
    • セマンティック Web
    • Linked Open Data (LOD)
  • 大量データを実用時間内に処理するための 「データ処理基盤技術」
  • データに含まれる個人に関わる情報を保護しつつ、データを有効活用する 「データ保護技術」

オープンデータ技術

セマンティック Web

Web ページに対するメタ情報(RDF: Resource Description Framework)と意味情報(オントロジー)を導入するもの。
情報リソースに意味(セマンティック)を付与することで、人を介さずにコンピュータが自律的に処理できるようにするための技術。

  • セマンティック Web に必要なもの
    • メタ情報
      • XML」や「RDF」で定義することができる
    • オントロジー
      • RDF Schema」や「OWL*1」で定義することができる

オントロジー

概念化の明示的な仕様 のこと。共通の概念の体系のことを指す。
単に知識を集めるだけではなくて、それを活用することに重点を置かれた。 OWL = DAML*2:Web の機械可読表現を目的とした言語 + OIL*3

LOD*4

既存のデータに対して、RDF を活用して、コンピューターがデータの意味を判読して Web のようにオープンにアクセスできるようにしたもの。
Wikipedia を LOD 化した DBpedia なるものがある。2019/03 時点で 1239 データセットが公開されていて、LOD Cloud と呼ばれる。

RDF に対する問い合わせは SPARQL*5 で行われる

データ処理基盤技術

大量データを実際に扱うための技術である。
大量のデータやリアルタイムデータの処理を従来のように行っていたのでは実用時間内に完了しない。

よって、以下のような手法が利用される

  • 分散並列処理
  • 圧縮データ処理
  • ストリーム処理

分散並列処理

複数の箇所で処理を 独立並列 に行う。
例えば、カメラ画像の認識と判断を1台でまとめて行うと課題な処理時間が発生するため、複数のカメラ画像を取りまとめるノードで認識処理を行い、中央では認識結果を利用した判別だけを行うなどして、負荷を抑える

圧縮データ処理

圧縮されたデータのまま処理する方式一般のこと。
圧縮データをそのまま読み込むことができれば、伸張されたデータを扱う場合に比べて読み込み速度が短縮できる。
読み込みだけでなく、書き込みに対しても同じことが言える。

ストリーム処理

データを蓄積することなくリアルタイム時間で処理して、そのまま次の処理へ渡す方式のこと。
読み書きが入らないことで、処理時間を短縮することができる。
一方、リアルタイムに処理を行えるだけのマシンパワーが必要になるが、読み書きを行う外部記憶装置は不要になる。

データ保護技術

データ保護技術では、以下を両立させる必要がある

  • セキュリティ面
    • 個人の特定を不可能にする「プライバシー保護」
    • データの「漏洩対策」
    • など
  • ビッグデータに対する処理効率

プライバシー保護

一般的には、個人を特定できるような情報を秘匿する「データ匿名化」があるが、
希少疾患の病歴、高額所得といったデータと年齢、性別、地域などの情報(準識別子という)を組み合わせて個人を特定できてしまう可能性がある。

上記を防ぐ手法として k-匿名性 というものがある。
k-匿名性 は、データ中の準識別子の任意の組み合わせによる検索結果がk件以上になるという匿名性指標のこと。
データを公開するときに k-匿名性 を満たすように準識別子を加工することで匿名性が確保されるという考えである。

実際には l-多様性: 同じ準識別子の組み合わせデータのグループに対してl個以上のセンシティブ*6情報が入るt-近接性: 同じ準識別子の組み合わせデータのグループ内のセンシティブ情報の分布とデータ全体のセンシティブ情報の分布の差がt以下 といった指標が用いられる事が多い。

テキストからの知識獲得

知識のためのビッグデータとして、Web 上の情報が使われることが多い、内容に誤りも多く、量が豊富でも質が良いとは言えない。これに対して、誤りが少ないと考えられるのが「科学技術論文」である。
こうした大量の「科学技術論文」そのものをテキストマイニングを行うなどして知識を獲得している。

自然言語からの知識獲得に関しては、ニューラル自然言語処理が見い出されている。

知識グラフ

知識グラフとは、エンティティ間の関係を記述することで 知識のネットワーク を作る手法である。主語、述語、目的語といった3つの情報の組(トリプル)を使って記述する。
「皇居は、千代田区に、ある」「千代田区は、東京都に、ある」「東京都は、日本の首都、である」といった具合に記述することで、知識ネットワークを作成する。

最新技術動向

知識を使った推論(推論チャレンジ)

知識グラフは「獲得した知識をオントロジーを使って統合し、推論を適用することで新しい知識を導き出すものである」とも定義される。この「推論」に焦点を当てた技術開発も盛んで、例えば人工知能学会で開催される「ナレッジグラフ推論チャレンジ」では、推理小説の犯人を推論する。

知識グラフを作成する際の問題としては以下が挙げられ、知識グラフの補完、オントロジーマッチング技術、誤り検知・修正技術が研究されている

  • 知識の資源自身が不完全である問題
  • 新しい情報を追加する問題
  • 誤った知識の混入問題

*1:OWL: Web Ontology Language

*2:DAML: DARPA Agent Markup Language

*3:OIL: Ontology Interface Layer

*4:LOD: Linked Open Data

*5:SPRRQL: Protocol and RDF Query Language

*6:センシティブ: 「外部の刺激に反応しやすい」という意味合いを根本とし、「敏感」「鋭敏」「過敏」「繊細」などとも訳される。