分散データベース2

分散データベース - WebLab.otaの続き

Distribution,autonomy,heterogeneity

  • FDBS
    • (A1,D0,H1):異種混合
    • (A1,D1,H1):異種混合+分散
  • MDBS
    • (A2,D1,H1) (A2,D2,H1):各DBSコンポーネントがほかのDBSの存在を知らない.
      • 必要なときに自律的につながる
  • PDBS
    • MDBSのanother instanceに見える
      • しかし,2つは違うデータアクセス方法をサポートしてるよね
    • MDBSはマルチデータベースレイヤ上で問い合わせのインタフェースをサポートしている(下図参照)

    • PDBSは図のようにクエリが転送されていく
      • このとき,クエリはオリジナルから変更されて転送されるかもしれない.(中継ピアが変更する可能性があるよね)
      • さらにforwardingはマッピンググラフによって行われ,全ピアに転送されるとは限らない
    • 完全な応答が返ってこない(P2Pである以上仕方がないが)
    • ピアが自由に参加離脱できる
    • administrationのタスクを行う義務もない


(この分類だと不十分だから,以下の次元も考える必要がある)

データセントリック次元

  • データセントリックネットワーク
    • データを直接扱い,要求された情報をどのアプライアンスからどの経路を通して送るのが最も効率的かを判断して応答を返す.
      • これにより,高速かつ省電力な通信が可能となる.


(http://www.p-lab.jp/ronbun/file/M2_2007_tamura.pdf ユビキタス通信環境におけるシームレスネットワーク連携に関する研究)

fragmentation and allocation design
データ独立性
トランザクションのサポート
  • 基本的にACIDは無視される
  • PDBS
View on the world
  • データベースに問い合わせたら,正しい答えが返ってくる…
    • PDBSでは無理
      • 自由な参加離脱を許しているから
リコールとクエリサービス
  • 構造化P2P
    • キーワードベースの問い合わせに対応していない

P2Pセントリック次元

結合度
  • ほかの仲間の存在の自覚
    • DDBS
      • すべてのノードはほかのノードのことを知っている→密結合
    • PDBS
      • 近隣のピアの情報だけ知っている
      • 非構造化P2Pの場合,クラスタまたは階層によってグルーピングすることもできる
オーバレイネットワークトポロジ
  • 非構造化P2PとDDBSは似ている
    • 固定されたトポロジがない
ルーティング戦略
  • 非構造化P2P
    • 基本的にフラッディング
    • セマンティンクルーティングもできる
  • Semantic Overlay Network(SON) [Arturo 03]
    • コンテンツの意味的な関連に基づくピアによって形成される.
    • クエリーを適切なSONs に伝送することにより,検索式を満たすファイルをより高速に発見し,無関係なコンンテンツを持つノードの負荷を軽減する.
    • (http://www.ai-gakkai.or.jp/jsai/conf/2007/data/pdf/100025.pdf セマンティックな確率的P2Pルーティングの提案)
スケーラビリティ
  • 非構造化P2Pより構造化P2Pの方がスケーラブル
匿名性とセキュリティ
  • P2Pシステムの特徴は匿名である
    • 匿名を維持できるようにするべき
      • 情報の中に未知が残存すべき

分類

非構造化スーパーピアPDBS
  • Edutell(2002)
    • スーパーピアがルーティングを管理する
      • 単純にフォワーディングしていくだけだが
    • クエリは,RDFベースのtop-Kクエリってやつらしい.
構造化PDBS
  • Pier(2005)
    • P2Pファイル共有に適用できる
  • Galanis et al.(2003)
  • GridVine(2004)
    • P-Gridをベースにして,DHTベースのセマンティックオーバレイネットワークを構築する
  • UniStore(2007)
    • P-Gridをベースにして,類似検索ができる?
    • top-KとSkylineクエリ
ハイブリッドPDBS
  • Piazza(2003)
    • 異種混在のデータを統合することができる
  • HePtoX(2005)
  • PIERSearch(2004)
    • 通常Gunutella(フラッディング)
    • ポピュラーのオブジェクトはDHT
  • PeerDB(2003)
    • エージェントによって問い合わせ
分散DBS
  • Mariposa(1996)
  • R*(1988)
  • SDD-1(1981)

P-Grid

  • 仮想的な二分木をネットワーク上に構成し,二分木のルートからのパス情報を用いることで検索の効率化を図る
    • 各ノードは二分木のリーフ部に配置される
  • ルートからノードまでのパス情報はバイナリで表現
    • ノードはパス情報の各プレフィックスに対応するノードをルーティング情報として保持している.
  • データオブジェクトを一意に決定するオブジェクトIDも同様にバイナリで表現
    • オブジェクトIDとノードのパスとが完全に合致しているかどうかを判断する.
      • 完全に合致していれば検索対象オブジェクトを当該ノードが持つこととなり,問い合わせ結果として開始にノードに返す.
      • 完全に一致していなければ,ルーティング情報からオブジェクトIDのプレフィックスと合致するノードへ問い合わせをフォワードする.
    • この処理を繰り返すことによって検索が行われる.
  • O(log(N))

(http://www.ieice.org/iss/de/DEWS/proc/2003/papers/8-C/8-C-03.pdf P2P環境におけるシグネチャを用いたオブジェクト検索)

Top-k検索

  • 膨大なデータの中から必要なデータのみを効率的に取得する必要がある.
    • そのため,端末が何らかの値(スコア)によって順序付けられたデータの上位k 個以内のものを検索するTop-k 検索を用いることが有効と考えられる
  • センサネットワークの分野は,Top-k 検索によって消費電力を削減させ,ネットワーク全体の生存時間を長くすることを目的とした研究がいくつか行われている.
    • 文献[29, 30]では,フィルタリングされたセンシング情報に対してTop-k 検索を行うことで,センシング対象領域の異常などを検出する手法を提案している.
    • これらの研究では,センシング情報をフィルタリングしてTop-k 検索を行っており,検索条件によって端末のもつデータがスコア付けされる本研究と異なる.
    • 文献[26, 27] では,過去のセンシング情報から,予測できる情報の送信を抑制することで,消費電力を削減するTop-k 検索手法を提案している.
    • これらの研究は,過去の情報から現在の情報を予測できる環境を想定している点で本研究と異なる.

(http://www-nishio.ist.osaka-u.ac.jp/Thesis/bachelor/2007/hagihara/thesis.pdf アドホックネットワークにおけるトラヒック削減のためのTop-k 検索手法)