トップ 新規 編集 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

情報検索の基本

 データベース (database)

レコードとフィールド

:検索対象となるデータの集合を「レコード」,レコードを構成しかつ各レコードに共通する記述項目を「フィールド」と呼ぶ。

  • 下記の例では,各横行がレコード,各縦列がフィールドに該当する。

     書誌データベースの構成
 ┌──┬───────┬────┬───┬───┬─┬───────┬────┬────┐
 │ID  │     標題     │著者名  │出版者│出版年│..│著者名典拠    │件名    │分類番号│
 ├──┼───────┼────┼───┼───┼─┼───────┼────┼────┤
 │001 │バカにつける薬│呉智英  │双葉社│1996  │  │くれともふさ  │        │304     │
 ├──┼───────┼────┼───┼───┼─┼───────┼────┼────┤
 │002 │バカの壁      │養老猛司│新潮社│2003  │  │ようろうたけし│        │304     │
 ├──┼───────┼────┼───┼───┼─┼───────┼────┼────┤
 │003 │まれに見るバカ│勢古浩爾│洋泉社│2002  │  │せここうじ    │        │304     │
 ├──┼───────┼────┼───┼───┼─┼───────┼────┼────┤
 │004 │          │       │     │    │  │          │        │        │
 ├──┼───────┼────┼───┼───┼─┼───────┼────┼────┤

  • フィールドを「項目」と表記している検索システムは多い。

 文字列の照合

マッチング (matching)

: 検索式として入力された文字列と,データベースに記入されている文字列との照合操作。

 もっとも単純な意味での「情報検索」とは,文字列の照合操作である。(Windowsソフトウェア付属の「検索」機能を見よ)
  • 原則:データベース製作者側が対応する文字列を記入していなければ,レコードを推定するのに妥当な表現でも検索されない。 → DB製作者が正確かつ迅速に必要な量のデータを入力をする必要がある。特に,書誌データベースならば主題表現(ディスクリプタなど)を付与する必要がある。
  • 原則 : 完全に同一の文字列のみを照合する。「さんま」と「サンマ」と「秋刀魚」は意味が同一でも別の文字列として認識される。(すなわち,「さんま」という検索式では後者二つで表記されただけのレコードは検索されない)。「Q」と「q」,「4」と「4」など,大文字と小文字,半角と全角の違いがある場合,原理的には異なる文字列として認識される。
  • 例外(多数):ただし,大文字小文字,半角全角に関しては,多くのシステムで同一文字として認識するプログラムが組まれており,デフォルトまたはオプションとして利用できる。

表記の修正または典拠コントロール

  • 現在普及しているかなりの検索システムでは,多少の表記の異なりに対応する操作が組まれている。大文字と小文字,半角と全角,「コンピュータ」を「コンピューター」などを同一視するようプログラムが組まれていたり,同名異人などを識別するためのファイルを装備していたりする。後者を特に「典拠ファイル」といい,そのような操作を「典拠コントロール」という。
 google等  ダイヤモンド = ダイアモンド
 多くのOPAC シェークスピア = シェイクスピア = 沙翁 ※典拠コントロール
 多くのOPAC 塩野七生 = しおのななみ = シオノナナミ ※典拠コントロール
 多くのOPAC 真木悠介 = 見田宗介 (異名同人) ※典拠コントロール
 AllMusicGuide  Evans, Bill (1929-1980) / Evans, Bill (1958- ) (同名異人) ※典拠コントロール
 (Amazon.co.jpは典拠コントロールを行っていない。したがって,後者のBill EvansのCDを探すことは困難である)


 検索の対象

レコードが直接の検索対象

:一つの検索操作で一レコードしか表示しない場合。同一文字列を含むレコードが複数あっても,検索操作を数回行わなければ,該当レコードの全貌を掴むことができない。

  • 小規模データベースの場合,同一文字列を含むレコードが複数あっても,数回の検索ですべての該当レコードを閲覧することは手間ではない。
    • 例えば,鈴木と苗字が7人含まれている住所録に「鈴木」をキーワードに検索を行うとする。レコードを直接の検索対象とする場合,ヒットは最初に登場するの「鈴木」のみであり,他の六人分は,次回以降に検索操作を6回行わなければ,文字列「鈴木」での全体のマッチングは終了しない。
  • データベースが大規模になると,結果の全貌をつかむためのこのような操作は面倒になる。

索引ファイル (inverted file)

:レコード中に含まれる文字列を見出し語としたファイルで,該当文字列を含むレコードのリストをリンク付で表示する。「検索結果」として表示される該当レコードをリスト化したファイル。

  • 大規模なデータベースの場合,直接の検索対象は索引ファイルである。検索者はファイルに含まれた結果表示のリンクを辿って,必要なレコードを閲覧することができる。
  • 索引ファイル中のレコードのリストの並び順は,多くの場合,発行年月日,著者またはタイトルの頭文字の音順or文字コード順のどれかで表示される。索引ファイルの規模が大きいサーチエンジンでは,独自のアルゴリズムを用いてレコードの重み付けを行っている。

[情報検索]

最終更新時間:2010年04月16日 09時28分46秒