トップ 新規 編集 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン

インターネット検索

 情報源としてのウェブページ

Webページの信頼性

  • サーチエンジンで検索をすれば、大抵は検索結果を得ることができる。しかしながら、Webページ上の情報は、非常に多くの多種多様な情報が含まれている。信頼できる情報をえるためには、以下のようなことを注意する必要がある。
    • ページの作成者が、収集したい情報を専門に扱っている人物かどうかを確認する。
    • 複数のWebページを比較したり、図書、新聞記事、雑誌記事など他のメディアからの情報も照合し、違いがないか調べる。
    • 信頼できそうな表現方法でも、意図的にゆがめられた情報もあるので、作成者の意図を汲み取る。
    • 作成日、更新日付を確認する。とくに、最新情報を得たい場合には、いつ作成(更新)されたかページであるかを確認すること。


 検索エンジン

検索エンジンの概要

  • 検索エンジン 【サーチエンジン】別名 : search engine

 インターネットで公開されている情報をキーワードなどを使って検索できるWebサイトのこと。サーチエンジンはページに掲載する企業の広告料金で運営されるため、利用するために料金を払う必要はない。サーチエンジンは、WWWなどで公開されている情報の全文を貯えておき、キーワードによって検索する全文検索型と、カテゴリー別に分類されているディレクトリ型の2種類に大別できる。最近では全文検索型でもディレクトリ型の情報提供をしているところが増え、またディレクトリ型のサーチエンジンにも検索機能が搭載されるようになってきた。日本のサーチエンジンは、全文検索型ではGoogleやgoo等が有名で、ディレクトリ型ではYahoo! JAPANが有名。

(IT用語辞典e-Wordsより)

ディレクトリ型とロボット型

  • ディレクトリ型検索エンジン
    • 分類体系(ディレクトリ構造)をたどっていくことによって検索を行う
    • 検索結果は順位付けされていない
    • キーワードで検索することもできる
    • 「登録型」とも呼ばれる

  • ロボット型検索エンジン
    • 検索フォームに検索式(キーワードなど)を入力して検索を行う
    • 検索結果は検索式とのマッチング・スコア順に出力される
    • 「自動収集型」、もしくは「全文検索型」とも呼ばれる
  • ロボット型とディレクトリ型の境界
    • 最近ではロボット型でもディレクトリ型を提供する場合が多くなりつつあるため両者の境界はあいまいになっている

メタ検索エンジン

  • 複数のサーチエンジンを同時に一括して検索する検索サービス
  • 例)CEEK.JP http://www.ceek.jp/
    • 「最大17個のロボット検索エンジンで検索し、整理して表示する、統合型メタサーチエンジンです。」(CEEK.JPのトップページより)

 検索エンジンWWWロボット

WWWロボット(クローラー)の動作

  1. スタート地点として与えられたページを「URLリスト」に追加する
  2. 「URLリスト」から訪問すべきページを取得
  3. ページ中のリンクを列挙し、未訪問のリンクがあったら「URLリスト」に登録
    • 基本的にはアンカータグ、フレームタグを解析する
  4. 十分なデータが集まれば終了、または2へ

実際のロボット

  • 優先:
    1. リンクの集中する人気ページ、特に被リンクが多いページ
    2. URLが短いページ
  • 非優先:
    1. CGIと分かるページ
    2. URLに数字を含むページ

ロボットの問題

  1. 辿れない部分の存在
    • ロボットはリンクが張られていないページ群を探すことはできない。たとえば図1においてページAからロボットが収集を開始した場合には中央の島ページ群という枠で囲まれた3ページにはアクセスすることがない。
    • サーチエンジンで探せなくてもWebページが存在することもあることに留意する
  2. 言語圏によるリンク格差
    • 英語圏以外のロボット作成者が指摘するように一般的にWWWではある言語のページからのリンクは同じ言語圏内になることが多い。
    • 以前は、同じ言語圏のサーチエンジンを使った方が良かったが、現在ではGoogleなどのように国際的なサーチエンジンでかつ登録数が多いものがあるため、必ずしもそうでもない

  • 図1 島ページ群

  • 図2 言語圏間のリンク格差

 検索エンジン最適化

検索エンジン最適化とは

  • 定義
    • 「サーチエンジンの検索結果のページの表示順の上位に自らのWebサイトが表示されるように工夫すること。また、そのための技術。」(IT用語辞典より抜粋)
  • SEO(Seach Engine Optimization)、サーチエンジン最適化、検索エンジン対策、検索エンジンポジショニングとも呼ばれる

検索エンジン最適化の影響

  • お金をかければ検索エンジンの検索結果の上位に自分のサイトを出力させることができる
  • → 検索エンジンの順位は操作がされているものと認識し、検索エンジンの順位をあまり信用しない。

 検索エンジンを使うときの留意点

検索エンジンを使ったウェブ検索では

  1. 特定性の高い検索式を心がける
    • 数多くの検索結果が出てしまうが、検索エンジンの順位をそれほど信頼せず、できるだけ自分の意図する形で検索結果を絞っていく
  2. 複数のキーワード
    • 同義語を複数使うのではなく、より特定性を高めるために
  3. 出現しそうなキーワード
    • 「木村拓哉」について探したい ⇒ 「キムタク」
  4. 複数の検索エンジンを使う
    • 最も登録数の多い検索エンジンでもインターネット上のウェブ情報すべてを登録しているわけではない ⇒ できるだけ網羅的な検索を行うには複数の検索エンジンを検索
    • 検索エンジンによって得意な領域が異なっている ⇒ 検索エンジンを使い分ける
  5. 検索結果のリンクが見つからなくてもあきらめない

 代表的な検索エンジン

Google http://www.google.co.jp/

  • 概要
    • ページランクなどの高度な検索アルゴリズムを用い、検索精度で定評がある検索エンジン
    • 世界的に検索エンジン市場ではほぼ独占的になりつつあるが、日本ではYahoo! Japanの方が依然として使われているらしい。
    • 特徴としては、Page rankによる検索の正確さ、シンプルなインターフェース、キャッシュ、分散検索による高速性、ページ登録数の多さなど
  • 検索オプション
    • site: サイトを限定して検索する(例:site:asia-u.ac.jp
    • filetype: ファイル形式を限定して検索する(単独で用いることはできず、キーワードと併用しなければならない)
    • intitle: <title>タグに囲まれた文字列限定して検索する(例:intitle:根性
    • inurl: URL内の文字列に限定して検索する(例:inurl:2ch
  • 特殊な検索
  • Googleマップ
    • 住所、店名、業種、ランドマークといった様々なキーワードで地図検索が可能
  • Googleアラート
    • 予めキーワードとメールアドレスを登録しておけば、そのキーワードに関する最新のニュース、検索結果、ニュースグループへの投稿が更新された際に、メールで通知してくれるサービス

Yahoo! Japan http://www.yahoo.co.jp/

  • 概要
    • ディレクトリ型検索エンジンの代表的なサービス。
    • ロボット型検索サービスには、以前はGoogleのエンジンを使っていたが、一度、独自のYST Searchエンジンに変更した。現在は再びGoogleの検索エンジンを使っている。
    • 日本でのシェアは相変わらず高い

Bing https://www.bing.com/

  • 概要
    • マイクロソフト社の提供している検索エンジン。WindowsのInternetExplorerで特に設定しないとこのエンジンで検索が実行される。

 課題

全体的な課題

  1. 誤った情報を掲載しているウェブページを発見しなさい。
    • 具体的には信頼できると思われる情報源に掲載されている記述と異なる記述を探すこととなる。
    • 例えば、有名人の生没年、事件の発生年や場所などの記述であれば、間違いが判断できるため、探索しやすいと思われる。
  2. ある検索エンジンには登録されているが他の検索エンジンには登録されていないページを探しなさい。(Googleには登録されているが、Yahoo! Japanに登録されていない、Bingには登録されているがGoogleには登録されていないページ)
    • 普通の方法としては、自分のよく知っている分野の特定性の高い語を入力し、その検索結果を比較する。数件しか検索結果が出てこないものであれば、比較する労力はそれほどでもないと思われる(自分の名前で検索してみるなども有効な手段?)。
    • 他には、YahooやGoogleからあえてはずされているページがどのようなものかを想像してみる

検索練習

次の問題について調べ、検索方法と回答およびその根拠となるURL を答えなさい。対象となるサイトは日本語のものとは限らない。

一般的な検索エンジンを用いた課題

  1. 郵便物に記載された郵便番号を自動的に判別して仕分ける装置について、その装置の公的な名称、国内で実用化された年、その装置の画像が見られるページのURLを答えなさい。
  2. 高層ビルについている赤い点滅する照明について知りたい。その名称はなんというか。 またこの照明をつけるのはどんな法律で定められているのか。原文も知りたい。
  3. 2007年のノーベル平和賞の受賞者は誰か、答えなさい。通称・正式名称ともに知りたい。また、受賞者の名前が入った賞状の画像が見られるページのURLを答えなさい。
  4. ブルックナーの交響曲第9番の総譜を閲覧できるサイトを探しなさい。

特殊な分野の検索エンジンを用いた課題

  1. 「東京都大田区羽田1-2-6」の隣のビルの駐車場には大きな文字列が書いてあるらしいが、その文字列を調べなさい。
  2. 西川氏があるアルコール飲料[1]の酵母を用いて実験を行った成果を書いた(学術)論文で2004年に出版されたもののタイトルを調べなさい。[2]
  3. 情報リテラシー教育の必要性を示した「Did You Know」から始まるタイトルの動画で日本語字幕が付与されたものを探し、URLを答えなさい。
  • [1]ビールです。
  • [2]ヒントとしては、文献が数件出てくるまで絞れたら、PDFファイル内の検索で「酵母」というキーワードで探してください。
言語圏間のリンク格差.png 島ページ群.png

最終更新時間:2017年07月21日 09時30分41秒