トップ 新規 編集 差分 一覧 ソース プレゼンテーション 検索 ヘルプ PDF RSS ログイン

FrontPage

 本の需要に関係しそうなイベント


 2014年2月リスタート以後

2014年02月27日のメモ

    • 決めたこと
      1. 3月中は1周間に一度程度
      2. 中期目標は秋の学会発表
      3. 4月から定期調査開始
      4. Java8を見据えて、プログラミングの学習を進める
    • 次回まで宿題
      1. いままでやってきたこと、作ってきたものの見直し(二人)
      2. ベストオーダーに影響しそうなイベントの洗い出し(二人)
      3. 調査用サーバのセッティング(安)

2014年03月06日のメモ

    • 次回までの宿題
  • 図書館リストのアップデート(二人)
  • 3月中、ベストオーダー情報取得に関して不具合(例えば、二重取得等)のある図書館について原因を調査し、不具合を修正する。
    • CLIS400(安)、京セラ、三菱(南)
  • Amazon APIで、ベストセラーリストないし、図書館のベストオーダーに登録されたタイトル情報を取得する方法を模索する。(安)
  • 図書館の選書論等で言及されている文学賞を洗い出す。(二人)
    • 昨年度の実績のある本屋大賞に関しては含める

2014年03月24日のメモ

  • 次回予定:4月1日9時30分
    • CLIS400(安)、京セラ、三菱(南)
  • 図書館の選書論等で言及されている文学賞を洗い出す。(二人)
    • 昨年度の実績のある本屋大賞に関しては含める
  • 調査実施について
    • 4月5日からの毎週土曜日の定期的な実施に向けた環境整備

2014年03月31日のメモ

  • 4月5日の実施に関してはシングルスレッドで
  • 怪しい図書館はリストの後ろの方に持っていき、他の図書館の名寄せに影響がでないようにする。
  • 新しいCLIS400に関しては新しいスクレーパー(安)
  • 現時点で怪しい京セラ館について対応(南)

2014年04月07日のメモ

  • 調査を行った。タイトルによる識別に失敗しているため、「怒り 上下巻」が同一視されてしまっていた。修正の上、再調査実施。
    • ISBN用正規表現
[A-Z]{4}[0-9]{9}	//CD用
[0-9]+-[0-9]+-[0-9]+-[0-9X]	//ハイフンあり、10桁
[0-9]{9}[0-9X]	//ハイフン無し、10桁
97[89]-[0-9]+-[0-9]+-[0-9]+-[0-9]	//ハイフンあり、13桁
97[89][0-9]{10}	//ハイフン無し、13桁
  • 分析単位
    • 複本数の扱いについては、館数、自治体人口、資料費で正規化することを検討する

2014年04月14日のメモ

  • はつかいち市立図書館サイトが見えなくなっているのを発見。→電話
  • 分析のために、日本の図書館データを見ておく

2014年04月28日のメモ

  • 「村上海賊の娘」は上下巻に分けて考える必要はあるが、4月1週目から4月2週目にかけて上位オーダーランキング20位以内に入る図書館数が劇的に増えている。
  • 外部のランキング

2014年05月26日のメモ

  • 「日本の図書館」の統計データを入手する(南)
  • 調査環境の整備(安)
  • PhantomJS http://phantomjs.org/

2014年06月03日のメモ

  • 「日本の図書館」の統計データを入手を試みる(安)
  • CasperJSのお勉強

2014年06月30日のメモ

  • 今後の方針
  • CasperJSのお勉強
  • MySQLサーバの設定をプログラム側にする

2014年07月28日のメモ

  • 小平市立図書館の詳細画面にアクセスし、ISBN等の情報を取得する
  • データベース

2014年09月02日のメモ

  • 基本リストの作成(安)
  • Cコード(安)
  • 日本の図書館のマッピング(南)
  • トーハン、日販ランキングの集計(南)
  • 分析の視点

2014年09月17日

  • 10月第一週より開始
  • 自動化のための方策を実施(安)
  • 小平市立図書館(NEC系)のスクレイピング(優先順位1)
  • 横浜市立図書館(日立系)のスクレイピング(優先順位2)
  • 富士通系のスクレイピング(優先順位3)
  • 2014年11月04日
  • 分類:児童・一般の区別なし=1、児童の区別あり&データ取得可能=2、児童の区別あり&データの取得不可(京セラ:南、CLIS400:安)
  • NEC系のスクレイピングでの詳細画面の情報取得(南)
  • 日立系のスクレイピング(安)

 以前の会合

 基本的に作業用Wiki

外部からのリンクは貼らないようにします。

予約・貸出情報をスクレーピング

  • 2012年3月2日課題
    1. 詳細ページにもParserCallBackを継承したパーザを使う
    2. 複本冊数、予約人数取得
    3. testデータベースの作成
  • 2012年3月17日課題
    1. プロジェクトにMySQLのコネクタ(ライブラリ)を追加
    2. O/Rマッピングの必要性を見ておく
    3. 可能であれば、Javaからデータベースのデータの追加と参照をする
  • 2012年4月15日課題
    1. 各スレッドの処理が終了するのを待ってデータベースから結果を表示
  • 2012年5月1日課題
    1. 図書館名、予約URLの外部化(設定ファイルあるいはデータベース)
    2. 図書館数二桁
  • 2012年8月9日課題
    1. 1クラス⇒4つのクラスに分割:管理クラス、三菱のシステム用パーズクラス、京セラのシステム用パーズクラス、Itemクラス
    2. さらに、可能なら5つのクラス:三菱のシステム、京セラのシステム用クラスの共通部分をまとめたAbstract Classを作成し、それらを継承するように変更
  • 2012年8月27日課題
    1. 今後の方針を検討
    2. Gitsubversionサーバの整備(安)
    3. 二桁自治体を超えたなら定点観測の仕組みを整える?
  • 2012年10月26日課題
    1. データベースサーバの整備(安)
    2. ファイル整理
  • 2012年11月26日課題
    1. SSL接続の方法、証明書の取得 → 不要(URL最後に&sslfactory=org.postgresql.ssl.NonValidatingFactoryを付与)
    2. MySQLとPostgresの違い
    3. Heroku
  • 2013年01月25日課題
    1. DAOの実装
  • 2013年02月08日課題
    1. システムによるクラス分け
    2. なぜ複数登録されるのかのバグ取り
    3. できれば、他のシステムの追加
  • 2013年02月15日課題
    1. 三菱クラスを作る
  • 2013年02月22日課題
    1. スクレーパーを管理するクラスを作成
    2. リストの図書館を少し増やす
    3. 他のシステムのスクレーパーを作成(安)
  • 2013年03月4日課題
    1. 京セラのスクレーパーの修正
      1. 予約件数を一覧から取得
      2. 21位以降は落とす
    2. 他のシステムのスクレーパーを作成(安)
  • 2013年03月18日課題
    1. 京セラのスクレーパーの修正
      1. 予約件数を一覧から取得
      2. 21位以降は落とす
    2. データベースの構造を考えてくる
  • 2013年04月01日課題
    1. 京セラ、CLIS400での調査対象システムを増やす
    2. データベース構造を変更する(タイトルテーブル、予約テーブルに分割する)[安]
  • 2013年04月08日課題
    1. キャッシュを実装する
    2. 一回、本リストで実行してみる
    3. 定期的に調査を実行する仕組みを考える(安)
  • 2013年05月03日課題
    1. 調査対象館の確定
    2. 結果のファイル保存
    3. スレッド制限(安)
  • 2013年05月15日課題
    1. ログ取得
    2. リトライ1回(安)
  • 2013年06月05日課題
    1. ログ取得(Abstract Library以外)
    2. データの自動削除(安)
  • 2013年07月17日までの課題
    1. パーズに失敗している図書館の調査とプログラムの修正(南=京セラ、安=CLIS400)
    2. 重複データがある図書館の調査(安)
  • 2013年08月05日までの課題
    1. 重複があった図書館の解析部分の見直し
  • 2013年08月20日までの課題
    1. 墨田区攻略(南)
    2. 清瀬市攻略(安)