2014.
12.
10
17:56:24
完全に自分メモ。んなもん常識だよ!!と普通は思うレベルのアレ。
一年ぶりぐらいに使って、覚えてなくてあたふたと探したのでメモっておく。
普通に単純にクローリングするだけ。
Nutch でクローリングするときのコマンド
nutch crawl <収集するURL書いたseed.txtファイルをパス指定> -dir <収集結果を置くディレクトリをパス指定> -depth <深さ> -topN <ページ数>
実行例:nutch crawl /home/wasawasa/urls -dir /home/wasawasa/crawl_1208 -depth 10 -topN 100
ちなみに各コマンドの意味はこんな感じ。
-dir : crawlしたデータを保存するディレクトリ
-depth : リンクをたどる階層の深さ
-topN N : 各階層での最大ページ数
ちなみに実行例の -depthと-topNの指定はめっちゃ適当。
とりあえずたくさん取っとくかくらいのアレ。
うっかりパスの指定先を間違えててエラーで20分くらい頭抱えて艦これやってたなんて言えない。
で、これだとただNutchでクローリングしただけ。
Solrで使えるようにクローリング
nutch crawl /home/wasawasa/urls -dir /home/wasawasa/crawl_1210 -solr http://localhost:8983/solr/<追加したいCore名>/ -depth 2 -topN 3
追加したいCore名がポイントっぽい。
デフォルトだとCollection1だけはいってて、色々追加して分けたい時は
① ~/solr-4.5.1/example/solr に入ってるCollection1のディレクトリをまるっとコピー!
② ディレクトリ名を追加したいCore名に変更!
③ 中に入ってる core.properties の中身を name=追加したいCore名 に変更
してSolrを起動してブラウザから確認したらCoreが増えてる。
詳しくは、Appatche Solr入門 の本のp.19を参照。
ちなみにSolr起動するときは(めんどくさいのでexampleそのまま使ってる)
:~/solr-4.5.1/example$ java -jar start.jar
で起動。(きっとまた久しぶりに起動して忘れてるフラグが見える。
一年ぶりぐらいに使って、覚えてなくてあたふたと探したのでメモっておく。
普通に単純にクローリングするだけ。
Nutch でクローリングするときのコマンド
nutch crawl <収集するURL書いたseed.txtファイルをパス指定> -dir <収集結果を置くディレクトリをパス指定> -depth <深さ> -topN <ページ数>
実行例:nutch crawl /home/wasawasa/urls -dir /home/wasawasa/crawl_1208 -depth 10 -topN 100
ちなみに各コマンドの意味はこんな感じ。
-dir : crawlしたデータを保存するディレクトリ
-depth : リンクをたどる階層の深さ
-topN N : 各階層での最大ページ数
ちなみに実行例の -depthと-topNの指定はめっちゃ適当。
とりあえずたくさん取っとくかくらいのアレ。
うっかりパスの指定先を間違えててエラーで20分くらい頭抱えて艦これやってたなんて言えない。
で、これだとただNutchでクローリングしただけ。
Solrで使えるようにクローリング
nutch crawl /home/wasawasa/urls -dir /home/wasawasa/crawl_1210 -solr http://localhost:8983/solr/<追加したいCore名>/ -depth 2 -topN 3
追加したいCore名がポイントっぽい。
デフォルトだとCollection1だけはいってて、色々追加して分けたい時は
① ~/solr-4.5.1/example/solr に入ってるCollection1のディレクトリをまるっとコピー!
② ディレクトリ名を追加したいCore名に変更!
③ 中に入ってる core.properties の中身を name=追加したいCore名 に変更
してSolrを起動してブラウザから確認したらCoreが増えてる。
詳しくは、Appatche Solr入門 の本のp.19を参照。
ちなみにSolr起動するときは(めんどくさいのでexampleそのまま使ってる)
:~/solr-4.5.1/example$ java -jar start.jar
スポンサーサイト