fc2ブログ
主にTwitter生息中。過去の日記やら感想やら。消そうと思ったけど、学生時代の環境構築メモとかのこってるので誰かの役に立つかもしれないし一応放置。尚、信憑性はお察し
NutchでクローリングしたりSolrに追加するときのコマンド。
完全に自分メモ。んなもん常識だよ!!と普通は思うレベルのアレ。
一年ぶりぐらいに使って、覚えてなくてあたふたと探したのでメモっておく。
普通に単純にクローリングするだけ。

Nutch でクローリングするときのコマンド


nutch crawl <収集するURL書いたseed.txtファイルをパス指定> -dir <収集結果を置くディレクトリをパス指定> -depth <深さ> -topN <ページ数> 

実行例:nutch crawl /home/wasawasa/urls -dir /home/wasawasa/crawl_1208 -depth 10 -topN 100

ちなみに各コマンドの意味はこんな感じ。
-dir : crawlしたデータを保存するディレクトリ
-depth : リンクをたどる階層の深さ
-topN N : 各階層での最大ページ数

ちなみに実行例の -depthと-topNの指定はめっちゃ適当。
とりあえずたくさん取っとくかくらいのアレ。
うっかりパスの指定先を間違えててエラーで20分くらい頭抱えて艦これやってたなんて言えない。

で、これだとただNutchでクローリングしただけ。





Solrで使えるようにクローリング
nutch crawl /home/wasawasa/urls -dir /home/wasawasa/crawl_1210 -solr http://localhost:8983/solr/<追加したいCore名>/ -depth 2 -topN 3

追加したいCore名がポイントっぽい。

デフォルトだとCollection1だけはいってて、色々追加して分けたい時は

① ~/solr-4.5.1/example/solr に入ってるCollection1のディレクトリをまるっとコピー!
② ディレクトリ名を追加したいCore名に変更!
③ 中に入ってる core.properties の中身を name=追加したいCore名 に変更

してSolrを起動してブラウザから確認したらCoreが増えてる。
詳しくは、Appatche Solr入門 の本のp.19を参照。


ちなみにSolr起動するときは(めんどくさいのでexampleそのまま使ってる)
:~/solr-4.5.1/example$ java -jar start.jar
 で起動。(きっとまた久しぶりに起動して忘れてるフラグが見える。 



スポンサーサイト



Posted by どこかのだれか
comment:0   trackback:0
[作業メモ
CPANインストールしてperlモジュール入れれるようにする
UbuntuにCPANインストールして、Perlのモジュール使えるようにするよ!!
一応Ubuntu12.04使用。多分、他のでも一緒。

ただそれだけっていうかなぜか詰まった。
なぜかモジュール入らなかった……でもいつの間にか入ってた。解せぬ

とりあえず、XML::SimpleがないよーとEclipseさんに怒られたのでCPANのインストールから。
まあ、前に入れてたからエラーで怒られてるわけだけど。


CPANを利用してPerlモジュールをインストールする(Linux, Ubuntu)
を参考にしました。


1.UbuntuにCPAN入れる

sudo でルート権限もってコマンド打つだけ。

sudo perl -MCPAN -e shell

最初は色々聞いてくるけど、だいたい「yes」でいいらしいよ?(ダメな例

そしたらCPANのシェルが起動するので

cpan[1]> install XML::Simple

みたいにすればおk
※ XML::Simpleモジュールの場合。適宜読み替え


で、実際にモジュールが入っているか確認するときは

perl -e 'use モジュール名'

って打った時に、
Can't locate モジュール名〜
みたいなエラーが出なければ大丈夫?らしい。


install できたはずなのになぜか出来なくて、Eclipseでも
Can't locate XML/Simple 云々関係 って怒られてテンション下がった。
何回かやったらいつのまにか入ってたけど。


まあ、動いたからよしとしておこう。
Posted by どこかのだれか
comment:0   trackback:0
[未分類
【復旧作業】10:RとRMeCabのインストール
1.R インストール
Rの最新版、3.0.2 をインストール。

何も考えずに apt-get 使ってRインストールしたら古いバージョンでRMeCab使えなくて(`;ω;´)
……ので削除して再インストールする羽目になったなど。

リポジトリのだと古かったりするから手抜きしちゃダメだね。



基本的には
ubuntu 12.04へのRインストール手順

まんまこのサイトさんのまんまやればOK

あとはRjpWiki

1.パッケージ取ってくるミラーサイトの場所を /etc/apt/sources.list に追加

適当なエディタで sudo で /etc/apt/sources.list を開く。
普段からEmacsつかってるので今回は

$ sudo gedit /etc/apt/sources.list


で、開いて、取得してくるミラーサイトの場所を適当に書き加えてやる。
 precise の部分は、ubuntuのバージョンに合わせて読み替えること。

deb http://cran.ism.ac.jp/bin/linux/ubuntu precise/

ずっと12.10使ってるつもりだったからここのバージョンが違ったせいでエラーでうまくインストールできなかったなど((
 っていうかディスクにサインペンで12.10って書いて合ったら信じるじゃん!! 


2.Ubuntuレポジトリの公開鍵を入手

$ gpg --keyserver keyserver.ubuntu.com --recv-key E084DAB9
$ gpg -a --export E084DAB9 | sudo apt-key add -



3.最新のパッケージリストを取得→apt-get でインストール

$ sudo apt-get update
$ sudo apt-get install r-base
$ sudo apt-get install r-cran-*



あとは、端末で R って入力すれば起動するのでおしまい!


2.RMeCabインストール

これはRMeCabの配布元の
RMeCabーRとLinuxと……
を参照。

というか、R起動して

install.packages("RMeCab", repos = "http://web.ias.tokushima-u.ac.jp/linguistik/R")



って打つだけ。あとは、yで同意してあげればおしまい!簡単で実に素晴らしい。
Posted by どこかのだれか
comment:0   trackback:0
[未分類
Jenaのインストール
Ubuntu12.04にJenaをインストール
(まあ、Ubuntuに限らずLinux系OSならやることは一緒だと思いますが一応)


1.適当な場所ににJenaとARQのzipを展開

今はまた新しいVerがでてるっぽいですが、とりあえず今までと環境を揃えたいので

arq-2.8.4.zip
jena-2.6.4.zip


をDLしてきて適当な場所に展開。

$ sudo unzip jena-2.6.4.zip -d /usr/local/
$ sudo unzip arq-2.8.4.zip -d /usr/local/

 unzip コマンドのオプションとかって使い方忘れて毎回ぐぐってるなど。さすがに tarは覚えたけど 
で、今回はとりあえずどっちも 
/usr/local
に展開しておいた。



2.環境変数の設定


環境変数にARQROOTとJENAROOT。
今回は /usr/local/に展開したので

.profile に

export JENAROOT=/usr/local/Jena-2.6.4
export ARQROOT=/usr/local/ARQ-2.8.4


を追加したらおしまい。

あと、Eclipseで使うときはちゃんとパッケージにパスを通してやる必要があるのでそれもやっておくこと。
……今書いてるプログラムはJena使ってるプロジェクトに直接コピーでパッケージ放り込んであるから無くても動くはず
Posted by どこかのだれか
comment:0   trackback:0
[未分類
【復旧作業】8:MeCabインストール
結局、研究会は諦めたので平穏な日々()が戻って来ました

という訳で引き続き環境の復活作業。
相変わらず何故かMikutterが起動しない(厳密にはsudo なら実行できるけどそれって)

MeCabのインストール

公式ページの
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
からMeCab本体と辞書の最新版をDL。

今回は
本体:mecab-0.996.tar.gz
辞書:mecab-ipadic-2.7.0-20070801.tar.gz
を利用。


makeしたりしてインストールするわけですが。
実はmakeコマンドをよく理解してなかったので、ソフトウェアだし……と 
/usr/local/
にこいつらを展開したんですが、そんなことしなくてよかったのね(遠い目
ちょっと賢くなったよ()

参考にしたサイトは
Ubuntu 12.04 LTS MeCab インストール

MeCabのインストール方法


MeCab本体

1.とりあえず適当にDLしたフォルダを解凍。どこでもいいっぽい。

2.解凍したフォルダに移動
 $ cd mecab-0.996

3.以下のコマンド実行

$ ./configure
 $ make
 $ make check
 $ sudo make install


一応、
$ which mecab
でMeCabのインストール先を確認(/usr/local/mecab-0.996 になってた)

$ mecab -v
でバージョンを確認。


辞書のインストール
本体同様てきとーに解凍。

2.解凍したフォルダに移動
 $ cd cd mecab-ipadic-2.7.0-20070801CD

3.以下のコマンド実行


 $ ./configure --with-charset=utf8
 $ make
 $ sudo make install


でおしまい。
ただ、辞書インストール時に

/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No such file or directory

なるエラーが。

調べたら、
「共有ライブラリがシステムに認識されていないことが原因なので、sudo ldconfig を実行してリトライする。」

とあったので素直に

$ sudo ldconfig

したらきちんとインストールできた。


MeCabの動作も確認できたよ(`・ω・´)
Posted by どこかのだれか
comment:0   trackback:0
[復旧作業
| HOME | next