2011年11月1日火曜日

京都大学テキストコーパス on Lion

Lionで京都大学テキストコーパス4.0をセットアップするメモ。

1. 京都大学テキストコーパスをセットアップ

以前、別の場所で書いたWindows環境でのセットアップと大体同じ方法でいけた。MacなのでCygwinのインストールは不要。perlスクリプトの修正は必要。フォルダは$HOME/KyotoCorpus4.0とか適当に。

http://www.mizimada.net/notes/kyotocorpus/install.html

Last Update: 2011.08.11
インストールには、perl、京大コーパス、毎日新聞データが必要。
Windows環境&最新のperlだとインストール用スクリプトの一部が正しく動かない場合があるので修正が必要。
  1. Cygwinをインストールする
    ダウンロードサイトの選択(choose a download site)
    ftp://ring.aist.go.jp とか適当に
    パッケージの選択(choose packages)
    perlを追加する
    インストールが完了したら、Cygwin Bash Shellを一度起動しておく(初期設定のため)
  2. 京都大学テキストコーパスの準備
    kyotocorpus4.0.tar.gzを解凍して、kyotocorpus4.0フォルダを
    c:\cygwin\home\(username)\KyotoCorpus4.0
    あたりに置く
  3. 毎日新聞データの準備
    mai95.txtを
    c:\cygwin\home\(username)\KyotoCorpus4.0\mai95.txt
    あたりに置く。
    ファイル名がmai1995.txt(最近の版?)になっている場合はmai95.txtにリネームする。
  4. インストール用スクリプトの修正(重要)
    c:\cygwin\home\(username)\KyotoCorpus4.0\src
    にある
    format.pl 
    num2KNP.pl
    の二つのファイルをテキストエディタで開いて
    use open IO => ':encoding(euc-jp)';
    の次の行に
    use open ":std"; 
    と書き加える。
  5. インストールの実行
    Cygwin Bash Shellを起動し、以下のように入力。
    $ cd KyotoCorpus4.0
    $ ./auto_conv -d .


2. XMLファイルに変換

以前作ったXML変換スクリプトで行けた。ここからkc2xml.rbを取得してKyotoCorpus4.0フォルダに置き、ターミナルでKyotoCorpus4.0フォルダに移動して以下のように実行。要ruby1.9。

ruby kc2xml.rb -s ./dat/syn -t ./xml/syn -u
ruby kc2xml.rb -s ./dat/rel -t ./xml/rel -u

ただし、あらかじめ出力先フォルダ(KyotoCorpus4.0/xml/synとKyotoCorpus4.0/xml/rel)を作っておかないとうまく動かない。無ければ勝手に作るように書いたつもりだったのだが、いろいろいじってるうちにミスったっぽい。そのうち直そう。

0 件のコメント:

コメントを投稿