老眼palm

老眼だけど、ぢっと掌を見る プロフィール RSS

2010年 5月のアーカイブ

Google日本語入力「Mozc」の辞書強化

このところ、新入社員の歓迎会やら海外支店の連中との飲み会やらが続いていて、週末はなんだかくたびれて、何もやる気がしない状況が続いている。もうちょっと天気がよければ、自転車でその辺を一回りしてくる気にもなるのだけど。

んなわけで、家でくすぶって2chなぞ眺めてて拾った情報を元に、UTUMIさんの私家版mozc辞書を入れてみた。

  1. tar ballを~/src/mozc/srcに展開。
  2. cd mozcdic-ut-20100530
  3. 人名やら郵便番号やらカタカナ語は必要なさそうなので、meisiだけが入るようにapply-mozdic-ut.shを変更。(自分でコマンド打ってもいいが。)
  4. ビルド手順に従ってdebパッケージをビルドしてインストール。(gclient sync; debuild -uc -us; sudo dpgk -iだけで良いような気がするんだが、svn coも要るのかな?)
  5. 念のため、~/.mozcを一回消してから使い始める。

このPCで文章を打つのはこのブログの記事ぐらいだし、最近、更新の頻度も落ちてるしで、追加した辞書の効果はよく分からないが、辞書ファイルを眺めてる限りでは少し期待できそう。mozc自身も最近のアップデートで、辞書ツールなどが整備されてだいぶ使いやすくなった。変換パネルのアイコンが駐車禁止マークになってしまうのは次のようにすれば良い。

  1. sudo mkdir /usr/share/ibus-mozc
  2. 上記で作成したディレクトリに、product_icon.pngやunknown.icoを用意する。(product_icon.pngにはネットで拾ったmozcのiconを、unknown.icoは/usr/share/icons/gnome/scalable/categories/preferences-system.svgへのシンボリックリンクとした。)

mozcのコードを読んでみた記事などもチラホラと眺めてみた。(この記事によくまとまっている。)開発者が一生懸命手で書いた規則を用いるのではなく、確率的(統計的)な手法を用いることで、保守性や発展性を高めようという話のようだ。mozcも統計的かな漢字変換だが、Anthyもそうだというのは全然知らなかった。使えればいいやと思ってたし、ubuntuはある程度のレベルをきちんと提供してくれるから、考える必要もなかった。

理論的、数学的に攻めることでしっかり成果が出るんだなあ、と感心するが、中身の理論は数式たっぷりの世界で、全然歯が立たない。

6/5追記:上記のUTUMIさんのページに行ったら、私家版辞書を組み込んだバイナリ配布は避けて欲しいと書いてあった。自分でビルドして試すのは良いのだろうが、私家版辞書で小さく満足してもらうのは本意でないようなことも書いてあったので、とりあえず、辞書は元に戻して使っていくことにした。

月と金星

昨日の夕暮れ時、カミさんが「月のそばに星が出ていて、まるで(靴屋の)月星のマークのようだ」というので、カメラを持ち出して撮ってみた。RICOH R10の最望遠(35mm換算で200mm)で撮って、縦横約1.8倍にトリミングしてある。ちょっとノイジーで、月の暗いところも目で見るほどには明るく撮れなかった。

ちなみにこの星が金星だということは、今日になって新聞とかで知った。カミさん曰く「月星と言えば金星は常識でしょう」とのこと。無知ですみません。キャンプの時にこれくらい見れるといいんだけどなあ。

ダメもとで1秒の長時間露光したら、見事に手ブレ。やっぱり三脚がないとダメだが、ブレブレの金星の軌跡はなんだか崩し字に見えなくもない。

ubuntu 10.04でのunzipの文字化け問題

いろいろ紆余曲折した感じなので、メモを残しておく。

ubuntuでWindows環境で作ったzipファイルを展開すると、SJISのファイル名が化ける問題は、Ubuntu Japanese Teamの追加パッケージのunzipを使えば対応できていた

ところが、ubuntu 10.04ではLANGがja_JP.UTF-8ではなくja_JP.utf8になるケースがあって、ja_JP.UTF-8だけを想定している追加パッケージのunzipでも文字化けが発生していた。仕方がないので、~/.xprofileに”export LANG=ja_JP.UTF-8″を仕込んでしのいでいた

調べてみると、~/.dmrcが悪さをしているという記事がみつかり、その記事にしたがってdpkg-reconfigure localesして~/.dmrcを編集して対処した。これで~/.xprofileは不要になってすっきりする。

これで一段落と思ったが、2ch経由で知ったフォーラムの記事によれば、将来LANGは*.utf8形式に収束するらしい。次の対応をとった。

  1. Ubuntu Japanese Teamのリポジトリからunzip_6.0-2~5.52~ja4_i386.debをインストールする。(このバージョンはUTF-8とutf8の両方に対応している。)
  2. sudo dpkg-reconfigure localesする。
  3. ~/.dmrcを編集して、Language=ja_JP.utf8にする。
  4. 再ログインする。LANGはja_JP.utf8になる。

多分これで一件落着だろう。結局、ubuntu 10.04にはUbuntu Japanese Teamのパッケージリポジトリは適用せず、次の対処だけを行っている。

  • 日本語pdf用にpoppler-dataをインストールする
  • Ubuntu Japanese TeamのリポジトリからSJIS対応unzipのdebファイルをダウンロードして、それをインストールする

フォーラムの記事から辿っていくと本家のunzipにもパッチが当たりそうな、当たらなそうな話があるようだ。日本語以外の環境に影響を与えない範囲で、本家に取り込まれて欲しい。

Google日本語入力「Mozc」インストール

Google日本語入力のオープンソース版「Mozc(モズク)」が公開されたというので、なんとなくインストールしてみた。ビルド手順の通りにコマンドを打てば完了。debファイルを公開しているサイトもあるようだ。

そういえば、以前Linuxを熱心に使っていた頃(10年前くらい?)には、日本語入力もCannaに非公開パッチを丁寧に当てて、辞書もいろいろ頑張ったりして使っていたものだった。結局、自分が文章を打つときには、入力ミスも多いし、変な文節の切れ目で変換させる癖があるから、プログラム側で頑張っても大した効果はないようだった。

元々ATOKには馴染めなかったので、会社で使うPCでも永らくWindowsのIMEを使っていた。ところが、しばらく前にIMEが恐ろしく調子が悪くなって、たまたま出たばかりのGoogle日本語入力を使ってみたりしていた。やたらに固有名詞が一発で変換できるが、その売り言葉ほど、大規模語彙データの威力を感じることはなかった。予測変換は指が慣れると使いやすかもなあ、と思いつつ惰性で使い続けていた。

オープンソース版は、大規模語彙データの利用はできないし、単語登録もできない。なんでこんなのが第一候補になるんだろうと思うことも多い。しかし近頃、日本語入力(だけではないけど)には余り多くを要求しないようになってるし、会社のPCと同じく予測変換が使えるから、しばらくubuntuでもGoogle日本語入力を使ってみようと思う。(「とおもう」で「と思う」と変換してくれるので、文節の切れ目の判断は自分の入力の癖に合っているかも。)

寒い寒い常磐線

5月になって、連休中は天気もよく気温も高かった。連休明けて、久々の通勤で朝電車に乗ったら、案の定、冷房がガンガン入って寒い(泣)。こういうことは以前から何度もあったが、たまりかねて、JR東日本のホームページで意見を送った。

今朝、柏駅発7:41の上野行に乗りましたが、途中から冷房が入って寒くてたまりませんでした。確かに、最近暑い日が続いていますが、まだ朝はそれほど暑さが厳しくはありません。5月の連休が終わったばかりで、列車に冷房を入れるのは勘弁してもらいたいです。

これから冷房がきつくて辛いシーズンになり憂鬱です。クールビズが始まっても上着が手放せません。常磐線の冷房のきつさは、エコの時代に逆行していると思います。もう少し緩くしてください。

これが連休明けの5月6日の話。次の日もまた冷房ガンガンで寒かった。意見を送っても何も反応はないだろうと思っていたが、次の日には「受けとりました」メールが来て、今日回答が来ていた。曰く、

  • この時期、「暑い」「寒い」の両方の意見をもらって苦慮している
  • 常磐線の快速電車は、各車毎に冷房・暖房・送風装置を全自動で制御。あわせて乗車率や外気温などを監視して細かな制御を行っている
  • 冷房の苦手な人は、8・14号車の弱冷房車を利用してほしい

てな感じだった。

5月から冷房を入れるのは絶対におかしい!狂ってる!と思っていたが、全自動だったのか。で、その設定がヘボいのだろう。これが理解できただけでも収穫だった。

何も改善することはないと思うが、今度は弱冷房車を増やしてほしいと要望してみよう。

5/18追記弱冷房車を増やして欲しい、との要望に返事が来た。

増やす予定はないとのこと。エコじゃないなあ。