Module File for newbb Not Found! HCP Project Homepage 日本語版 - my weblog : 2008年 10
 
Welcome Guest 
メインメニュー
リンク
HCPブログ 最近の投稿
ログイン
ユーザー名:

パスワード:


パスワード紛失

新規登録
HCPブログカレンダー
2008年 10月
    11月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

2008年10月25日(土曜日)

dsc コンパイラのバージョン

カテゴリー: - susumuhayashi @ 15時44分40秒

21日の Blog、「学問のすすめ」本文全検索で、書いた dsc コンパイラーの情報を dsc file などに持たせる話は、寺沢さんにメールしたら、すでにできていて dsc の説明にも書いてあるとのこと。単に見逃していました。 :hammer:

このようなものを使って、HCP の使い方の知識体系 HCP BoK (Body of Knowledge)を構築できると、SMART-GS の使い方が、凄く簡単になるはずです。このサイトは、その試みの一環なのです。


2008年10月24日(金曜日)

「学問のすすめ」本文全検索

カテゴリー: - susumuhayashi @ 01時30分15秒

今日は『学問のすすめ」明治13年再版の、全文の検索をやってみました。21日の blog で報告したのは40ページ弱だけでしたが、今度は、表紙と広告を除く、323ページです。ただし、5ページほど白紙ページがあり、それは行切り出しや検索の対象からはずしました。

まずは、「天ハ」での検索です。



天ハ

赤い矢印のところが「天ハ」に見えます。これをクリックすると



天ハ

正解です。

次に「天ハ人ノ」で検索した結果です。



天ハ人ノ

先ほどと同じく、赤い矢印の候補をクリックしたのが、次の図です。



天ハ人ノ

このように第一候補として検索できました。

問題点としては、「天ハ」でも時間がかかることです。検索自体には2分もかかりませんでしたが、それから答えの表示用の小さい画像が元画像から切り出され表示されるまでが随分かかりました。何か画像処理の良い知恵を応用すべきでしょう。おそらく既存の技術で劇的に改善できるはずです。

また、「天ハ人ノ上ニ」で検索したときにはメモリがつきて検索不可能でした。

これらのパーフォーマンスの問題は、HCP が発展していくには大きな解決課題です。私としては、Cloud computing のようなものを使い、検索や dsc コンパイルのような重たいタスクは、cloud computing による Web サービスとして提供するべきだろうと思っています。これは検索エンジンをつくっている寺沢さんも同意見でした。問題はクラスターの確保でしょう。検索や画像の fetch は、当然、Google の検索と同じ構造で、MapReduce の最も得意とするところですから、サーバー群さえ確保できれば、極簡単にこの問題は解決できるのですが、そのサーバー群、cloud computing のデータセンターの利用をどうするかです。


2008年10月21日(火曜日)

「天ハ」見捨テズ!!「学問のすすめ」検索

カテゴリー: - susumuhayashi @ 03時10分34秒

Google Book Search が提供してくれる「学問のすすめ」の画像から、有名な「天ハ人ノ上ニ人ヲ作ラズ」の「天ハ」を古事類苑の「天ハ」で検索できるか?いう実験に挑戦してあえなく失敗したことは、19日のブログに書きました。これは現在の画像検索の限界なのだろうと一旦は諦めたのですが、どうも納得がいかない林は、それでも色々やってみました。で、はとと気がついたのが、同じ「学問のすすめ」の内部でも検索の精度が酷く悪いことです。で、これは単にデータが悪いだけではないかと思ってヨーク見てみると、前回の実験の画像は、グレイスケールになっています。いままで、うまく行った例は、思い出してみると、たとえ jpg 画像の場合も、実質的に白黒2値のモノクロームになっているような画像ばかりでした。きっとそれに違いない、と「天ハ・・」があるページを MS Paint に読ませて、jpg から2値のBMPに変換しさらに gif に変換して実験してみました(SMART-GS は確かBMPには対応してないはずなので)。そうすると、見事にヒットします。しかし、これでは1枚だからと、沢山のデータでやってみることにしました。その結果分かったのは、先の実験では、PDF から画像を抽出するときに、150bpi にしていたために画像が汚くなっており、300bpiを指定して、Acrobat 8 で html 形式で「書き出し」をやるとかなり画像が綺麗だということです。前回は、まず、ここでこけていたようです。 :hammer:

で、こんどはちゃんと300bpiで落とし、これを実質2値のモノクロームにしなくてはいけませんが、なんとここで手間取りました。 :-( 普通、わざわざグレイスケールのものを2値に品質を落とすなどしないわけです。で、そういうツールが珍しい。また、2値への落とし方もツールによって色々あり、2値になってもとても使えそうにない原形をとどめないような変換をやるツールもあります。また、さっきの方法は大量のページを処理するのには向きません。色々と試して、ようやく、Acrobatでの書き出しを TIF で行えば、ほぼ2値に近いことをみつけました。で、これを SMART-GS が認識できる GIF に ConvertImage で変換すればよいのです。こんどはこんな風に綺麗にできました。



 

よし、これでいける、と喜んで、前の実験の時の segfo を使ってみてみると・・・・なんと、使ったツールが違うせいで、前のsegfo を作ったときと画像の大きさが相当違うようで、segfo が会わないのです。大きさを変えてあわせようとこころみましたが、40%とか30%のようなキリのよい数値でないようで、面倒でやってられません(こういう segfo と画像のサイズを合わせるツールが欲しいですね。segfo データがズームできればよいのでしょうね。)

しかたなく、新しい画像にもう一度、segfono の切り出しです。でも、ここまでできたときには、既に深夜だったのでさすがにつかれ、300ページ以上ある本全部を処理する気にはなれず、結局前書き2頁と本文37ページ、計39ページほどで妥協することにしました。この程度ですと、SegfoMaker改のお陰で、ホイホイと言うかんじで行切り出しができてしまいます。



前書き



37page

では、query はどうするか?1枚だけの実験の感触からかなりヒットしそうだったので、古事類苑を使うのではなく自分で作ることにしました。つまり、自分で query を自由に作れる平成のフォントで探してみようということです。で、画像をソフトを使い、「学問のすすめ」の1ページをコピーして、その一部を白くくりぬき、そこにMS明朝だったか平成明朝だったか、とにかく、私のPCに入っていた普通の明朝で、「天ハ天ノ・・・」と入力します。



クエリ



クエリ

これで query が完成。そして、SMART-GS で、 query の segfo データ, dsc データなどを作り、検索!・・・・さっぱりです。

おかしい。さっきと何が違うのか????よく考えると、どうも、SMART-GS が呼んでいるdsc コンパイラーのバーションがかなり古く、「学問のすすめ」をコンパイルした最近のコンパイラー(寺沢さんのサイトからダウンロードできるHDIMSに附属しているやつです)と会わないようなのです。どうやら、前の実験でも、これを何度かやつていたような・・・このバージョンの問題、ちゃんと見えるようにしておかないと、ユーザの混乱を招きますね。寺沢さんと相談しなくてはいけません。

と考えつつ、仕方がないので、query のデータも、新しいコンパイラーで処理しなおして、もう一度検索。と、今度は、見事、こんな風にでました。



result

この結果の赤矢印の部分をクリックすると、



result

見事、寺沢画像サーチは、目的の「天ハ」を見つけたのでした。これもバケットサーチは使っていません。果たして、300ページ強の全文でやるとどうなるか、あるいは平成のフォントでなく明治のフォントを使うとどうなるか、色々とやってみるとおもしろそうですが、もう眠くて眠くて限界です。で、今日はこれまで・・・

「天ハ」ミズカラタクスモノヲタスク :-)

林晋


2008年10月19日(日曜日)

「学問のすすめ」に「天ハ」あるか?その2

カテゴリー: - susumuhayashi @ 21時23分56秒

続きです。

色々と試してみて、結局、古事類苑のページが、GBSの画像より遥かに大きいことに気がつき、これを大体同じサイズにし、かつ、「学問のすすめ」の方はより綺麗なキャプチャー画像を10ページ分作り検索をすると、古事類苑の「天ハ」で「学問のすすめ」の「天ヨ」「天地」、そして3ページ目の「天ハ」などにヒットしました。ただし、とうとう肝心の1ページ目の「天ハ」にはヒットしません。そればかりか、3ページの「天ハ」でサーチしても、1ページの「天ハ」にヒットしません。「切り出しの品質」の問題があるのかもしれないと思い。行を細くしたり、1ページの「天ハ」の上にある「○」を枠の外に出したり、横棒二つの間の汚れなどを消して、再度、コンパイルして検索もしましたが、それでもうまくいきません。「学問のすすめ」の内部の「天」同士はヒットしますが、古事類苑の活字で、他の活字を検索するのはどうもうまくいかないようです。それにしても、古事類苑1枚、学物のすすめ、一枚でやったときに、3番目にヒットしているのが不思議です。ヒルベルト研究などに使った画像サーチは、同じ画像のセット内で検索をしていますが、このように異なる画像の検索の場合、ヒットする条件が何かあるのかもしれません。これが分かれば、検索が極めて容易になるので、今後の大きな課題でしょう。

林晋


「学問のすすめ」に「天ハ」あるか?

カテゴリー: - susumuhayashi @ 00時42分50秒

SMART-GS などの HCP ツールでは、画像検索を使っていますが、これとOCRとの比較をしてみようとおもいつき、ちょっと実験をしてみました。
まだ、うまく行っていませんが、できたとこまでちょっと報告です。
画像検索を見せたときによく言われるのが、郵便番号の読み取りのような手書文字OCRの方が便利ではないかということです。
確かに何と読むのか正解が分かっているときは、その方がよいですし、お金や労力が有り余っているのならば、それでよいのですが、
現実にはOCRを使うことは、古い文献になるほど絶望的です。たとえば、まだ誰も読めない未知の言語の場合、キャラクターにコードがついて
ない場合があります。まず、そういうコードを作ることが重要な研究テーマですが、OCRは optical code reader なのですから、
code が分かっていることが前提なので、そういう言語用に作ることは無理です。また、普通は辞書やn-gramを利用して、文字認識を
するので、これから辞書やn-gramを作ろうという言語、日本語のように少し古い時代の言語の辞書が現代のものと大きく違う場合は、
OCRの精度は落ちますし、辞書を作るには OCR は利用できないことになり、すくなくとも辞書を作るという研究には使えないというこ
とになります。

さらには、明治期の印刷物などは、人間には十分読めるのですが、OCRでやるとかなり酷い結果になり、それを修正していると手間が膨大で、
やってられない、というのが現実です。で、そういうものでも画像検索ならば、ある程度は使える可能性がありますし、翻刻や辞書作り、
n-gram 作りにも応用が利くはずです。

ということで、そういうものの実例をやってみることにしました。サンプルは、翻刻ベースの世界最大の電子化文文献のコレクション、
Google Book Search です。

まず、「福澤諭吉」を book search で探します。(「福沢」では駄目です。)



福澤諭吉をサーチ

最初に、「学問のすすめ」の古い edition がでてきます。



サーチ結果

中身はこんな感じです:



学問のすすめ1

そこで、「天ハ人ノ上ニ人ヲ作ラズ」を検索してみましょう。Google の翻刻(文字化)はかなり精度が低いので、あまり長いと駄目
だろうと思い、短く「天ハ」で探しました。



学問のすすめ2

そうしたら…



学問のすすめ3

ありません…

しかたないので、自分で探しました。英語の本をスキャンするのと同じやり方をやっているらしく、何とページの前後が逆になっているので、
最初は戸惑いましたが、大分後の方(つまり、出だしの方)に、該当箇所をみつけました。



学問のすすめ5

Google Book Search ではテキストで検索をしていますので、この画像をOCRで読んだ翻刻、つまり、テキスト版を見ることが
できます。これは正しい場合はカット&ペーストができるので大変重宝するのですが、間違えていることもしばしばです。
実際、この場合は、上の図で赤く囲んだ部分が、



学問のすすめ6

と認識されていて、半分もあっていません。そのためで「天ハ」なかったのです。

そこで、このページをSnagIt という画像キャプチャーのツールで gif にして、SMART-GSに読み込ませました。
検索するには行切り出しが必要ですが、1枚だけなので、SegfoMaker を使うほどでもないので、SMART-GSの
原始的な行切り出しツールを使いました:



学問のすすめ8

で、問題は query です。最初、Word を使って画像を作り、やってみたのですが駄目でした。それでふと思い出したのが、
別に実験をやっている古事類苑の画像でした。日文研から古事類苑の全画像データを頂いているので、それの「天の部」には、
きっと「天ハ」があるのでは、と思い、以前、SMART-GS の読み込ませていた数枚の天の部のページを開いてみると、
うまいぐあいに、最初の出だしが「天ハ」です。まあ、辞典で「天」を引いているのですから、当たり前といえばあり前ですね。 ;-)



学問のすすめ9

で、その検索の結果は



学問のすすめ10

みごと、3番目に目指す箇所が表示されています。一番は、古事類苑自身です。 :-)

しかし、これではあることが分かっているページと、その他少しの画像で探したのですから、ページが増えたら、同じように良い結果が
でるとは限りません。で、「学問のすすめ」全体を pdf で落とし、それを Acrobat 8 で、HTML に変換し(このようにすると、
画像をまとめてフォルダーに落とせる)、SegfoMaker改を使って、300枚以上ある画像の行切り出しを行ってみました。このツールで、
こんなに沢山のページを処理するのは始めてでしたが、清水君が頑張って改造してくれたお陰で、大変効率よく行切り出しができて、
すこし荒っぽい切り出しでしたが、30分程度で終わってしまいました。平均で1枚が6秒くらいということになります。これは大変良い
数値です。で、気をよくして、サーチをしてみたら・・・ :-(
全然だめでした。まず、古事類苑の文字に検索が異常にヒットしてしまいます。そこで、画像番号を指定して「学問のすすめ」だけを
検索しようとしたら、なんとバグがあるらしく、ページを指定しても、フォルダ内全部の検索します。
で、色々やっても駄目で、よーくみたら、PDF でダウンロードした画像は、画面からキャプチャーしたものより品質が悪いのです。
これのせいである可能性があります。もう一つの可能性は、行切り出しに「精度」があるのかもしれないという点です。
つまり、最初の実験では、人間が行を切り出しているので、まわりの余分の空白があまり入っていません。しかし、SegfoMaker を
使いますと、自動でやるので、かなり空白が入ります。これが本当に空白ならば問題ないのでしょうが、明治期の図書の画像なので、
空白のはずの部分がかなり汚れています。どうもそれを文字の一部と見た可能性がゼロではありません。というところまでにして、
この実験の続きは、また次回。

林晋


2008年10月10日(金曜日)

ダウンロード騒動

カテゴリー: - susumuhayashi @ 14時40分04秒

SMART-GS のダウンロードが正しくできないという指摘を受けて色々と調べて、
ようやく何とか fix。結局、記憶が朧で原因は特定できす。管理者・ユーザの勘違い、
サーバ移転時のDNS更新の問題から、京大の proxy のデータ更新の問題など、
色々と絡んでいる可能性が大。こういうキャッシュ的なものが絡むのが、
人間の直観に反するので一番面倒。現在のコンピュータシステムの根源的な
欠点ですね。でも、人間の脳だとどうなのかな?短期記憶とかあるらしいから、
同じ問題があるのかも。
#林は「事故で意識不明の患者が幽体離脱で自分を手術している医師の顔を見た」
#というのは、そういう記憶のキャッシュで起きても何ら不思議で無いと
#考えていますが、どうなのでしょうね?つまり、記憶のunification(計算機
#用語)がおきて医師の顔という変数が、その実物を見る前に先にできれば、
#見たとたんに unify して、前からあったように思っても何の不思議もない
#のですよね。普通に使われているLinux とか Windows などの OSでは、
#これに類する話は昔から日々起きているのですから。
#うーむ。BBSのようなものを書き始めると、つい昔の癖がでて、
#余計なことを書いてしまいますね。本当に、おしゃべりなのだと
#思います。そういえば、故米田信夫先生が、私の最初の
#日本語の本をみて、「おしゃべりな本だ」と言って笑って
#おられたなあ。おっと、これもおしゃべり。(^^;) :hammer:

林晋 ← 今後は院生の清水君や橋本君も管理者として Blog を書く可能性もあるので一応署名です。 :-)


2008年10月4日(土曜日)

覚書

カテゴリー: - susumuhayashi @ 15時31分31秒

まだ、フォーラムや Wiki などのコミュニケーション・記録の場がないので、ここに書く。 :-P
サイトの公開は良いのだが、英語で公開しないと意味が半減する。
しかし、英語に統一すると日本史、国語学などのユーザーは困る。
結局、日本語と英語で二重にするしかない。これは面倒だ…
A01の重要な役割に英語サイトと日本語サイトの同期もあるだろう。


新HCP サイト運用開始

カテゴリー: - susumuhayashi @ 15時03分31秒

SMART-GSの開発チーム内のコミュニケーションや、公開のためのサイトに悩んだ末、NIIの相原さんに相談したら,研究室で使っている Xoops を suggest された。Wiki もつかえる(でも、Xoops があればいらないかな?)。SMART-GSなどの公開に伴い、HCP サイトや SMART-GS google group ごと移動することに決定。ということで、とりあえず作りました。


31 queries. 0.044 sec.
Powered by WordPress Module based on WordPress ME & WordPress

XOOPS Cube PROJECT