From yoriyuki.y @ gmail.com Mon Jun 12 03:28:56 2006 From: yoriyuki.y @ gmail.com (Yamagata Yoriyuki) Date: Mon, 12 Jun 2006 03:28:56 +0900 (JST) Subject: [Shinji-devel 47] =?iso-2022-jp?b?GyRCPz87ehsoQiAwLjIuMQ==?= Message-ID: <20060612.032856.59654370.yoriyuki.y@gmail.com> 真字 0.2.1をリリースしました。 http://prdownloads.sourceforge.jp/shinji/20514/mana-0.2.1.tar.bz2 データ構造の見直しによりパフォーマンスが向上したと思います。ただ、まだ 不安定で実用には適さないかもしれません。Out of memory例外が発生するこ とがあるようです。 0.2.1から再びデフォルトでネイティブコードにコンパイルされます。したがっ て例外時のバックトレースは取得できません。mana/Makefileのall: ncの行を all : bc に書き換え、環境変数OCAMLRUNPARAM=bとすることにより例外発生時 にバックトレースを取得できます。 ちなみにネイティブコードはstripしても安全です。 -- Yamagata Yoriyuki From ek.kato @ gmail.com Mon Jun 19 22:43:44 2006 From: ek.kato @ gmail.com (Etsushi Kato) Date: Mon, 19 Jun 2006 22:43:44 +0900 Subject: [Shinji-devel 48] =?iso-2022-jp?b?GyRCOEQ/TTwtPXEbKEI=?= Message-ID: はじめまして。 mana の個人辞書を uim の GUI 辞書ツールで扱えればと考えています。 登録のほうは、mana-add-new-word で簡単なのですが、一覧を 作ったり、削除する場合に API がなさそうなので、直接 gdbm ファイルを開こうかなと考えています。そこで、gdbm の key に 対する content の format を教えて頂けると助かります。 例えば、「かんじ」という読みにたいして、「漢字」、「感じ」をすでに 変換していると、 2,["1,2,0,0,2514,2514,\"\\164\\171\\164\\243\\164\\184\",\"\\180\\182\\164\\184\",\"\\180\\182\\164\\184\",\"\\165\\171\\165\\243\\165\\184\",4,\"\",\"\",-1",0;"1,2,0,0,3095,3095,\"\\164\\171\\164\\243\\164\\184\",\"\\180\\193\\187\\250\",\"\\180\\193\\187\\250\",\"\\165\\171\\165\\243\\165\\184\",4,\"\",\"\",-1",0;] といったように、~/.manadic の gdbm ファイルにおいて、「かんじ」 の key に対する content が登録されていると思います。この content の意味はどうやって解釈すればよいでしょうか。\"....\" の中身は euc-jp 文字列で良いと思うのですが、以下の点がわかりません。 1. 最初の 2, は何を意味するのか? 2. 次に続く 1,2,0,0,2514,2514 の意味は? 3. その後の文字列の最初は、読みでいいと思うのですが、そのあとに 続く文字列の順番はどういった意味があるのでしょう? 例えば「感じ」 だと「かんじ」の読みのあとに「感じ」、「感じ」、「カンジ」、 4、""、""、-1 と続き、0;、 次に 1,2,0,0,3095,3095 とあり、 読みの 「かんじ」、「漢字」、「漢字」、「カンジ」、4、""、""、 -1 があり、最後に 0; となります。 mana のソースをきちんと見ずに書いていますが、よろしくお願いします。 -- Etsushi Kato ek.kato @ gmail.com From yoriyuki.y @ gmail.com Tue Jun 20 23:34:21 2006 From: yoriyuki.y @ gmail.com (Yoriyuki Yamagata) Date: Tue, 20 Jun 2006 23:34:21 +0900 Subject: [Shinji-devel 49] =?iso-2022-jp?b?UmU6IBskQjhEP008LT1xGyhC?= In-Reply-To: References: Message-ID: 06/06/19 に Etsushi Kato さんは書きました: > はじめまして。 > mana の個人辞書を uim の GUI 辞書ツールで扱えればと考えています。 > > 登録のほうは、mana-add-new-word で簡単なのですが、一覧を > 作ったり、削除する場合に API がなさそうなので、直接 gdbm > ファイルを開こうかなと考えています。そこで、gdbm の key に > 対する content の format を教えて頂けると助かります。 formatは今後変わる可能性が高いので、APIを追加した方がいいですね。 どんなAPIがあるとよいか案を出していただけますか。 -- Yamagata Yoriyuki From ek.kato @ gmail.com Wed Jun 21 20:05:06 2006 From: ek.kato @ gmail.com (Etsushi Kato) Date: Wed, 21 Jun 2006 20:05:06 +0900 Subject: [Shinji-devel 50] =?iso-2022-jp?b?UmU6IBskQjhEP008LT1xGyhC?= In-Reply-To: References: Message-ID: On 6/20/06, Yoriyuki Yamagata wrote: > 06/06/19 に Etsushi Kato さんは書きました: > > 登録のほうは、mana-add-new-word で簡単なのですが、一覧を > > 作ったり、削除する場合に API がなさそうなので、直接 gdbm > > ファイルを開こうかなと考えています。そこで、gdbm の key に > > 対する content の format を教えて頂けると助かります。 > > formatは今後変わる可能性が高いので、APIを追加した方がいいですね。 > どんなAPIがあるとよいか案を出していただけますか。 そうですね、anthy, canna だと、削除の場合、よみ、品詞、書き、の3つを 指定するようです。 個人辞書の一覧については、scheme の list の形で一括で出していただけれ ば特に問題ない気がします。ただ、学習した内容は除いたほうがいいのかも しれませんが、内部的にどのような区別がなされているのが理解していない ので、ちょっとよくわかりません。 -- Etsushi Kato ek.kato @ gmail.com From yoriyuki.y @ gmail.com Thu Jun 22 01:13:03 2006 From: yoriyuki.y @ gmail.com (Yoriyuki Yamagata) Date: Thu, 22 Jun 2006 01:13:03 +0900 Subject: [Shinji-devel 51] =?iso-2022-jp?b?UmU6IBskQjhEP008LT1xGyhC?= In-Reply-To: References: Message-ID: 06/06/21 に Etsushi Kato さんは書きました: > そうですね、anthy, canna だと、削除の場合、よみ、品詞、書き、の3つを > 指定するようです。 品詞情報そのものは持っていないので、品詞を指定するのはちょっと難しいです。よみと書きを指定するのは簡単です。 > 個人辞書の一覧については、scheme の list の形で一括で出していただけれ > ば特に問題ない気がします。ただ、学習した内容は除いたほうがいいのかも > しれませんが、内部的にどのような区別がなされているのが理解していない > ので、ちょっとよくわかりません。 学習した内容との区別はないので、除くことはできないです。一覧は全単語を一度に出力する、ということでよいでしょうか? -- Yamagata Yoriyuki From ek.kato @ gmail.com Thu Jun 22 01:59:30 2006 From: ek.kato @ gmail.com (Etsushi Kato) Date: Thu, 22 Jun 2006 01:59:30 +0900 Subject: [Shinji-devel 52] =?iso-2022-jp?b?UmU6IBskQjhEP008LT1xGyhC?= In-Reply-To: References: Message-ID: On 6/22/06, Yoriyuki Yamagata wrote: > 06/06/21 に Etsushi Kato さんは書きました: > > そうですね、anthy, canna だと、削除の場合、よみ、品詞、書き、の3つを > > 指定するようです。 > > 品詞情報そのものは持っていないので、品詞を指定するのはちょっと難しいです。よみと書きを指定するのは簡単です。 もちろん品詞は必須ではないです。それぞれの漢字変換システムに応じて 個人辞書の一覧 (読み、書き、あれば品詞、頻度など) を作るような感じ に uim の辞書ツールは今のところなっているようです。 ということで (mana-delete-private-dic-word "kaki" "yomi") といった 感じで mana として問題ないのであれば、それでいいと思います。 > > 個人辞書の一覧については、scheme の list の形で一括で出していただけれ > > ば特に問題ない気がします。ただ、学習した内容は除いたほうがいいのかも > > しれませんが、内部的にどのような区別がなされているのが理解していない > > ので、ちょっとよくわかりません。 > > 学習した内容との区別はないので、除くことはできないです。一覧は全単語を一度に出力する、ということでよいでしょうか? (mane-list-private-dic-words) などとしたら、 (("yomi0" "kaki0" "etc0") ("yomi1" "kaki1" "etc1") ("yomi2" "kaki2" "etc2")) となど返ってくるのを意図していますが、どうでしょうか? 同じ読みに対して複数の書きがある場合も多いと思いますが、 (("yomi0" "kaki0-0" "etc0-0") ("yomi0" "kaki0-1" "etc0-1") ("yomi1" "kaki1" "etc1")) といった感じであれば、辞書ツールとしては扱いは楽な気がします。 ところで、mana の場合、茶筅のコスト (素人でよくわかっていませんが…) も重要な値に見えるのですがこれらもユーザが変更できる (してもいい)と 考えていいのでしょうか? それとも、システム的に自動的に調整されるので、 いじるべきではない値でしょうか? もしユーザがいじってもいい値なのでし たらこういった情報も辞書ツールで扱えるようみなっているといいかもし れません。 -- Etsushi Kato ek.kato @ gmail.com