質問:
英語のサイトの日本語版を作ってますが、サーチエンジンのプログラミングのことで悩んでます。英語ですと、単語と単語の間スペスがあるので、パソコンが自動的に単語を認識しますが、日本語ですと、スペスがないので、認識してもらえるようにどうやってプログラミングしたらよいでしょうか???
サイトのリンクは
http://jp.blurtit.com
検索のところに何いれても、検索ページは正確に見つからないです。誰か教えてください!
お願い致します!!!!!!!!!!
答え:
日本語のパーシングは大変難しいのです。
例えば「生産物価格安定法」という単語を考えてみましょう。(実際には、こんな法律はありません)
((生産+物)+価格+安定)+法とパースすべき単語です。
しかし、
生産+物価+格安+定法ともパースできてしまいます。

一般的には「漢字とかなの境目で単語の切れ目とする」ぐらいしかありません。
あとは「辞書」との突き合わせによるパーシングとなります。

unix業界では茶筌(chasen)というプログラムが「形態素解析システム」として有名です。
参考URLをどうぞ。
補足の質問:
ありがとうございます。参考になります!
あなたもホームページ持ってますね、シンプルけど、特徴があっていいと思います。この質問・回答は役に立ちましたか?

ウェブサイトのユーザーによる情報ポスト、JPQA.comのない保証の正しさ.

  • ホームページを作りたいです。ぼくのパソコンには「...
  • 自分のホームページにお気に入りのアーティストやお店...
  • ソフトバンクのワンセグ携帯は未契約でUSIMカードさせ...
  • P902isを最近買いました。カスタムジャケットの...
  • i-podを買うか迷っているのですが設定とか面倒なこ...
  • ネガをCD-Rに書き込む処理をしたのですが、焼き増しに...