TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼
デザイナーとの連携
インストールマニアックス4 azure祭り
あなたの User-Agent 教えてください
CodeIgniter Part3
さまざまな言語仕様について熱く語る闘技場
インストールマニアックス3 Hyper-V祭 Part2
htmlを「文章を意味付けする」なんて言う奴はヴァカ
Namazu全文検索システム
何も分からん俺がPHPでWEBサイトを作るスレ
PHPで作られたサイト
Namazu全文検索システム
- 1 :2001/06/14 〜 最終レス :2020/02/11
- 全文検索システム Namazu
http://www.namazu.org/
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
前スレ http://tako.2ch.sc/test/read.cgi?bbs=perl&key=981352718
- 2 :
- いか焼きそば
- 3 :
- namazuはカスタマイズがやりにくいのが嫌いだ。
作り直しきぼん。
- 4 :
- http://64.124.197.202/main.htm
namazuってやっぱり負荷かかるのかな。
- 5 :
- >>4
index作る時にはCPU使用率100%になります。
項目がいくつもあるとかなりツライです。
↓うちのNamazu
http://2ch.dyn.to/
- 6 :
- 100%?(w
すご・・・
- 7 :
- >>5 ん、それは負荷テストに参加してくれというお誘いかな (w
- 8 :
- ここ見てユーザーディレクトリにインストしちゃっていいもんでしょうか?
http://www.amays.com/~mizusawa/namazu_kaisetu/noSUinstall.html
当方レンタルサーバー 専用サーバー持つ金ありません。
C言語は使えます。負荷のかからないように、自分のマシンでindex作ればいいかな。
っていうかレンタルサーバー会社に聞かずにやっちゃって、かまわんかしら(汗
- 9 :
- インデックス構築中に検索かけられるとCGI TimeOut出ちゃうことが多々あります・・・
http://www1.odn.ne.jp/mimizun/
- 10 :
- nice で優先度落とせばいいじゃん。
- 11 :
- windowsだし。
- 12 :
- WIN2Kに入ってるインデックスサービスってどーなん?
- 13 :
- >>12
穴。まさぐられると逝ってしまうぞ。
- 14 :
- 2.0.6 release age
- 15 :
- NAMAZUのインデックスにはたくさんファイルがありますけど、
いらないファイル(テンプレート等)も多いと思います。
結局必ず必要なファイルってどれなんですか?
- 16 :
- >>15
んー俺もそう言えばわからん、
もともと、俺にとって、このNamazu初めの頃難しすぎた。
その前に、うなぎ食いたいんだよね。腹減ってきた・・・
- 17 :
- namazu2.0.5なんだけど、共有サーバにインストールしたんですよ。
でも、さすがにインデックスの作成は共有サーバでやるのも申し訳ないので、ローカルで作ってあげてます。
そういう場合って、namazu.cgi, .namazurc, Template, Index以外は全部テデリっても問題ないですかね?
それと、やっぱ、インデックスをcrontabで定期的に共有サーバで作ったら迷惑でしょうか?
マジレスお願いします。
- 18 :
-
ばれなければ問題無い。
┐(´ー`)┌
┏━━━━━━━━━┓
┃('Д')y ─┛~~ ┃
┃むぎ茶 ┃
┃mugicha@360.cc ┃
┗━━━━━━━━━┛
- 19 :
- >>17
負荷はかからないけど、ローカルは、めんどくせぇ(涙
- 20 :
- Namazu.pm使ってperlでCGIを作りたいんですが…
Namazu.pmってあまり人気がないんですか?
参考スクリプト(書籍・サイト)がなかなか見つからなくって
何かありませんか?
- 21 :
- >>20
ない、と思う。
まあしかし機能はシンプルなことこのうえないので、
利用にあたってそんなに難しいこともないと思うけど。
Ruby 用のモジュール rbnamazu.rb の方機能は多そうだ。
- 22 :
- どう?namazu使ってつくったやつ。
とりあえず2ちゃんねる全板検索可能です。
http://mimizun.mine.nu/
- 23 :
- お奨め本おしえte
- 24 :
- >>22
これ、すげぇじゃん。
- 25 :
- >>24
どこが?
- 26 :
- namazaってCGIやSSIで出力する内容も検索するんですか?
- 27 :
- namazaは知りませんが
Namazuで検索できるのは「ファイル」だけのようです。
- 28 :
- はやくpostgresqlのテーブルの中身を検索できるようになっておくれ。
- 29 :
- >>22
みずずん大丈夫?
- 30 :
- みみずんか(藁
- 31 :
- XMLの検索ってどうなの?
- 32 :
- >>31
filter 書いてくれ。
- 33 :
- >>28
Namazuシステムの構築と活用, ソフトバンク
やっぱこれじゃない?
- 34 :
- >>28 PostgreSQLスレッドで誰かやってなかったっけ?
- 35 :
- >>34
よく知らないけど、pgnmz はPostgreSQLにNamazuのインデックスを
入れておいて、DBにクエリー投げて検索結果を出すという感じっぽいので、
テーブル内容検索とはちがうっぽい。
ttp://search.namazu.org/ml/namazu-users-ja/msg01550.html
- 36 :
- PHPファイルを検索できるようにするにはどうすれば良いんですか?
ソースがまんま出ちゃうんですけど。
- 37 :
- >>36
PHP の出力を検索させたいのなら出力した結果をファイルにして
それにインデックスをかけるとかしないと無理。
- 38 :
- >>37
「出力した結果をファイルにする」ってのは、phpでですか?
なんかそこら辺のこと詳しく書いてあるサイトが無いんで…。
Namazuシステムの構築本に書いてないかなー
- 39 :
- >>38
php のことよく知らないけど
php scriptname.php ってやったら出力されないかな?
ところで俺も質問なんだけど、namazu.cgi って検索後は
ファイルへのリンクを http://hostname/hogehogeで出力するけど、
こいつを file://hogehoge にする方法って無い?
windows でローカルファイルの検索に使いたいんだけど WEB で
探しても見つからなかった。
- 40 :
- >>39
php scriptname.phpだとコマンドすら無いって言われてしまう。
指定先は.namazurcってファイルで設定できる↓参照
http://village.infoweb.ne.jp/~fwnk1502/data/howto2.htm#namazurc
- 41 :
- コマンド版のPHPがないとダメじゃないかねえ。
>>39 はインデックス作成時に
mknmz --replace='s#^#file:///'
とかでもいけそうだけどどうよ。
- 42 :
- 2chNo1(と思える)過疎板にて反応があって感動。
>>40
.namazurc で
Replace http://localhost/ file://
と指定してみてたんだけど、どうやら無効の模様。
この部分(http://hostname)は固定で出力してるのかな?
>>41
やってみたけどだめっぽい。
でも他にそれらしいオプションも見つからないね・・・
こういう変な事やる時は cgi 改造しか無いのか、とほほ。
pnamazu か rbnamazu に挑戦してみよう。
ところで >>40 はうまくいったかな?
アパッチのモジュール lib_php3.so (だっけ?) しか
インストールされてない時は >>41 の 言う通りコマンド
ラインで使えるようにしよう。手動で最初からやってみ
たこと無いので詳しい説明できなくてごめん。
- 43 :
- 返事遅れてスマソ。
>> 39
うちは
Replace /C\|/docume~1/admini~1/mydocu~1/mywebs~1/ http://ark/
みたいな感じになってる。ちなみにこの行と
Lang ja_JP.SJISと書かれた行以外は全てコメントアウト
php検索はコマンドラインで使えるように設定してみます。
というかコマンドラインで使えるようにする方法すら知らないんだけど。
どこか書いてるとこ知りません? 本でも良いんですけど。
- 44 :
- このサイトはみなさんのインターネット環境の
スピードを計ってくれます。また、遅いと思う
人は設定を少し変えることによって無料で
スピードを早くすることができます。
お金を出す前に一度試してみては
いかがでしょうか。上がりの計測も可能です。
http://cym10262.omosiro.com/
- 45 :
- http://www.max.hi-ho.ne.jp/~http/
- 46 :
- だめだ〜Out of Memory!で止まっちゃうよ〜。
一応FAQに書いてあることは試したつもりなんだが・・・。
どうも特定のファイルの時にそうなってるみたい。
なんか落ちやすい文字とか、そういうのあるんかな?
- 47 :
- 設定の問題かどうか
- 48 :
- ulimit がらみだと思うけど > Out of Memory
もしくは本当にメモリ(+仮想メモリ)が足りないか。
- 49 :
- use POSIX 'strftime';
print strftime "%Y%m%d\n", localtime;
こう書くと年月日が出るじゃないですか。
この日付けに7を足す事ってできます???
- 50 :
- >49
マルチうざい
資ね!
- 51 :
- >>49
逝って良し。
■解説■
マルチは下げ進行で微妙に煽りつつシカトします
上記例のように古典的な煽りは「逝って良し」
他にアスキーアートを使ったものなど多彩ですが、
サーバーの不可を考慮してかあまり好まれません。
やはりシンプルに「R」など短文なものがベストです。
- 52 :
- あげ
- 53 :
- age
- 54 :
- もう、、下げといてやれよ。。
- 55 :
- >>54
再利用というか、もっかい盛り上がることが出来ないスレなんですか?(笑)
- 56 :
- 半年で、50位か。1000までいったら感動するな。あげ
- 57 :
- age
- 58 :
- このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。
- 59 :
- age
- 60 :
- 関連スレ
全文検索エンジンNamazu @ Unix板
http://pc.2ch.sc/test/read.cgi/unix/1009715036/l50
- 61 :
- namazuの検索、なんか使いにくいんだけど。。
変に文節で区切らずに、googleみたいに普通に検索してくれたら
それでいいのに。。
- 62 :
- >>61
うん。
- 63 :
- >>61
これのこと?
>日本語がでたらめにわかち書きされてしまう
>{ [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、
>でたらめにわかち書きされることがあります。
>これは、そもそも最新情報という言葉が検索対象に含まれないことを意味します。
>検索はあきらめましょう。
それとも、インデックス作るときの分かち書きをしないでほしい、ってこと?
それって実現できるのか?
- 64 :
- googleはユーザーにあまり意識させないだけで、分けて探してるよ
- 65 :
- googleわけてるかな?
日本語は解析していないように見えるけど…。
英語はスペースでわけるだけだから楽だね。
それにしてもgoogleはスペルミスの修正判断も出してくれたりすごい。
つーか20億ページを0.1秒で検索できるのが単純にすごいと思うのだが。
ローカルでほしい、、
- 66 :
- >>65
googleも分かち書きしてるらしい、という実験結果がある。
検索エンジンのしくみ教えます
http://www.google.com/search?hl=ja&ie=Shift_JIS&oe=Shift_JIS&q=cache%3AALmw0POy8V4C%3Awww.mars.sphere.ne.jp%2Fengine%2Fchap_g1.htm+site%3Awww.mars.sphere.ne.jphl%3Dja+Google&lr=lang_ja
なんか 403 forbidden になってるんでgoogleのキャッシュで見てね。
- 67 :
- >>66 さん、ありがとうございます。
ほんとだ。分かち書きしてる、、
うむ、googleはちゃんと各言語ごとにチューンしてるんですね。
- 68 :
- 逆に言えば、分かち書きエンジンの精度さえ向上させれば、
google並みのことはできるってことだよね
(もちろん、PageRank とかは抜きにして)。
いつも kakasi だけど、Chasen を使ってみようかなあ・・・。
- 69 :
- 個人で使うような件数の多寡が知れているようなシステムだったら、純粋に全件マッチ検索の方が便利だよね。
- 70 :
- >>68
googleの肝は結果の表示順序。(pagerankもそれを支える情報の一つ)
なので、namazuに少し手を入れたぐらいではgoogle並にはならないよ。
ヒット数が少ない場合、関係ないけど。
- 71 :
- >>70
その点は激しく同意。
ただ、分かち書きの精度を上げることで、
>>61 のやりたいことは実現できるんじゃないかな、って思った。
- 72 :
- (´_ゝ`)フーン
- 73 :
- Namazu使ったPDFの全文検索でページしていとかできますか?
- 74 :
- Namazu使ったJPGの全文検索でページしていとかできますか?
- 75 :
- >>70
いまさらだが、NamazuへのPageRankの実装は、この論文が有名。
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
- 76 :
- >>75
まだ、このスレが生きていたとはね
興味深い文章サンクス。
改めて深入りできない、しちゃいけない分野だと再確認したよ
- 77 :
- 77ゲットオォォォォ!!
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄ (´´
∧∧ ) (´⌒(´
⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
 ̄ ̄ (´⌒(´⌒;;
ズザーーーーーッ
- 78 :
- (・∀・)イイ!
- 79 :
- 類似スレッド
WWW検索エンジンサイト
http://pc.2ch.sc/test/read.cgi/esite/973436559/l50
- 80 :
- ひさしぶり!
- 81 :
- コレ、namazuの対抗馬になれるか?
http://freshmeat.net/projects/snatcher/
- 82 :
- mp3用のフィルタって誰か書いてないかしら?
- 83 :
- Namazuでmp3用のフィルタ???
わからん、俺がアフォなだけか?
- 84 :
- >>82
ID3タグでも検索するのか?
そういうのは ふつー DB 使うだろ。
- 85 :
- >>83-84
自分のホームヂレクトリをクロンで毎晩なめてるんだけど、
どうせなら、ID3も見てくれないかなと。
変かなぁ。
- 86 :
- って、WEBプログラミングとは、違いますな。
スレ違いスマソ。
- 87 :
- >>86
なるほど、mp3 の中に埋め込まれたテキストも「文書」として扱い、
検索対象としたい、ってわけね。全然変じゃない。むしろ面白い。
やってることは google のイメージ検索みたいな感じかな。
perl でサクッと書けそうな雰囲気。
ぜひトライしてみて。
あと、Web プログラミングとは関係ないけど、
Namazu に関係あればいいと思うよ。
- 88 :
- いや、それをWebから使えるようにすりゃWebプログラミングと
むちゃくちゃ関係あるじゃん。
> やってることは google のイメージ検索みたいな感じかな。
イメージ検索は外部から関連性を持ってくるのでちと違うような。
内部のID3だけだったらPDF検索くらいに対応するだろう。
ぜんぜんNamazuじゃなくても良さそうだけど、他と串刺し検索するなら
やっぱり便利かも。
- 89 :
- うなぎ食べたいね。
- 90 :
- ナマズマズー
- 91 :
- ウマー
- 92 :
-
検索結果で表示されるファイルの先頭部分のサイズを変更できますか?
やりかたを教えて下さい。
- 93 :
- wget
でURLテキスト-iで、ディレクトリ作成-x
しながらページ拾ってくると、
稀にディレクトリ作成(www.aaa.xxx)されなくて
関係ないディレクトリ(www.bbb.xxx)にページを
格納してしまいます。
このままindex作るとURLリンクが関係ないところに。
どうしてだろう。困った。
- 94 :
- Office XPファイルは、インデキシングできないのかなぁ。
- 95 :
- @ノハ@
ピュー( ‘ д‘)
=〔~∪ ̄ ̄〕
=◎−−◎
- 96 :
- @ハヽ@
(' д ‘)ピュー
〔~∪ ̄ ̄〕=
◎−−◎=
づかれたゾイ
- 97 :
- ↑車輪がずれたゾイ
- 98 :
- ウマー
- 99 :
- Chasen を使ったインデックス作成が出来ません
http://www.namazu.org/ml/namazu-win32-users-ja/msg00671.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00672.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00692.html
を見ると、2001/05 時点で chasen を使ったインデックス作成は
cygwin 環境で行うことができるようですが、
現在も chasen を使おうとすると cygwin 上で行うのが妥当でしょうか?
- 100 :
- >>99
Chasen 2.0.2 は cygwin 上で問題なくコンパイルできました。
100〜のスレッドの続きを読む
i-2chをEZwebでも正常に見れるように
PHP+MySQlでCMSっぽいものを
クロスサイトスクリプティング対策
WEBでデータベースを作る方法はなにが一番簡単?
◆JSP◆
七行プログラミング
ワンストップ認証【OpenID,SAML,Live ID, BBAuth】
【SWFで】Macromedia Flex【RIA】
WEBアプリにもっとも適した言語は何か?
Python CGI
--------------------
My protein マイプロテイン 91 [強制コテハン+ID]
【やってる感】安倍首相「私は(コロナ対策を)一生懸命やってる!」メディア「どういう対策を?」安倍首相「全力で取り組んでいる」 ★4
切干大根だけどトコロテン射精について質問ある?4
【貨物】新日本海フェリー41隻目【主体】
J.M.WESTON Part22
中村静香でいいからプロポーズしたい
台風12号「すいませんッ1人も殺れませんでしたッ!」
「軽で十分」とか言ってる奴ってなんなの?#166
京都競馬 2回6日目 3
牛角「月1万1000円」で焼き肉三昧 たった3回で元が取れる
【漫画】「ポプテピピックの絵が苦手」サイバーエージェントの編集デスク・天野俊吉氏の発言に作者・大川ぶくぶ氏がコメント→天野氏謝罪
【マターリ】報道ステーション
【アンケート】METAL GALAXY好きな曲を3曲上げるスレ
敗走宣言したロレチョンを煽った結果www
ともよと乗る飛空挺が配信今日から
ジャズがこの先生きのこるには
【映画】 強制徴用者8000人の水葬虐殺事件を扱ったドキュメンタリー映画「浮島号」ポスターに安倍首相登場[07/10]
【障害者雇用“水増し”問題 】中央省庁で1000人超の見通し 総務・国交・経産・環境省、国税庁の少なくとも5つの省庁で
au F001 by FUJITSU Part4
☆BLOOM☆
TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼