TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼
【質問】ASP.NETスレ Part7【雑談】
【 スクリプト改造依頼スレ 】(丸投げ) part8
■■これから食っていける技術の組合せは?■■
Python CGI
Perlなんですが・・・
天才WEBプログラマの方々に一生のお願い…
カウンターのつけ方を教えて下さい(ド初心者です)
Python CGI
【仕様】荒らし対策掲示板【実装】
Perlのオブジェクト指向って無理やり実装だなw

検索エンジンをつくりたい


1 :01/12/22 〜 最終レス :2019/11/04
ヤフーのような検索エンジンを作って、
自力で商用化をしたいんだけれど、
開発費用っていくらぐらいかかる?
信頼のおける技術者も探しています。

2 :
>>1
スゲー面白そうじゃん、俺も参加しよ!!!!
みんなもやろーぜ!!!!!!!!

3 :
イメージしているものが良く分かりませんが、
いまさらYahooでもないでしょう。
とりあえず、全文検索についての技術動向は
こちらが手軽にまとまっています。
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

4 :
本気?
あんなの利用するのネット暦半年未満ぐらいの人だよ?
いまさら同じアイデアで成功するとでも思ってるの?

5 :
>>2
で、なんで>>1と同じメールアドレス?(w

6 :
出来合いのロボットプログラムあるんじゃないの?
開発費用は有能なプログラマを捕まえられるかどうかにかかってる。
有能なヤツつかめば驚くほど早くできるが
無能なヤツつかむとどれだけ人数と時間をかけてもはかどらん。
ま、有能なヤツは給料もタプーリ払わないとだめだけどね。

7 :
さっそくありがとう。
>>4さん
まさにそのとおりなんだけど、
あんなの利用しにくいから、つくってしまえ、と。
アイデアを話せば、なるほど、と思われる(あるいはひとりがてんと
笑われるかもしれないけれど)、
うまくいけば、第二のヤフー(大金持ち)も夢ではない
と思っています。
>>3さん
じっくり読んでみます。ありがとう

8 :
>>6さん
僕も不思議です。
>>2さん。人のメルアド使わないでね^^

9 :
8の
>>6さんは
>>5さんの誤りです。^^

10 :
>>1さんかっくいー!!

11 :
1さん完成したらぜひ使わせていただきます!!
みなさん協力してあげてください!!!!

12 :
ちなみに僕はWEB界の人間ではなく、編集者(出版)。
画面という誌面の中で、
どういう工夫を施せば、もっと使える検索サイトになるかを、
(言い方は悪いけれど)
アメリカのWEB製作馬鹿(=別にヤフーをいっているわけではありません^^)
よりは、知っていると思います。
仕事がら検索サイトでの検索をよく利用するけれど、
「なぜ、こんな馬鹿な検索サイトをつくる!!」と日々怒っています。
それならつくってしまえ!と。
コネもなく、技術もなく、お金もない・・。
だから、まずは2chで、現状やご意見、我こそは、という人を探してみたいと思ったわけです。

13 :
>コネもなく、技術もなく、お金もない・・。
じゃ、ムリ

14 :
素人に出来るものではない

15 :
>>13さん
>>14さん
だと、思います。だけど、そういってあきらめては、何も前進しない。
希望は、といえば、僕の考えに賛同してくれて、
成功を信じてプログラムをつくってくれる(成功報酬で。つまり失敗すれば無償)
優秀で奇特な人を探したい・・というのが本音かな。
そんな人がいたらメールください。
会って話しましょう。

16 :
あのクラスのサーチエンジンはそういうレベルで作れるものじゃない

17 :
んー。アプリだけだったらGPLでつくれるかもだけど。
運用は、まず無理だろなー。金がないと。

18 :
>んー。アプリだけだったらGPLでつくれるかもだけど。
>運用は、まず無理だろなー。金がないと。
その運用のお金っていくらぐらいなんでしょうか?

19 :
アプリさえつくれて、それが評価されれば、
買い手(運用者)はいくらでもいると思っています。
評価されなければ、実際に運用しても仕方がない。
運用は、評価のための、最小限の運用でよいと思っています。

20 :
結論。
>>1に技術が無ければ無理。

21 :
> 画面という誌面の中で、
> どういう工夫を施せば、もっと使える検索サイトになるかを、
> (言い方は悪いけれど)
> アメリカのWEB製作馬鹿(=別にヤフーをいっているわけではありません^^)
> よりは、知っていると思います。
出版系の人って紙の印刷物での手法をwebにも持ち込もうとするけど、
単にあなたがweb系の表現方法に慣れてないというだけのことはない?

22 :
>>21さんへ
web系の表現方法ではなく、考え方です。
使う側の立場に立った、
検索サイトのあり方を問題にしています。
けっして表現の部分ではありません。
また、「web系の表現方法に慣れる」という、
習熟を利用者に強いるようなコンテンツは、そもそも最悪と考えています。

23 :
その利用者ってのにもレベルの差がある。初心者向けの
コンテンツは大抵パワーユーザーには無視される。
単純に、「わかり易いもの」=「良いもの」じゃない。
どんな「使う側」の立場に立つつもりかは知らんけどね

24 :
> また、「web系の表現方法に慣れる」という、
> 習熟を利用者に強いるようなコンテンツは、そもそも最悪と考えています。
何をするのにもある程度の習熟は必要だと思うけど。
自転車に乗るのには習熟が必要だけど、サイクリングロードなんかの施設は最悪?

25 :
>使う側の立場に立った、・・・・
これは世の中の初心者さんの事を言ってるんか?
それとも、自分の事? つまりこう言う事?
「車を買ったが、こんなにスイッチが有るのは大変なので車を作ろうと思います。
因みに、僕は八百屋をやっていて無償で手伝ってくれる人を探しています!!」
・・・・無理! あきらめろ

26 :
とりあえず論文あさって、目をつけた研究者に直接会って話するのが一番はやいと思う。
(本気でやるなら)

27 :
雑誌はハイパーリンクが無いしダウンロードできないから不便だなぁ(w

28 :
夢多き厨房ですか (笑
各アルゴリズム本小一年位読めば、何とかなると思うよ

29 :
>>1
君よりかしこい人たちが沢山お金と時間をかけて検索エンジンってのは開発、管理、運用されているんだよ。

30 :
そもそも、「Yahoo!みたいなの」という場合はロボット型検索エンジンでは
なくてウェブディレクトリを言うのだが。今ではYahoo!もportalの一貫として
検索サービス(今はgoogle)へのゲートウェイも提供しているけどね。

31 :
技術未満というか、要件定義未満の話だろ。
技術なんて目的が伴って始めて意味もつんでさ。
何のために検索するのかとか、考えたこと無いでしょ?

32 :
私が馬鹿だからでしょうか?
「ヤフーのような検索エンジン」の意味が分かりません。
「ヤフーレベルの検索エンジン」という意味でしょうか?
「ヤフーのような」ならゼロ円でききるし、「ヤフーレベル」なら
サーバー管理・費用など含めて100万200万の話じゃないような気もしますが。
そもそも現状Webの世界では技術開発よりも運用ポリシーの方が大事で、
まずそれを決めてから既存の技術をどう組み合わせるかを考えます。
それにヤフーは検索エンジンだけでなく様々なコンテンツとのシナジーで
さらに集客があがり、その結果商用(広告)として成り立ってます。
つまり、1>さんは何がしたいのですか?

33 :
検索エンジンなんて普通はサーバー代で億単位だぞ。
素人が採算の見こみもとれずにやっていけるところじゃない。
あと自作自演はすぐに分かるからやめてくれ。

34 :
1はバカです
例えるなら1はロックが好き、そこで張り紙を出した
有能なバンド仲間募集しています、私は何もできません。

                      あほ

35 :
>>34
極端過ぎるよアホ

36 :
そう?結構良い例えだと思ったけど。
どうせならGoogleみたいな検索エンジンを作ってくれよ>>1

37 :
>>34に同意
できるなら黙ってやれ

38 :
これが噂の「あれ」を指摘した人が負けなスレですか?
5,33氏は早速死亡ですか。
#ひさびさの本物電波か中坊に出会って少々興奮してます、私

39 :
面白そう。AGE

40 :
わーい

41 :
わーい

42 :
ていうか、検索エンジン作っても今さら人が集まらないのでは?
スパムメールでも送りまくるのか?(w

43 :
>>42
Googleを超えるの作れば集まるだろうよ。
>>1には無理だが。

44 :
ネタにマジレスだけど、、
>>1よ。
個人の要求に応じて日々ネットを飛び回って、
要求に合ったWebを発見したら通知してくれる
「エージェント」を作ってくれ。
※技術的に極めて難しいのは承知の上。

45 :
    d_b    / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
              (  ゚曲゚)  < 日下部は俺一人でいい…!
             /⊂彡Vミつ   \_________
             |_ζ<O> ζ
              (_)_)

46 :
            / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄\
Λ_Λ  | 君さぁ こんなスレッド立てるから          |
( ´∀`)< 厨房って言われちゃうんだよ             |
( ΛΛ つ >―――――――――――――――――――‐<
 ( ゚Д゚) < おまえのことを必要としてる奴なんて         |
 /つつ  | いないんだからさっさと回線切って首吊れ     |
       \____________________/
(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)
(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)
(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)

47 :
>>12
この人が作った雑誌を見てみたい。
勘違い糞雑誌(社)のなんと多いこと。
中途半端に出てくるくらいなら一生紙にしがみ付いてろ。

48 :
(^^)

49 :
みえみえの自作自演する寒い1には何やっても無理。w
2 :名無しさん@お腹いっぱい。 :01/12/22 23:26 ID:???
>>1
スゲー面白そうじゃん、俺も参加しよ!!!!
みんなもやろーぜ!!!!!!!!


50 :

http://www.fm8283.sakura.ne.jp/um/view?id=2048

51 :
(^^)

52 :
(^^)

53 :
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

54 :
携帯ゲーム機"プレイステーションポータブル(PSP)
 このPSPは、新規格UMD(ユニバーサルメディアディスク)というディスクを利用しており、そのサイズは直径6cmととても小さい(CDの半分程度)。 容量は1.8GBとなっている。
画面は4.5インチのTFT液晶で、480px x 272px(16:9)。MPEG4の再生やポリゴンも表示可能。外部端子として、USB2.0とメモリースティックコネクタが用意されているという。
この際、スク・エニもGBAからPSPに乗り換えたらどうでしょう。スク・エニの場合、PSPの方が実力を出しやすいような気がするんですが。
任天堂が携帯ゲーム機で圧倒的なシェアをもってるなら、スク・エニがそれを崩してみるのもおもしろいですし。かつて、PS人気の引き金となったFF7のように。

55 :
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―

56 :
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉

57 :
ここで人気No.1のAV女優、及川奈央のオマ○コが見れました!!
うぉぉぉぉぉぉ!!!!素晴らしい!!!(*´Д`*)ハァハァ
http://plaza16.mbn.or.jp/~satchel/oikawa_nao/

58 :

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

59 :
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

60 :
     ∧_∧  ∧_∧
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
  = ◎――――――◎                      山崎渉&ぼるじょあ

61 :
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン

62 :
関連スレ
【求む!】ロボット検索エンジンのprog【教えて!】
http://pc2.2ch.sc/test/read.cgi/php/1009507473/l50
検索エンジンつくりたい
http://pc2.2ch.sc/test/read.cgi/php/1063529003/l50
YomiサーチPHP化プロジェクト
http://pc2.2ch.sc/test/read.cgi/php/1044371877/l50

63 :
まことに勝手ながら、本日を持ちましてこのスレは
検索エンジン製作に関するスレになりました。

64 :
マジで検索エンジン制作の話題したいんだが
PHP+MySQLでヤフー式の簡単な検索エンジンを制作する場合
どのくらいのアクセス数、登録数に耐えられると思う?

65 :
リンク集をhtmlで作って、googleのサイト内検索窓でも付けれ(藁

66 :
>>64
どんなマシンを何台使うかによるよ。
あと、検索精度にどの程度こだわるかにも。
フレイズ検索は不要と割り切ればMySQLでもそれなりにスケールするだろう。

67 :
>>64
俺同じようなのPerl+Accessで作ったけど
Accessでも10万件くらいはいけるんじゃないの?
とか楽観的に考えてる。

68 :
>>66
例えばマシンはレン鯖によくある下記のスペックだとする
OS:RedhatLinux
CPU:Pen4 2.4GHz
RAM:1GB
HDD:120GB×2(RAID)
回線:光100Mbps
俺としてはYomi-searchほどあれこれ機能がついてなくてもいい。
用は検索の鮮度を上げることと、下位に位置するページも
見やすいような作りを望むわけだ。下位ページが悪いわけじゃないし。
>>67
個人、(もしくは中小)規模の人間が数人でせっせとやったところで
現状、大手の検索エンジンがある以上、数年でせいぜい10万件が限度だと思う。
と考えると、問題は数より中身で勝負なわけで。
検索スピードは最低でもYAHOOやGoogleと同レベルにする必要はある。
そして+αの機能。ランキングやアクセス数以外の面で何かユーザーにとって
”使いやすい”機能を提供しなければならない。

69 :
せっかく議題出してるのに返事ねーよ・・・鬱

70 :
それぐらいのマシンだったら、10万件のっけたとして、
1日10万アクセスぐらいは楽にこなすと思う。
MySQLで作っても大丈夫でしょう。
+αの部分がどれだけの計算量を必要とするかにもよるが。。

71 :
>>68
個人でサイトの登録なんかしないよ。無断リンクで怒られるし。
サイト管理者に登録してもらうんだよ。

72 :
>>70
なるほど。あとは+αの部分だな。。RSSを絡めるのもいいとは思うし
アマゾンみたいに自分にあったサイトを抽出するような機能を
出せるのもいいとは思うが、それだとかなり大変そうだしな・・。
>>71
書き方が悪かった。個人や小規模の場合、YAHOOやGoogleなどの
組織と比べて動ける範囲や予算も知れてるだろうって事。
リンク獲得も人や金がいるだろうしね。

73 :
検索エンジンで食っていけるかな?

74 :
>>73
単なる検索エンジンなら無理だと思う。
上でもあるように+αの効果が無いと。

75 :
>>74
大した機能なくても(Yomi-Search使ってたり)ジャンルを特化したり
すれば結構人が来てるサイトもあるよ。

76 :
>>75
俺としては基本的にYomi-Searchほどの機能は無くてもいいと思う。
特にランキング関係はサイトの差別化になり、良くないし。
だからYAHOO!のように地味でもキーワードにあったサイトを出すのが一番だろうね。
あとはジャンル化。Googleで検索しても目的のキーワードで拾えない
事が多々あるから専門分野に特化した検索エンジンなら効果あるかもね。
例えば野球の検索エンジンで試合結果をすばやく更新した
サイトを検索結果で上位に持ってくるとかね。
サイトのupdateの時間と野球の大体の試合時間を予測(もしくは手動で観察)
する必要があるけど、野球を見逃した人なんかは試合結果を気になって検索するしね。

77 :
>>76
それだけ見るといわゆる「アンテナ」でいいじゃんって感じがする。
野球系の役に立つサイトを100個ぐらいあつめてアンテナに登録して
おけば>>76に書いてあることは実現できるよね。
俺は「検索はアバウトだから良い」と思っているのでそういう特化した
検索エンジンはいらない。むしろ多少外れた内容がたまにあるから知識
が深くなることも多いと思う。
ところがたまに外れ過ぎるときがあるのと、ピンポイントでの検索を
行いたい時に困る。
あ、これ書いていたら良い方法が思い付いたかも…。



78 :
>>77
カテゴリ分類されたロボット検索エンジン?

79 :
>>78
いや、『方法が思い付いた』と言っても何かアルゴリズムが思い付いたとか
ではなくて『もし、こんなことが可能なら理想に近くなるかも!?』と思った
程度の話。
しかも、紙に書きながら考えをまとめようとしているが、まったくまとまらん。
とりあえず、検索エンジンだけで成り立つシステムではないなぁ。
ってか自分でもよくわからん。


80 :
>>77
なるほど。例えば商売にするわけじゃなくてもはやりそれなりの反響は欲しいわけで
機能を限定したユーザーだけが利用するような検索エンジンを作っては
範囲がかなり狭まるからね。
俺もなんとなく”イメージ”は沸くんだが、なかなか口に出していえない。
ようはサイトに登録する人・観覧する人双方それぞれが得をして
その仕組みによってインターネットを活用する人が更に増えればいいんだけどね。
今は誰でもどんなページでも検索エンジンに登録できて
「野球」というキーワードで検索しても野球のサイトが出なかったりするし
それぞれ目的が違うしね。(試合結果を見たいのか、大リーグの応援サイトを見たいのか等)
と↑を書いてたら俺も微妙に浮かんではきてるんだけどねw

81 :
>今は誰でもどんなページでも検索エンジンに登録できて
>「野球」というキーワードで検索しても野球のサイトが出なかったりするし
俺は違うと思う。
あくまで検索エンジンはできる限り多くのデータを持っているべきで、それを
『どのように』選ぶかで悩むべきだと思うんだ。
今何となく思っているのは
『野球についての良いサイトを見つけたかったら、野球について良く知っている
人に聞くのが1番』だということ。
ほんと、よくわからん(藁

82 :
>>81
『どのように選びべきかで』という文と「俺は違うと思う」ってなんかおかしくない?
俺が感づいてないだけならすまん。。
>『野球についての良いサイトを見つけたかったら、野球について良く知っている
>人に聞くのが1番』だということ。
そのデータの”取捨て”が難しいわけで。データ量が多い=野球に詳しいってわけでもないし。
上でも書いたけどいくら検索エンジンが多くのデータを持つことが大事だとはいえ
”正確さ”ってのが大事なわけで。GoogleとYahooと比べて正確さなら明らかにYahooなわけで。
なぜなら人が見てカテゴリを判断してるからね。
俺も自分の話で悪いが「正確さ」を求める時はYahooでカテゴリ検索する。
上の例で言うと野球の有名な(情報量の多い)サイトを探したい場合、Yahooならあるが
Googleの場合、違うサイトが引っかかる場合があるからだ。漠然とキーワードが定まらない
場合はGoogleはいいけど、ある程度目的が決まっている場合はYahooになる。
このYahooの”正確さ”を手動ではなく自動で解析できるようになるといいんだけど
単にhtmlのtitleやmetaタグの文字を参考にするだけでは正確さが出ないしね。
なぜなら登録時に偽りのデータを書けるわけだし。

83 :
>>82
>『どのように選びべきかで』という文と「俺は違うと思う」ってなんかおかしくない?
>俺が感づいてないだけならすまん。。
伝わらない? ごめん
要するに『どんなページでも登録できる』ことが『目的のキーワード
の検索結果を濁らせる』わけではないと思う、ということ。
どんなページでも登録できて、かつ良い検索結果を出すのが理想だよね。
今考えている方法だとデータの取り捨ては重要ではなさそう。
もしも、もしもだけど、Google利用者が毎回各検索結果に対して
得点付けをしたらどうなるだろう。
それで、利用者はGoogleに対して『野球が好きな人が付けた得点のみを
採用』するように設定する。正の得点も負の得点も(つけてないものは0かな)。
言い方を変えると「野球好きな人が良いと判断したサイト」に重みを
かけるようにする、ということ。
問題は大きく分けて二つ。
1. 得点付けなんて面倒なことしたくない(しかも自動化は難しい)
2. どのユーザが野球好きかなんて分からない
この両方が解決したら、楽しそうだよね。
一応頭の中では解決しているのだけど、別の問題が多々…。

84 :
>要するに『どんなページでも登録できる』ことが『目的のキーワード
>の検索結果を濁らせる』わけではないと思う、ということ。
なんとなく分かった気がするw
で、77の新提案だがそれはYahooのレビューサイト(本とかCDとか)を見ると答えが出ると思う。
あそこは2ちゃんからの荒らしが多いのか、めちゃくちゃだw
それに自分の検索結果だけを投票するようなスパム行為も行われることだろう。
俺が一番、検索システムで改善して欲しいポイントが「新規サイト」に関してだ。
Googleでも最近、登録されたサイトは上位にくる傾向にあるようだが
基本的に1ページ10サイト(Yahooなら20?)しか表示されないわけで
どう考えてもやったもん勝ちの新規参入がしにくい。
まぁ、実店舗と比較すると実店舗も中々大手には勝てないから地道にするしかないんだけど
ネットだとその差が激しいと思って。実店舗だととりあえず「新規開店時の優遇」があるけど
ネットの検索エンジンだとあまり効果が無い。まぁ、Yahooぐらいなサイトになると
新着サイトに載るのは効果があるけど、Yahooは手動だから論外なわけで・・。
何がいいたいかというともっと新規参入者が参入しやすい体制を作れないかな?と思うわけ。
そしてネットを数ヶ月していて毎回同じサイトばかり見ている人に
「こんなサイトが新しく出来ましたよ〜」っていう良い方法がないかな?と思って。
両方、提供する側・される側にとっても有益になると思うし。
うまくかけなくてごめん。。

85 :
暇だからもう少しsageで書くw
いくつか手段を考えているがどれも解決しない。。
・ユーザー登録したユーザーに新着サイトを随時メールする
→うざがられてほとんど見ないと思う。
・検索するたびに新着サイトを表示
→限られている画面上では検索結果の情報と比べて限界がある。
・検索するたびに毎回表示されるサイトを変える(ランダム表示)
→検索エンジンの信頼性を欠く
・アクセス数、アップデート回数、投票数などで順位を決める
→不正が可能だし、cookieで制御しても数的に新規参入はなかなか上がれない

86 :
んーでもできたばかりのサイトに情報価値はないでしょ。

87 :
>俺が一番、検索システムで改善して欲しいポイントが「新規サイト」に関してだ。
>>86が言う通り新しいサイトだからといってみる価値があるとも限らないよね。
でもこれが「新規ページ」ということならば同意。
単純に「過去一か月にアップされたページ内から検索」ができたら面白いかも。
「新規ページ」はリンクもあまりされていないからなかなか上位に入りにくいからね。
>・検索するたびに毎回表示されるサイトを変える(ランダム表示)
これは*うまくいけば*面白いと思うけどな。
Googleにランダム用のボタンでも作っておけば楽しいかもしれない。
というかこれならGoogle APIで実現可能(シンプルな方法ならば)。
話は変わるけどGoogle APIってどれくらい利用されてるんだろう。
俺は.NET使えないから、使うとしたらJavaかぁ。
最初はGoogleのデータベースを利用して形にしてみるのも良いかもな。

88 :
検索エンジンの3つの答え
・カテゴリ型検索エンジン
・ロボット型検索エンジン
・人力検索エンジン

89 :
http://avbb.net/

90 :
そういえば、人力の結果がまだこない。
何検索したかも覚えてないぞw

91 :
検索結果の表示にもいろいろとパターンがあるけど、どれが一番いいんだろ?
通常は
「サイト名」登録日
サイトに関する情報
で、Yomi-seachなら前にバナーを表示させたり、クリック数を表示させたりできるわけで。
”バナー”って個人サイトなんかだとそのサイトの色を示せるから結構、楽しいんだけど
逆に安っぽさがあったり、表示に時間かかったりするわけで。
かといって単に文字だけ表示だと文字に埋もれて醜いわけで。(電話帳のごとく・・。)
表示方法もそうだけど、表示件数も難しい。1ページ10件ぐらいが妥当だと思うが
逆にそれだと上位数ページしか見ないという問題も出てくるし・・。
検索結果の表示法ほうってのもかなり重要な気がする。

92 :
もうサーチエンジンなんかいらねえよ
余計なもんがひっかかるだけだからやめろ

93 :
>>91
一つだけ言えるのは検索結果の表示にバナーは必要ない。
バナーなんてサイト運営者のエゴ以外の何者でもない。
検索する人の立場になって考えましょう。
Yomi-Searchの作者は利用者への配慮に欠けてる。
検索結果の画面も見にくくてしゃーない。

94 :
Yomi-Searchの作者はNET CRUISERの検索結果表示を見習え。
http://www.kent-web.com/pubc/navi/cruiser.cgi

95 :
>>92
例えば本屋のサイトを作る時の検索システムでもいるじゃん。
別にYahooやらGoogleに対抗する為だけにあるわけじゃないし。
>>93
確かにそうだな。「面白い」と感じることがあっても見る人の立場には立ってないし。
なんしか、良い表示方法は無いかな・・。

96 :
>>95
検索結果の表示はシンプルイズベストだと思うけどね。
「サイト名」登録日
サイトに関する情報
で十分だと思うけどねぇ。
関係ないけど最近見つけたアイデア検索エンジン
http://web-pasha.com/

97 :
>>92
あるジャンルに特化した検索エンジンって必要だと思うよ。
例えば飲食店の検索エンジンがあったとして、最寄の駅、
扱ってる料理の種類、営業時間などを指定して検索できるとする。
これらはGoogleやYahooでは検索しきれないものだと思うんだよね。
(YahooにはYahooグルメとかあるけどね)
あるジャンルに特化した検索エンジンを作るというのは
検索エンジン戦国時代の今を生き抜く一つの手だと思う。

98 :
>>96
そこいいね。実用向きかどうかは別にしてなんか面白い事してる。
そういえば、gooが3D検索みたいなのをはじめたっけ。あれと似てるな。
>検索結果の表示はシンプルイズベストだと思うけどね。
>「サイト名」登録日 サイトに関する情報 で十分だと思うけどねぇ。
確かに”十分”なわけだけど、なんか”物足りない”んだよね。
文字がただ並んでいるだけでは電話帳と変わりないし
サイトの説明文だけ見ても内容は開くまで分からないわけで
いまいち、合理性に欠けるというか。といいつつ、一番いいことは確かだけどね。。

99 :
>確かに”十分”なわけだけど、なんか”物足りない”んだよね。
凄い分かる、十分だけど十二分じゃないんだよね。
でも同時に思うのは、検索エンジンはそれ自体は所詮ツールだから
変な個性よりも直感性が大事ってこと。
Kart00:http://www.kartoo.com/
これなんかは面白いけど、どう考えても実用的ではない。
俺はGoogleみたいな表示形式でもう少しサイトの要約が多く表示されると
うれしい。それこそ今の倍ぐらいの要約テキストがあってもいいぐらい。
それこそ2chブラウザで「>>1」の上にカーソル乗っけた時みたいに、サイト名
の上にカーソル乗っけるとサイトの全文(または一部)がポップアップするような
機能が欲しい。

100 :
>>99
タイトルにマウスを載せたときに2chブラウザの要約みたいに
せめてmetaの内容でも出ると面白いね。
でも、そうなると基本的にはIE(ブラウザ)に依存するわけだから
プログラム的にはどうしようもないけどね。
Javascriptを使ってマウスオーバーにしてポップアップを表示して、とか出来そうだけど
これだとちょっと話が変わってくるし。。

101 :
じゃあいっそのこと検索結果の表示をFlashで作っちゃうとか。
Flashの普及率は良いと言われているし、好きなUI実装できるよ?

102 :
Flashは>>99のサイトで使ってたみたいね。

103 :
FLASHは実際、嫌われているからね。。
今後も復旧するだろうけど、見る人の立場になるとどんなもんかと。。
(TVCMの動画とか3Dが決して評判がいいわけじゃないのと同じで。。)
なんしか、「早い」「見やすい」「わかりやすい」
検索システムが必要なわけで。それもジャンルに特化した。

104 :
グーグルで複数キーワード使って引っかけるのより効率良くないとなぁ。
と思うとなかなか難しいもので。

105 :
FLASH使っちゃうとどうしても飛び道具になっちゃう。
本気で何かを探そうとしている時に「FLASHロード中…」なんてメッセージ
みたくないよね。
ジャンルに特化するのは良いと思うけど、特化しにくいジャンルはどうすればいい?
本や映画などのようなものは良いけど、「検索エンジン アルゴリズム」みたいな
キーワードで検索したい時はジャンルは何? 「プログラム」ってジャンルは広すぎる
し、「検索エンジン」じゃ狭すぎる。
こういう時にどうしても「オールジャンル」な検索エンジンが必要になる。
それはともかく…
Google APIを使ってGUIな検索ツールっていうのはどうだろ?
ブラウザ密着でなくなるから使いにくくなるかな?
おまけ:http://www.mamma.com/index.html(以外といい感じに使える…)

106 :
>ジャンルに特化するのは良いと思うけど、特化しにくいジャンルはどうすればいい?
そうゆうのはGoogleにお任せで。

107 :
次はフリーの検索エンジンスクリプトについて語ろうか。

108 :
>>107
スレ違い

109 :
>>108
だって君達検索エンジン作るって言ったって
YomiとかCosmoNaviとかの既存のスクリプト使って作るんだろ?
それとも一から自分で作るのか?

110 :
            __,,,,_
            /´      ̄`ヽ,
            / 〃  _,ァ---‐一ヘヽ
         i  /´       リ}
          |   〉.   -‐   '''ー {!
          |   |   ‐ー  くー |
           ヤヽリ ´゚  ,r "_,,>、 ゚'}
         ヽ_」     ト‐=‐ァ' !
          ゝ i、   ` `二´' 丿
              r|、` '' ー--‐f´
         _/ | \    /|\_
       / ̄/  | /`又´\|  |  ̄\
    俺様がみあか様だーよ キヒヒ
     悔しかったらここまできな
http://school.2ch.sc/test/read.cgi/senmon/1074344178/l50

111 :
>>109
一から作るからこのスレで話してるんだろ

112 :
>>111
嘘?マジで?
Yomi-SearchとかCosmoNaviとかAmigoNavigatorなどの
既存の検索エンジンスクリプトを使わないなんてすごいね。
ちなみにもう自作のスクリプトは動いてるのかなみんな?

113 :
>>112
ていうか別に凄くないじゃん。なんでそう思うの?
検索エンジンにもいろいろあるし。何か大きなの想像しすぎてない?

114 :
>>113
Yahooのようなカテゴリ型の検索エンジンの話と仮定すると
あのYahooのカテゴリの階層ってどのように管理すればいいのかとか
カテゴリのショートカットはどうしようかとか結構大変でしょ?

115 :
あら、止まっちゃったよ。

116 :
自前で検索エンジン作った人は環境を教えれ。

117 :
隊長!こんなの見つけました!
http://yellow.ribbon.to/~mil/

118 :
>>114
dmoz 使う。以上。

119 :
>>118
やっぱり自前で作る場合、Yahooレベルのものを作るのは無理かな?

120 :
Yahoo! も dmoz もそうだけど、カテゴリのメンテナンスは人力だからね。
精度を気にしないなら GETA とか使ってクラスタリングするといい。

121 :
Yahoo!なんて何人体制でやってんのかな?

122 :
Yahooの、親がソフトバンクだった事を最近しりますた。

123 :
>>122
君はWebプログラム板にいちゃいけない人だ。

124 :
>>123
陳健一だったかな?

125 :
2ch発検索エンジンが出来て欲しい上げ

126 :
http://gamble.x10.jp/
このエンジンは気持ちは分かるが、作りこみが今一かな
更新作業が楽そうで本当は手を焼いてるんじゃないかと思う

127 :
で?ここまで来たら作るぞ喪前ら。

128 :
お前等が作ろうとしてる検索エンジンってのはどうゆうの?
カテゴリ型なのかロボット型なのか。
使用言語は何か。データはテキストで扱うのか、それともDBに格納するのか。

129 :
山拓エンジンをつくりたい

130 :
最大登録件数をどのくらいで見積もるかで検索速度やスクリプトの内容が大きく変わる。
yomi程度なら誰でも簡単に作れるだろうし、自分で作った方が自由度は高い。
一番の問題は登録するデータをどう増やすのか。
検索サイトを作ったは良いが、登録データが増えず放置されるケースが多い事!

131 :
>>128
俺はカテゴリ型でPHP+MySQLで目標10万件を予定してます。
>>130
登録データが増えずに放置されるケースの対策はほぼ出来ている。
もちろん、Yahoo!やGoogleと対抗するのはおかしいが
中規模の検索サイト並みの情報を保てるだろう。
問題は上でも出てきたけど、+αの機能。
ようはユーザーに「迷った時にはここに来よう」と思わせるような検索エンジンであるべきだ。
そう思わせたらお気に入り登録→ホーム登録へとなりやすいだろうし
1年後・2年後には反響も出て商売としても成り立つと思う。
ところで問題の+αの機能。俺が良いと思うのは各検索ごとにRSSのような
ニュース記事が表示される機能。例えば、「パソコン」で検索したら
パソコンに関連したニュースが出るような。すでにどこかが行っている可能性もあるけど。

132 :
中規模の検索サイトがどこだと言われて思いつかないが分かる方、
教えて下さい。凄く気になる
+αはカテゴリを絞るのが良いんじゃ無いかと思います。
間口を広げると特徴を出すのが難しく、収拾不可能に成るかも知れないです。

133 :
>>132
http://www.google.co.jp/search?sourceid=navclient&hl=ja&ie=UTF-8&oe=UTF-8&q=%E6%A4%9C%E7%B4%A2%E3%82%A8%E3%83%B3%E3%82%B8%E3%83%B3
で表示されているサイトかな?個人的にはJOYだな。
んでカテゴリを絞るというのはその通りだと思う。
逆にしぼらなければ無理。

134 :
JOYが中堅か。確かによく見るサイトだな。
でもどんなところが検索エンジンとして良いんだろう?

135 :
正直、フリーの検索エンジンスクリプトを使ったのが大量にあるので、
検索サイトも見慣れた感じがあるのと、アクセス支援のためだけの検索エンジンが増えて、
検索サイトへの興味が薄れて来てる。
ユーザが使おうと思うのがほとんど無くて、アクセス支援の登録のためだけに存在する検索エンジンは不必要。
なんかスレッドフロートBBSを設置すれば人が集まると勘違いしてる人と同じな状況でもあるのかな?
JOYは中堅なんですね。古くからあるところは老舗っぽくて存在は知ってても使わないのが寂しいkな。
検索エンジンの大手・中堅とかのセグメント分けをしたリストがあれば面白いけどね。
検索サイトの検索エンジンとかメタサーチとかも今一だし、大手ポータルには敵わないのかな。
そういえば、韓国系のWAKANAって今あるのかな?

136 :
www.wakanao.co.jp
WAKANOだった。WAKANAじゃないのね。
でもここ重たくて機能してないみたい。

137 :
思うんだけど、アクセス解析を付けている人なら分かると思うけど
gooもinfoseekもフレッシュアイもその他の検索エンジンも
Yahoo!やGoogleには到底及ばない。100:1いや、1000:1かもしれない。
なぜgooやInfoseekが出遅れた(もしくは越された)かと言うと
企業的な思惑はあるにせよ、Googleと比べて圧倒的に検索されるページと
検索時間が劣るからだ。逆に言えば、Googleはそれに特化して
現在の地位を保っていると言っても過言ではないと思う。
Yahoo!は「検索エンジン」というよりはすでにインターネット=Yaoo!になってきているから
全く別問題だと思うが。
それで、これらに対抗しようと思ってもいくら人や金があっても無理。所詮”猿真似”だからね。
では、どうすればいいのか?というとオリジナルの「何か」が必要なわけで。
検索エンジンとはとか違うけどblogなんかはかなり参考になると思う。

138 :
あともう一つ。検索ページが取りざたされているけれど、問題は
やっぱり量より”質”だと思う。
SEOにも当てはまるがユーザーにとっては「知りたいページ」が見られたら
それで言い訳で、知りたいページ・類似したページは多くても10ページあればいいわけで。
という事は検索した際により多くの情報が出るよりはより「ユーザーの考えにあったページ」
が検索結果に現れるといいわけだ。
こうなるともう、ブラウザにATOKのような機能を付けて
検索ワードの保護をしてやらないといけないわけで・・・M$任せになるな。。

139 :
誰か自分の作った検索エンジン晒す香具師いない?

140 :
作ってるヤシ少ないんじゃない?
それなりに長期に渡って運用していかないとデータ量すくないし、
逆に、データが増えたらとてつもなく膨大になるし・・・

141 :
きょうび、そんなもん作るより、
googleのデータを何とか整理すればと思うが・・・。

142 :
ちょっと違うかもしれないけど、Amazonにアカウント登録してると、
最近チェックした商品をもとに、マイページみたいなところでタイプの似た商品なんかを上げてくれるんだけど、
検索エンジンにも、そんな風に以前の検索結果と似たタイプのものを出してくれると、
知りたいページが得られるとか思った。
ついでに、とても中規模に収まらないと思った _| ̄|○

143 :
>>142
おれも同じ事考えている。別にアカウント登録して無くても出来る見たいだし。
概念としては検索エンジンにキャッシュ機能みたいなのをつけて
検索ワードで判別して付随ページを抽出すれば。
中規模で収まる気がする

144 :
>>143
かなり昔からあった機能ですね。
話は違いますが、前に検索したキーワードを出したり、類似性の高いキーワードを出すサイトもありますね。
yomiサーチを使ってるところが多すぎて、面白みが全く無い気がします。
自前の検索サイトを晒す勇気はありませんが、ブックマークで来てる人の少ない事。
137さんが言っている様にGoogle&Yahooがほとんどでgooがちょぼちょぼのアクセスです。
聞いた話ですが、某アダルト検索サイトの運営者がログを見たら、
上位キーワードが自身のコンテンツの名称だったそうです。
ブックマークをするのも面倒なのか、それとも家族でPCを共有してるのか、興味深い話でした。
サイト名称は分かり易くし、独特な名前にするのが良さそうです。

145 :
>>144
だろうね。極端な話アダルトなら「AV Search」でもいいと思う。
3,4年前はこういう名称のつけ方は「ありきたりでダサい」と言われてきたけど
逆に今はわかりやすくていいと思うし。
ところで
>話は違いますが、前に検索したキーワードを出したり、類似性の高いキーワードを出すサイトもありますね。
って書いているけど、具体的にはどこ?俺は知らないけど・・。

146 :
あ、もう一つ思いついたのでこのスレに書き留めとくw
Yahoo!&GoogleとgooやinfoseekやMSNなどを含めて決定的に違うこと。
それは「検索エンジンだと理解されやすいデザイン」だと思う。
例えばネットに詳しくない人はフォームがあったからってそれがなんなのか?
検索って何?みたいな人が多いわけで。
それでも使っていくうちに分かるわけだが、MSNなんか特にそうだけど
どの部分が検索フォームかわかりにくい。と言うより「検索以外に目が行く」
と言った方がいいかもしれないね。それだけ検索エンジンには力をいれてないのだろう。
しかし、Googleはもちろん、旧Yahoo!なんかも明らかに検索フォームが”目立つ”
だから利用しやすいしわかりやすいと思うんだよね。
ちょっとプログラムとは違うけど、デザイン的な作り方もかなり重要だと思った。

147 :
類似性ってのは言い方が悪かったかも知れませんが、
合わせて検索される頻度が高いキーワードのチャックボックスやリンクが出る奴ですね。
旧Infoseekはそうでしたし、今はつながりシークだったかな名称が・・・
米国では結構あった気がしますが、思い出せない。
アフィリエイト全盛で広告に埋没した検索サイトも多くデザインは度外視かも知れないですね。
検索サイトは圧倒的なヒット数が無いと利益を出すのは難しいですね。

148 :
こんなのがあったらいいな…。
『共通語リスト』
例えば「プログラム 言語」で検索すると
「C / Java / VB ...」みたいに検索結果の中で良く出てくるキーワードを
抽出する。それをクリックすることで検索結果から「Java」を取り除いたり
「C」でフィルタリングしたり…。
結局はAND検索になるのだけど、良く出てくるキーワードがリストで出てくると
「なぜ、検索結果がぼやけるのか」が分かるような気がする。
検索者は「プログラム言語といえばCだろ!」と思って、「プログラム 言語」で
C言語の情報を探そうとしているが、予想以上にJava関連の情報が多かったりする
ことが一目で分かるよね。
/* この例ではキーワードが下手すぎるがそれは置いておく */

149 :
>>148
そそ。そういうのいいよね。
自サイトにアクセス解析を置いている人なら分かると思うけど
たまに「どうしてそのキーワードなの?」って人が訪れてくるからね。
キーワードの選択の仕方がわからないっていう場合が多い。
日本語って難しいからな〜

150 :
>>148
Excite が一時期やってたけど、すぐやめたね。

151 :
参考になるかわからんけど、gooラボに質問形式で検索する検索エンジンがある。
ttp://labs.nttrd.com/

152 :
>>151
一瞬いいと思ったんだが、”回答を登録できる”ってのが
いたずらをされる可能性も高く、使えないね。
ただ、グラフにして表示するのはいいと思う。
検索エンジン内のデータ件数・キーワード数+特定ワードを調べて。

153 :
つーか2chこそが最高の検索エンジンだとは思わないかね?

154 :
>>153
思わん

155 :
2chの99%はゴミ。

156 :
>>153
2ch内をまともに検索できれば最強…
ってひろゆきが既にやってた。http://find.2ch.sc/

157 :
>>156
Googleで「site:2ch.sc キーワード」で検索した方がいいかもね。

158 :
>>156, 157
どっちにしても良いとは思わないが…

159 :
いや、俺は2chがそんな事をしていたのか!っとびっくりした。
機能、どうこう言う前に。

160 :
と思ったら、検索するのに金取るじゃん・・・。

161 :
>>160
金取るのかよ・・・

162 :
>>149
キーワードの選択って考えると、ディレクトリ登録型のほうが便利だよね。
自分から絞り込んで行けるから。
>>161
本文と投稿者を検索するとき金がかかるみたい。
スレタイ検索は無料っぽい、というか普通にできたよ。

163 :
思い出したので追記。
>>146
米Yahoo!がGoogleみたいな検索のみのページ始めたよ。
http://search.yahoo.com/
infoseekとかgooって、Googleと違ってポータルサイトってやつだから別モノなんじゃない?
WEB全体を検索するのはまず自分のとこにある記事を見てからっていうか、
自分のところで一般的な(?)情報は手に入るようにしてあるような。

164 :
つーかYahooみたいに技術者いっぱい抱えてるようなところが
何故今まで自社でロボット検索エンジンを開発しなかったのか。

165 :
>>165
してたよ。

166 :
何故自分にレスする?

167 :
こんな検索エンジンがありました。
ttp://www.tkensaku.com/
類似性検索の逆?が実装されています。
まだ荒いけど、これから面白くなるかもしれませんね。

168 :
>>167
12億ページのインデックスでこの速度は凄い
精度、鮮度は分からんが
アルゴリズムを発表してほしい

169 :
訂正
15億超えてました
20億超えている?

170 :
>> 168
12億ページもインデックスされていないのでは?
google で「図書館」が約300万
tkensaku で同じキーワードで約19万
単純にいって15分の1ぐらいでしょ。
google全体でも42億ですし、
tkensaku は日本語だけだからもっと少ないはず。
    

171 :
>>170
ごめん、間違えた。
150万ページはインデックス化されている。
「本」に関連する1508985ページ中の第1位から第10位までを表示しています。
ttp://210.189.72.196/sclient.cgi?value=%96%7B
4年超で法人登記して150万ページか
Record last updated on 02-15-2000 05:51:52 GMT
Record expires on 02-15-2011 05:51:52 GMT
Record created on 02-15-2000 05:51:52 GMT
Database last updated 03-16-2004 21:37:12 GMT

172 :
人工無能と組み合わせて、おしゃべりしているといろんな
url を紹介してくれるようなプログラムを作ってみようと
思っているのですが、どこかに先例のようなものはありませんか?
まだ誰も思いついていない?

173 :
>>160
金取るが、書いた30秒くらいに反映されたり、
2ch内のすべての文章から検索してくれたり、と
その気になれば結構使える検索エンジンかも。
お金を払うのはちょっとつらいが。
性能はかなりよさそう。

174 :
>>173
当分はCtrl+Fで十分だろう。

175 :
Googleってどうやって稼いでんの?

176 :
>>172
まゆらにしゃべらせてーとか思ったものさ。

177 :
>>172
MS-Officeでイルカの消し方がFAQになることと、Googleが好ましいとされる理由に「余分なインターフェースがない」が上位に挙げられることを思うと、あまり成功しない気がするよ。
検索エンジンとつながるマスコットが昔あったような気がするな。打ち込んだキーワードを学習して、時々新しいURLを勝手に拾ってきては、飼い主に「みてみて」とせがんでくる奴。

178 :
>>177
確かにうざったいと誰も使ってくれないでしょうね。
検索をしたいときに遊びっぽいとうざったいけど、
遊びたいときにたまたまurlを発見してくれるとか。
やっぱりだめかな。


179 :
オールアバウトのリンク集を拾ってきて検索させれば精度のいい検索サイトになるかも。
要はそのサイトを誰かが評価してあればいいんだよ。
昔はNTTの新着情報からのアクセスが一番多かったものだけど、
ググルに新着情報ページがあれば結構アクセスあるかもね。

180 :
会話をキーボードでタイプするくらいなら、キーワードだけタイプしたほうがいいけど、
音声で会話できるなら、会話型インタフェースも悪くないと思うよ。

181 :
>>1は完成できたの?

182 :
a

183 :
ところで、データはどやって集めるの?
いずれはユーザに登録させるとしても、最初は
人力で集めるんでしょ?
リンクの多そうなサイトを登録して、そこから
リンクたどってって、徐々に増やしていくとか?
自分も特定の分野の検索サイトをやりたいんだけど、
エンジン作りに挑戦してみようかな。
どっかに、検索エンジンの基本部分を解説してる
サイトってない?

184 :
Yomi-Searchでも弄っとけ

185 :
ロボット検索エンジンはどうやって
作ればいいのかわかる奴いますか?
「クローラの自動巡回でデータ集める」
ってどうやるんだよ・・・分かんねぇ。

186 :
>>185
まずは、クローラ買ってこいや

187 :
>>185
間違ってクロレラを買ってくるなよ

188 :
>>185
Yahooあたりからリンクを辿っていくとかどうよ

189 :
他スレで質問しましたが、スレ違いだったようなのでこちらで質問させて下さい。
【必要な機能】 ロボット検索技術を応用した、インターネット上の販売情報を検索することができるソフト。商品名やスペック等からリアルタイムな情報を検索することができる。その得た情報をMYSQLなどのDBに落とし込みたい。
【.  目 的  】 リアルタイムに価格比較できるPC比較サイトを作りたい
【. 使用OS 】 windowsXP
【.  条 件  】 10万以内なら払いたい
■試したけど条件を満たさなかったソフト
【. 名  称  】 まったく見つからず
■これだけはやりました
>>1-10、FAQ集、上手な検索の仕方 を読んだ 】 はい
【  調べたサイトの名前  】 GOOGLE YAHOO など大手検索エンジン
【検索キーワードは?  ..】 ロボット型検索技術 クロール ソフト
恐らくこのようなソフトはないと思います。。
この技術の最も単純なソフト。もしくは応用が聞くような単純ソフトがあれば・・・・などと不遜にも考えています。
ちなみに下記2サイトで私がやりたいような事を行っております。
http://www.bestgate.net/
http://yasune.dokoda.jp/
このような技術の雛形などご存知の方いましたらどうかご教授下さい。

190 :
>>189
http://pc5.2ch.sc/test/read.cgi/php/1086715675/235
↑バラ撒きっぱなしか?
# どこのテンプレを使い回しとるんだ…。

191 :
でもクローラってどうやるのかまじで知りたい

192 :
何かに特化したサーチエンジン、というかデータベースなら需要がある
だろうが、でなければ意味ないわ。
価格比較にしても、まずは価格比較サイトにいくだろ。ロボットで価格を
漁るということに何の意味も見いだせない。
クローラーは単純だ。「波乗り野郎」みたいなもんだ。
ttp://www.bug.co.jp/nami-nori/

193 :
これも特化した検索サイトだな
http://www.surpara.com/

194 :
yomiスレ死んだ?

195 :
サーチエンジン
http://umasql.netkeiba.com/db/horse.php?hid=2000101537

196 :
ディレクトリ型検索エンジンなんてDB使えば結構簡単に作れるんジャン?
Googleみたいなロボット巡回型は相当難しそうだけど

197 :
3年前の話か、、、

198 :
100−200ぐらいのサイトのキャッシュをためてそこから検索する
グーグルの規模を小さくしたような検索エンジン・・・ないよな

199 :
ttp://www.dtm.ac/
ここオリジナルのロボットで運営してるよ

200 :
age

201 :
ロボット型検索エンジン作りたい奴、
頼むから爆撃アクセスするようなロボットは作らないでくれな。
robot.txtやMETAタグには従うように。
どうせIPで弾くだろうけどな。

202 :
うわーすごいのびてる。
さっき書き込んだときは60くらいだったのに。
さすが2チャンネルだなぁ。

203 :
検索エンジンをつくりには、
1.Inverted File Structureを勉強すること。
2.形態素解析
3.ロボットのこと テキストだけ抜き鳥。

204 :
http://ex7.2ch.sc/test/read.cgi/news4vip/1103802443/l50

205 :
第2回検索エンジンアンケート実施中!
http://hp6.0zero.jp/anq/anq.php?uid=1696&dir=84

206 :
鯰じゃだめなのか?

207 :
鯰でいい。

208 :
正直このスレでいいのか分からないのですが、
検索ロボットとオンラインブックマークの関係について教えて下さい。
(初心者用質問スレが落ちたみたいなので?こちらに書いています)
具体的には、
オンラインブクマに登録されたサイトは検索ロボに登録されてしまうのか
が知りたいのです。
サイト自体は.htaccess、robot.txt、METAタグで
検索ロボを回避する様に設定しているのですが、
・オンラインブクマもロボットの検索対象になるのか(これはなる様な気がする)
もし検索対象になるのであれば、
・オンラインブクマに登録されたURLはそのまま検索ロボに登録されるのか
・もしくは、ブクマされたURLに飛んでからロボ避けがなければロボに登録されるのか
というのがぐぐっても分かりませんでした。
もしスレ違い、板違いでしたら申し訳ありません。
その際は誘導して頂けると嬉しいです。
どうぞよろしくお願い致します。

209 :
>>208
設定とロボットしだいでしょ
GoogleとかYahooはrobot.txtで拒否できるから

210 :
ちょっと真面目に検索エンジンについての話なんだが、
登録数100万件なら、どのぐらいのスペック(サーバー)が必要なんだ?
情報求む。

211 :
>>210
簡単なサンプルプログラムを用意してみたら?
っていうか、どんなシステムよ

212 :
>>211
「簡単なサンプルプログラム」とは?210じゃないけど。
というか、ロボットは別としてディレクトリ型で
大手の検索エンジン以外で数十万単位の登録ってあるんだろうか?
そしてテキストだけならほぼ普通のレン鯖でも処理出来る気が
するのだが、あくまでも「気がする」程度なのだろうか・・。

213 :
>>212
いきなり、実稼動するわけじゃないんだから。。。
ローカルで動くシステムを作ってみれば
どのくらいの負荷がかかるとかわかるでしょ?
そこに、信頼性や要求なんかを加味して
そこから逆算してくださいな
ってことです
そう言えば、昔「ディレクトリ型はロボット型の対義語じゃない」って怒られたっけ
思い出しちゃった

214 :
>>213
かなり遅レスで悪いけど、ローカルだと所詮LAN内だから
実際の処理スピードなんて測れ無くないか?
それよりも”100万件”というのが、普通のディレクトリ型の
検索エンジンで可能なのだろうか?ある意味100万件
ジャンル別に集められる検索エンジンがあれば
そこそこ利用してもらえる気がする。

215 :
>>214
計れないのは、通信速度であって
処理速度はLANであろうと、WANであろうと変わらない
100万件のデータを扱うなら通信速度よりも処理速度の方が重要だろうと
まぁ、言い訳がましく言うと
もちろん、通信速度も重要だけど
>>210がスペックの話をしていたから処理速度の話だと思った
確かに、100万件もデータがあればそこそこのもんのような気がしますね
yahoo.co.jpの登録件数ってどのくらいなんだろう。。。

216 :
yahoo.co.jpでもカテゴリの登録数は100万行ってないはず。
30万ぐらいじゃなかったか?

217 :
Yahoo!の検索ビジネス戦略を探る
ttp://internet.watch.impress.co.jp/static/column/yst/2004/12/03/
> 今現在登録されているサイトの総数は40万件以上になっています。

218 :
100万件あればソコソコどころじゃないって事かw

219 :
よし、とりあえず真面目に話すか。
100万件がどうのという話をしているが、それは=ディレクトリ型
というわけだろ?その時点でどういう検索エンジンであったとしても
二番煎じな気がする。
けど、ネットを利用してみて「欲しい情報を手に入れたい」と
思う人は多いわけで、だからこそ検索エンジンが使われるわけだ。
YAHOO!は知名度で成り立っているから、検索機能としては凄いわけではない。
Googleは莫大な情報量で成り立っているが、逆に言うと多すぎて
色々とみないと欲しい情報を得ることが出来ない。
この2つの点を回避出来たら、システム的にはそんなに大きくなくても
そこそこ利用される検索エンジンが出来ると思う。どうだろう?

220 :
どんなものを必要とするか分からない以上、
回避するには更に莫大な情報が必要ですよ。

221 :
>>220
じゃ、とりあえず「何を必要とするか」を出していけば
自ずとまとまってくるんじゃないか?一人一つでも出せれば。
俺は「見づらいサイトを排除して欲しいor見やすさ重視」
色のカラーバランスや文字組みの構成を認識して
それによって順位が変動する検索表示だと良いかなって思ってる。
例えば、マイナーワードで古くからあるサイトとか
いくら上位表示されていても背景と文字のバランスがバラバラで
見づらいから、どこに情報があるかわからない。余計に探すのに
時間がかかってしまう。

222 :
>221のアプローチだとyahooにもgoogleの既存システムの弱点回避を
導くよりは、gooラボで研究されて、下手すると実運用してないくせに
特許だけとられてがんじがらめにされてるようなアイデアを出しそうだ。
gooラボでのテーマや成果をみていると。
検索エンジンへの欲求は情報の鮮度と、アクセシビリティにつきると思う。
あとはパーソナライズね。鮮度を保証するために、機械で膨大なサンプルを網羅して
後は統計で個人ごとに異なる要求に応えるか、検索とは違うけどallAboutみたいに
権威者にディレクトリを維持させるというアプローチ自体は合理的な手段の
2極を極めていると思う。
強いて回避する方法があるとしたら、「何をソースに」「どういう重み付けをするか」
というロジックで差別化すること。前述の2極を意識するとSNSとかblogとか
すでに人が集めてディレクトリが出来ている情報から何を抽出するかだよね。
それは他の企業も取り組んでいる(需要が見越せる)けど完全な形が出ていない所。
一般的に「一次情報はどこか」に比重が置かれることが多いけど、
「次にくる」とか「以前きた」とか、情報が作り出したルートを図式化みたく
マクロ的な結論をどう出すか、というのはいくらでも研究の余地はあるらしい。
成功例が少ないけどw

223 :
>>222
すまん、また書くのが遅れた。
gooラボを出しているが、あれ自体が物凄く重くないか?
また、何かソフト入れなきゃ駄目だったろ。確か。
だから色物扱いされて、反響無かったと思うが。
あと、君は俺の1案に対してつっこみを入れているだけで
「自分が欲しい意見」というのを出していない気がするが。
単に既存のシステムを分析して批評しているだけで
開発のアイディアを出していない。
そういうの出さないと。

224 :
それと企業的な観点からものを言いすぎる。
この板の特質上、あくまで個人のプログラマーが
検索エンジンを作る上で、どのような検索エンジンだと
反響があるのだろうか?使いやすいだろうか?
と言うことを話し合うスレだと思うが。
いわば開発アイディアの検証だ。
そうじゃなくて222のような企業的思考で難しいこと言ってても
誰も「検索エンジン作ろう」と思わないって。

225 :
で、お前は批判しかしないんだな。
どうせ自覚も無いんだろ。口だけなんだから素直にバイトでも探してろ。

226 :
>>225まんまお前に当てはまるのなw
223-224は221で意見述べてるだけお前よりはマシw

227 :
バイト探しの方が100倍建設的だろうが。脳味噌膿んでんのか?

228 :
>>227
いいからたまには外に出ろ

229 :
おいおい、もうオウム返しかよw 早すぎww

230 :
>>229
オウム返しの意味もわからないで使うなよw

231 :
要はブレストの段階で議論を始めると話が進まないという事かね。
つー訳で、とりあえずドンドンと意見を出して行こうぜ。素人考えだろうが
何だろうが、まずは案を挙げまくって、それから議論という事だ。
非アダルトの情報を欲して検索をかけても、アダルトの類のページが
検索にかかる割合が高い。オプション指定するだけで、キレイに検索から
アダルトを排除できる仕組みが欲しい。
逆に、アダルト検索用のオプションも欲しい。アダルトを検索にかけようと
思っても、検索にかかるアダルトサイトは殆どがクリックで目当ての小銭稼ぎ
サイトなのが現状だ。
検索の精度や抽出されるページの量を落とさずに、これらを実現できれば
嬉しい。ぬるぽ。

232 :
逆に、アダルトを主体的にデータ化していき、
そこにない差分データはとりあえず非アダルトということに

233 :
>>231-232
とりあえず、俺はこの板に来たらなんか書くようにするから
他のみんなもどんどん意見を出して欲しいと思う。
んで、231の方法はmetaとかページのテキストから
アダルト関連のワードを拾うことで、アダルトサイトを
ほぼ完全排除出来ないかな?
最近のサイト制作の傾向として、1つの検索エンジンのみを
対象とした作り方はしないし、どうせYAHOO!やGoogle相手
なんだから、アダルトサイトがアダルト関連のキーワードを
はずせないし。なら、それらのキーワードを禁止指定すると
割と容易にアダルトサイトは排除出来ると思う。

234 :
それで次のアイディアだけど、よくあるかもしれないが
それでいて大手検索エンジンで使われていないのだが
ランダム検索と、ソート機能ってあれば面白いと思う。
ランダム検索機能はテキストボックスにキーワードを入れて
「ランダム検索」のボタンをクリックすると、ランダムな
検索結果を表示する。これで下位に埋もれるサイトを
見られる可能性が増える。
次にソート機能は主にタイトルからソートをかける機能。
タイトル以外にも登録日・更新日を昇順・降順出来ることで
タイムリーな記事やサイトを表示させることが出来る。
上記の2機能はディレクトリ型の検索エンジンでも
割と容易に出来る気がする。けど、あまり見かけない。

235 :
>>233
まぁ、言っていることは妥当だと思われ
ただ、問題なのはどうやってアダルト関連のキーワードを判断するかだね
人手で作ってちゃ馬鹿だし
ベイジアンフィルタなんてのもあるから
その応用なんだろうけど

236 :
>>235
アダルト関連のワードってめちゃくちゃ細かいのも排除するの?
例えば、AV女優の名前とか。
とりあえず、「アダルト」「風俗」「AV」とかそういうおなじみの
ワードを省くだけで良いと思う。管理者が入力するタイプでも。

237 :
>>236
っていうか、どこまでをアダルトと認識するかによって異なる
例えば、アダルト:アダルトチルドレンなんて様に
特定のキーワードを含む=アダルトサイト
ってわけにはいかないからね
子供向けのフィルタを作る or 特定の分野に特化する
なら話は違ってくるけどさ
ベイジアンフィルタ=めちゃめちゃ細かいものを排除する
って言うわけではないってことね

238 :
>>237
そう言われればそうだよね。AVでもAV機器ってあるしな・・。
とりあえず、+で含まれるワードはどうだろ?
「ホームページ」「制作」でホームページ制作をフィルタするように
「アダルト」+「AV女優」とか加えてフィルタにするとか。
でも、なかなか難しそうだな。なんか騙しリンクとか
そういうのを完全排除出来る、フィルタリング対応検索エンジン
があれば、割と受けると思うんだけどな。

239 :
>>238
まぁ、その辺を考えるんなら
既存のフィルタリング技術とかアプリケーションを
調べてみても面白いかも
有害コンテンツを子供に閲覧させないためのフィルタとかね
色んなサービスなんかあるし

240 :
とりあえず2ch.scも全カットだなw

241 :
参考スレ
超高機能なサーチエンジンを作りたいんだけど
http://pc8.2ch.sc/test/read.cgi/tech/1048336478/

242 :
スレが進んでるのにびっくりした。
>>223-224
企業的視点であり、自分の意見の欲しい形を言ってないとの事だが、
そうではなく企業ですでに目をつけてるものをやっても仕方ない
と思う反面で、企業体が研究している分野を否定して需要がない所を
掘り込むのもどうかと思う(企業的規模で成功するためにじゃなく、
使ってもらってフィードバックしてもらうってレベルでね)から、
注目されてる一例を出しただけであって、深いとか難しいと思わなかった。
企業的視点と読み取るのは、単語に騙されやすいのではないかと。
で、そこから「何をソースに」「どういう重み付けをするか」 について特色を
出したものが欲しいなってのが俺の意見なわけで、述べてないと読み取るのは
最初から述べて欲しい意見を想定していて、プロテクトしちゃってるから
読み取れないんじゃないだろうか。まあ、俺も>1が01年のスレで一気に具体案まで
提案するのはどうかと、大ざっぱな概念から振ったのは不親切だったと思う。
>231-233で、まずはブレストって事で決着しているが、とりあえずなにやら
へんな読み取られ方してると思ったので訂正しておきたい。
アダルト情報の排除か、それを極めると逆にアダルトの検索エンジンのコア
としても機能しそうだね。ただ、運用したらお役所に睨まれそうだがw
アダルト、アドウェアみたいなデータからNOTで弾くために、エロボットは
必要なのかも知れないな。

243 :
>>242
すまん、「何が言いたいか分からない」

244 :
みんなに謝らなきゃいけないことがある。
このスレのタイトルを見たとき俺は、、、、、、、



検索ニンジンをつくりたい
かと思ってしまったんだ。すまない。

245 :
絶対に許さない

246 :
検索エンジンにオークション的機能があっても面白いかも。

247 :
>>246
詳しく。

248 :
俺データベースが苦手で
エクセルのCSVを多様して検索システムをつくった
いまんとこ1000件データをいれてためしたが
結構早く検索する・・どれぐらいたえれるのだろうか・・・・
データベース俺のまえにたちはだかってやがる・・・
ショップサイトも検索サイトもすべてCSVで処理してる俺は首すんぜんだろうか・・・

249 :
>>247
・評価機能
・指定日時が過ぎると表示されない
・ポイントに応じて表示順位が変わる(ランキング?)
>>248
DBを使ったら恐ろしく多大なデータを処理出来るよ。
PHPとMySQLが軽くて最高だと思う。
ただし、レスポンスの問題で言えば、やはりサーバと回線の
問題によるから、それらの充実が一番だとは思う。

250 :
              緊急浮上!
          ○_○   
         ( ・(ェ)・)   < 天然記念スレをまもれ!
         /つ¶つ ¶    
     / ̄ ̄ ̄ ̄ ̄ ̄ヽ  //
人人  /       ●   ●、  ザバァ!!
   /     〇        ▼ l 人人人
  /     =      , 、_ _人_ノヾ 
人人             ノ 人人
   人人人  人人        


251 :
Googleの検索コマンドを使いこなせば、
このスレに出てるほとんどのアイディアが実現できる気がする。

252 :

検索エンジンのPHPスクリプトを配布しているところを探しています。
どなたかご存じでしょうか??
宜しくお願い致します。

253 :
yomi php
で検索しろ

254 :
>>1
おもしろそう。協力しようか?

255 :
おま・・いくらなんでも2001年の>>1にレスするのは・・・。

256 :
おまえらquery文字のパースってDBと連携してどうやってる?
googleライクに
"unko unko" -hogehoge (aaaa or "cc cc")
みたいなの

257 :
実験でbisonで作ったパーサをモジュールの形でPHPに組み込んだことあるよ。
...めんどくさいけどね。でもPHPでパーサを書く場合でも.yの書き方は参考になる。
RubyならRacc

258 :
ロボット検索自体を避けるように仕込んでなければ片っ端からサイトを拾ってくれるような
お行儀の悪い検索エンジンを使いたいです。

259 :
ファイルを読み込んだ時にJavwScriptのコードを除外するいい方法はないですか?
フィルターとかあれば良いんですけど・・

260 :
259は新開発したか

261 :
s/\<script.*\/script\>//gi;

262 :
グーグルよりすごい?検索エンジン
http://www.quintura.com/

263 :
2003年から工藤智行氏が開発を続けている検索エンジン「FINDSPOT」
http://21news.cocolog-nifty.com/blog/2008/05/post_d828.html
連載:検索エンジンを作る|gihyo.jp … 技術評論社
http://gihyo.jp/dev/serial/01/make-findspot

264 :
>>5 バロスww

265 :
携帯検索エンジン
携帯サイトおもちの方必見!
携帯で登録できるよ
http://search-k.net/jcom/

266 :
マーズフラグってなかなかいいかも
http://www.marsflag.com/

267 :
ttp://www.kokoni.com/

268 :
eltg33.no-ip.info
anonymouse:0123456789
Search script配布

269 :
検索結果にサムネを出すってアイデアも前スレにありましたが・・・
どうでしょう?

270 :
東京大学うぜーよ!!!!
てめーの研究室がクロールされろ!!!
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
crawl234.tkl.iis.u-tokyo.ac.jp
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/
ttp://www.tkl.iis.u-tokyo.ac.jp/~crawler/

271 :
池■田大■作の本名はソン・テチャク。小泉純一郎、小沢一朗は朝鮮人。
911では小型の水爆が使用されている。
http://ri■ch■ardkosh■im■izu.at.webry.info/
創価の保険金殺人事件。
オウム事件は、統一・創価.北朝鮮の共同犯行である。CIAが監修している。
http://www15.ocn.ne.jp/~oy■ako■don/kok_web■site/ir■iguc■hi.htm
与党も野党もメディアも全部朝鮮人だった。
http://jb■bs.li■vedo■or.jp/b■bs/read.cgi/news/20■92/115794■1306/
2ちゃんねるは統一■教会が個人情報を集めるための道具。運営には統一■教会がいる。
駅前で「手相を見せてください」と勧誘してるのが統一教■会。(カルト宗教)  
カルト宗教の下にいる人と上にいる奴を分けて考えないといけない。下にいる利用される人は上がどんなことをしてるか知らない。
ユダヤ権力の子分→2ちゃん運営=統一協会上層部=層化上層部=自民党清和会=野党の朝鮮人ハーフの政治家=
与党の朝鮮人ハーフの政治家=金 正日(キム・ジョンイル )=読売サンケイ=小沢十朗
ユダヤ人=ロックRー=ブッシュ=クリントン=ヒラリー=アドルフ・ヒトラー=オサマ・ビンラディン
毎日新聞スレを荒らしてる奴らも統■一教会の可能性が高い。
荒らしは洗脳するために「ネトウヨ」などのレッテル付けレスを何千回もする。
現実には「ネトウヨ」などは存在しない。
http://changi.2ch.sc/test/read.cgi/ms/1230363385/

272 :
test

273 :
test

274 :
取り越し苦労

275 :
          | | ガガガッ
          | |
          人
  ∧_∧   <  >_∧∩
  ( ・∀・)   人`Д´)/ ←>>53
 と    )  <  >_∧∩
   Y /ノ    .人`Д´)/ ←>>59
    / )    <  >_∧∩
  _/し' //. V`Д´)/ ←>>231
 (_フ彡        /

276 :
誰でも簡単にネットで稼げる方法など
参考までに、
⇒ 『半藤のブブイウイウレレ』 というサイトで見ることができます。

グーグル検索⇒『半藤のブブイウイウレレ』

V50O6JDAJX

277 :2019/11/04
プライバシー保護検索エンジン探しているならこれ見といた方がいい
https://chierou.com/internet/duckduckgo/

インストールマニアックス3 Hyper-V祭 Part2
アプリケーションサーバって必要?
【スレッド】2ch型掲示板 15 【フロート型】
フリーCMSツールについて語るスレ3
一番汚いコードでHello Worldを書いたやつが勝ち
PHPにもJSPのEL式とかtaglibとか標準で用意しろよ
ColdFusion
webプログラマーの募集方法
【PHP】ツリー掲示板を作ろう
■最強の出会い系サイト作ろうぜ!■
--------------------
セコムジャスティックってどうよ?(Returns) その4
わしせん 島井ショック そして最下位へ
永井大介VS有吉辰也
無双OROCHI総合 506K.O.COUNT
【大阪】「フグ看板だけでも残して」 づぼらや9月閉店、惜しむ声 2020/06/13 [朝一から閉店までφ★]
プレミアム用Tuner TZ-WR500P/320P/HR400P Ch27
エヴァのAA総括第参百四拾弐層 総括も14歳
出っ歯VSしゃくれ
政府専用機追跡スレッド40
近所に住む20代の既婚者(子持ち)が一軒家を買ってるのが信じられない [173238122]
愛媛県 家庭教師ゴール ぼったくり 悪徳商法
☆実況 TBS NEWS Part550 2019/7/6
【政治経済】令和床屋談義 町の噂その738
めんどくさがり屋さんの洗車スレ【Part59】
洗車剤・コーティング剤総合143
鉄道員(ぽっぽや)
【ガールズ&パンツァー】前生徒会キャラ総合スレ☆【角谷杏】 Part10
【比較自由】1/87 12mmスレ【HOn3-1/2 HOm HOj HO1067】-58-
エヴォメヂョラーンと愉快な仲間たち evo14
【NFS】 Need For Speed World 愛車晒しスレ 【PC】
TOP カテ一覧 スレ一覧 100〜終まで 2ch元 削除依頼