Budowanie Open Source Żródła meta-wyszukiwarka


Original: http://www.divms.uiowa.edu/~asignori/papers/building-an-open-source-meta-search-engine/

Streszczenie
Ostatnie badania [1] szacuje wielkość sieci publicznie zaindeksować na ponad 11,5 miliardów stron. Ponadto skrzyżowanie indeks pomiędzy największych dostępnych silników wyszukiwania – tj. Google, Yahoo!, MSN, Ask / Teoma – jest szacowany na 28,8%. Badania [2] wykazały, że 44% poszukiwaczy regularnie używać tylko jednej wyszukiwarki, 48% korzysta tylko dwóch lub trzech wyszukiwarek, a tylko 7% używa więcej niż trzy. Inne badanie przeprowadzone przez Jux2 wskazał, że Google i Yahoo! tylko 3,8 akcji ich 10 najlepszych wyników spośród 500 najpopularniejszych haseł wyszukiwania. W oddzielnym teście 91 przeszukań wyrywkowych, odkryli również, że Google i Yahoo! akcje tylko 23% swoich 100 najlepszych wyników. Twierdzą oni, że “Jeśli wyszukiwarki dostarczają najlepsze wyniki, które są bardzo różne od siebie, a następnie przy użyciu tylko jednej wyszukiwarki, wyszukiwarki internetowe są potencjalnie brakuje istotnych wyników.”

W związku z tym, meta-wyszukiwarek są użyteczne z kilku powodów. Na przykład, pozwalają one (i) integracja wyników wyszukiwania oferowanych przez różnych silników, (ii) porównanie stanowisk rangi, (iii) zaawansowane funkcje wyszukiwania w górnej części silników towarowych (np. klastry, QA i spersonalizowane wyniki).

Istnieje wiele przemysłowych meta-wyszukiwarek: Vivisimo i Dogpile są komercyjne silniki klastrowania, że ​​wyniki grupy wyciągnąć na locie z innych odległych wyszukiwarkach. Jux2 jest przemysłowym meta-wyszukiwarka, który porównuje, na trzech wyszukiwarkach, różne stanowiska postój założyć przez zestaw adresów URL. Lista meta-wyszukiwarek jest w [4].

W literaturze przedmiotu istnieje wiele propozycji meta-wyszukiwania. [10] proponuje pracować pobierając poszczególne dokumenty, zamiast pracy z listy fragmentów zwracanych przez wyszukiwarki. Podejście to ma ewidentne problemy z wydajnością. [11] podaje badanie technik, które zostały zaproponowane do rozwiązania kilka podstawowych wyzwań w budowaniu meta-wyszukiwarka. [7] omówiono metod poprawy trafności odpowiedzi w meta-wyszukiwarek. [8, 12, 13] proponuje kilka strategii na łączenie rankingowych wyniki zwrócone z wielu wyszukiwarek.
Pobierz
Helios v4.1g (18kB) [changelog]


Bibliografia

[1] A.Gulli i A.Signorini, Płytki Web jest ponad 11,5 mld stron [WWW2005]
[2] http://www.pewinternet.org/pdfs/PIP_Searchengine_users.pdf
[3] http://www.jux2.com/stats.php
[4] http://searchenginewatch.com/links/article.php/2156241
[5] http://rankcomparison.di.unipi.it/
[6] http://www.gnu.org/software/wget/
[7] Chidlovskii, System i metoda na poprawę trafności odpowiedzi w meta-wyszukiwarek. [US Pat. 6829599, 2004]
[8] R.Fagin, R.Kumar, M.Mahdian, D.Sivakumar i E.Vee, porównując rankingi i agregowania z więzów. [PODS, 2004]
[9] P.Ferragina i A.Gulli, spersonalizowane wyszukiwarki oparte na web-urywek hierarchicznej klasteryzacji [WWW2005]
[10] S.Lawrence i CLGiles, Inquirus, {NECI} wyszukiwarka meta [WWW1998]
[11] W.Meng, C.Yu i K.Liu, Budowanie sprawnych i skutecznych silników metasearch [Ankiety ACM Computing, 2002]
[12] Merenda i U.Straccia, metasearch Web: Rank vs wynik Metody oparte na agregacji postój [SAC, 2003]
[13] F.Gibb S.Wu, F.Crestani, Nowe metody łączenia wyników wyszukiwania dla rozproszonych informacji [DMIR, 2003]
[14] R.Stevens, UNIX Network Programming II [Prentice Hall, 2000]

Comments are closed.