Un motore di ricerca open source?

08-06-2007

E’ da alcuni giorni che mi ronza in testa un’idea malsana.
Tutto è partito da Scobleizer, che risponde alla domanda “userai Ask.com?” sottolineando come tutto parta dai Data Center. Fare concorrenza a Google significa avere un Data Center di pari livello, o superiore.
Sapendo che Google possiede ormai diversi Data Center, per un totale che supera i 100.000 PC, e dando per scontato che CIA e NSA (che notoriamente posseggono una buona parte della potenza di calcolo del pianeta) non si metteranno a fare concorrenza ai Search Engine, cosa rimane?

search_engine_open_source

Rimane solo un’idea… ingenua? Irrilevante? Surreale?

A. Coinvolgere un certo numero di utenti, chiedendo di installare una estensione Firefox, o simile;
B. Questa estensione Firefox registra le ricerche su Google/Yahoo/MSN (GYM), memorizzando i risultati, e soprattutto LE PAGINE effettivamente cliccate, e la permanenza dell’utente nelle pagine stesse.
C. Raccolti dati a sufficienza, si crea un repository centrale che possiede migliaia di frasi di ricerca, e come risultato restituisce i primi 20 risultati di GYM, ordinandoli però in base alle pagine più cliccate e con maggiore permanenza.
D. Questo repository distribuisce AD OGNI CLIENT un sottoinsieme di questi risultati, rendendolo di fatto un repository esso stesso.
E. Chiunque cercherà con questo motore di ricerca Open potrà interrogare un qualsiasi client nel mondo.

Con pochi soldi, e qualche buona dose di programmazione, si ottiene la potenza di calcolo di centinaia di migliaia di computer, una affidabilità spaventosa, e un temibile concorrente.

La domanda che sorge spontanea è questa: perchè milioni di persone dovrebbero usare questo motore, che all’inizio sicuramente fornirà risultati scadenti?

Perchè il 90% degli introiti derivanti da questo motore andranno per una buona causa. Il restante 10% servirà a chi lancia il prodotto per migliorarlo e sostenerlo. E questo durerà PER SEMPRE.
La buona causa potrebbe essere:
- migliorare l’ambiente;
- lanciare iniziative benefiche per aiutare i poveri del mondo;
- aiutare la diffusione di Linux :-)

E secondo me, ogni giornata, o ogni settimana, di incassi dovrebbe essere devoluta ad una causa SPECIFICA.

A me sembra una idea grandiosa… qualcuno sa dirmi se pecco di ingenuità? Se sogno troppo? Se è una buona idea? Cosa andrebbe migliorato?

35 risposte a “Un motore di ricerca open source?”

  1. Io Says:

    Sì, pecchi di ingenuità… come tutti di noi che usiamo open source! Ma la tua idea è interesante… La farà alcuno nel futuro? Ciao!

  2. ubuntista Says:

    @ Io: se la elaboro bene… la faccio io!

  3. hronir Says:

    Quindi in una prima fase, io dovrei installarmi la FF-add-on, ma dovrei continuare ad usare G/Y/M per popolare il database? E solo in un secondo momento, quando il DB risulta sufficientemente popolato, dovrei passare ad usare questo motore di ricerca distribuito?
    Forse sarebbe meglio se i risultati della ricerca fossero “mergiati”, cosicche’ all’inizio mi ritroverei essenzialmente con gli stessi risultati di G/Y/M (e questo sarebbe un motivo per usare sin dall’inizio il tuo motore) mentre il suo valore aggiunto comincera’ a farsi vedere pian piano col tempo…
    Resta il fatto che un tale motore di ricerca non potrebbe lui stesso fare a meno di G/Y/M, sia per iniziare che poi quando e’ a regime… o no?
    Vabbe’, considerazioni sparse senza capo ne’ coda… :)

  4. MarcoPoloni Says:

    L’idea non e’ ingenua, a me sembra la logica estensione del concetto open source ai motori di ricerca.
    E’ un po’ il Debian dei motori di ricerca… e poi
    sarebbe subito usato da tutta la comunita’, accelerando
    di molto la crescita di qualita’ dei risultati.

    Bisognerebbe parlarne anche con promotore di
    Wikipedia, lui voleva anche far partire un progetto
    per un motore di ricerca…

    Un poco di concorrenza a Google non farebbe male…
    A me comincia a ricordare la MS degli inizi…
    Ciao a tutti

  5. ubuntista Says:

    @ hronir e MarcoPoloni: grazie, osservazioni interessanti.
    Marco, intendi Jimmy Wales, detto Jimbo?

  6. JeKo Says:

    Ad un’idea del genere parteciperebbe davvero un sacco di gente… chi usa firefox ha spesso e volentieri cognizione di cosa significhi avere un browser serio (o quantomeno qualcuno a lui vicino che che ha testato sulla sua pelle l’inaffidabilità di IE) e installare un altro plugin (che si aggiunge probabilmente ad una lunga schiera) non sarebbe un gran problema… l’utente non dovrebbe fare altro che lasciar lavorare il proprio pc nei momenti morti (una specie di Boinc dei motori di ricerca… fico :P ). Unico neo della cosa… rassicurare gli utenti circa la loro privacy… query anonime e criptate in trasmissione sarebbero indispensabili…
    Io parteciperei senza dubbio… e tirerei dentro tutti i miei conoscenti… Utopia? Chimera? Forse… ma è dalle piccole cose che nascono i grandi progetti…

  7. ubuntista Says:

    @ JeKo: ovviamente, tutto andrebbe anonimizzato e criptato.
    Ma considerando che una query di ricerca e relativi risultati occupa solo pochi KB, non lo vedo come un grosso problema o overhead :-)

  8. Kjow Says:

    Bell’idea! Mi hai attivato i neuroni di colpo :)
    Però più che estensione per firefox farei un programma vero e proprio (con eventuali plugin di interfacciamento ai vari browser), magari basato sul p2p. Non so se è legalmente possibile, ma si potrebbe – inizialmente – far fare la ricerca al programma stesso nei vari motori (e non raccogliere le info delle ricerche fatte), magari scremando con qualche algoritmo i risultati più probabili dei vari motori.
    In pratica ognuno mette anonimamente in condivisione su una rete p2p i propri risultati delle ricerche (quindi cercando delle parole chiavi si ottengono dei risultati, i link aperti da questa ricerca vengono salvati ed archiviati in relazione a quelle key).

    Magari ho solo ripetuto l’idea originale e non ci ho fatto caso, ma l’argomento può essere dannatamente interessante.

    Creando il progetto su sourceforge, non servirebbe neanche venderlo o ricevere sponsorizzazioni (quindi guadagni), basta (se prende) la comunity a mantenerlo e svilupparlo :)
    (ok, non so bene come funziona SF… ma sarebbe da valutare :p)

    Ciao :)

  9. Pix Says:

    Ora faccio l’avvocato del diavolo:
    * quindi per promuovere il mio sito basterebbe scrivere una plugin che “bara”, dicendo al repository centrale che sto cliccando tantissimo il mio sito (magari lo faccio tramite più ip)
    * il nostro motore si baserebbe fortemente su G,Y,M, quindi difficilmente i nostri risultati saranno migliori dei nostri (anche perché tendenzialmente la maggior parte dei click sarà sui primi risultati)
    * per le frasi di ricerca mai utilizzate che facciamo? “per favore, prova con Google”…. dopo quanto tempo una persona si stufa e usa direttamente google?

  10. ubuntista Says:

    @ kjow: ovviamente sarebbe un qualcosa p2p

    @ Pix: giusto… quelli che hai elencato sono esattamente i grossi problemi da risolvere!


  11. Sono in una fase di avversione e paura per Grande Fratello Google, quindi ogni idea che mi permetta di liberarmene, anche parzialmente, mi entusiasma.

    L’idea è interessante e andrebbe sviluppata per bene, può dare buoni risultati.

    Mi interessa l’aspetto economico. Un server-repository centrale che gestisca (centinaia di) migliaia di accessi richiede una certa potenza di calcolo… e di soldi. Pensi si possa fare una stima?

    Faccio anch’io qualche osservazione critica:

    1- la fase di acquisizione stringhe richiede un tempo consistente, inversamente proporzionale alla quantità di utenti coinvolti nel suo sviluppo. Quindi bisogna coinvolgere tantissime persone e partire prima possibile, o si perde tempo prezioso. Entrambe le cose non sono facilissime.

    2- non ho ben capito la fase in cui i singoli utenti diventano dei mini-repository. Pensi ad una struttura in cui gli utenti sostituiscano del tutto o in parte il server centrale, stile p2p o stile Skype? In tal caso ci potrebbero essere dei problemi in caso di formattazione/abbandono dell’utente/ecc. che vanno affrontati (ma questo sarebbe il meno).

    3- la buona causa è nobile, giusta e interessante, ma se pensi che la gente lascerà un supporto granitico e affidabile come GYM per “salvare il mondo” (ironizzo volutamente) dubito che sarà così. Bisogna dare un quid di concretezza in più. In questo concordo con alcune delle osservazioni di hronir

    4- Come suggerisce Jeko, la privacy è fondamentale. L’essere free software apporta una certa sicurezza su questo aspetto. Però bisogna spiegare bene agli utenti che non vogliamo profilare la loro esistenza, o l’utente superparanoico non aderirà mai. Anzi, forse qui nasce un punto di vantaggio, sottoforma di un messaggio del tipo: “Liberatevi di G, che sa tutto di voi, e passate da noi che siamo no-profit e non ci interessa vendere i vostri profili”

    5- secondo me è il maggior punto debole è che per liberarsi di GYM (e soprattutto di G) bisogna usare GYM (e soprattutto G, credo), all’inizio e probabilmente anche dopo. Mi sembra un controsenso. Credo che sia necessario trovare un modo per azzerare la dipendenza da GYM prima possibile, rendendosi totalmente autonomi, altrimenti creiamo solo una sovrastruttura che senza le sue fondamenta crolla in un colpo.

    Simone, è una bella idea. Ti incoraggio a portarla avanti.

  12. slystone Says:

    Simone dove hai letto che son 100.000 pc? Io ricordavo almeno 5 volte tanto.
    Eccoti le cifre:

    - Over 450,000 servers ranging from 533 MHz Intel Celeron to dual 1.4 GHz Intel Pentium III (as of 2005)
    - One or more 80GB hard disk per server (2003)
    - 2–4 GiB memory per machine (2004)

    Credo che il plugin dovrebbero usarlo davvero un bel po’ di milioni di persone per arrivare a tanto.. ;)

    Senza contare che a livelli prestazionali google risulterebbe irraggiungibile. Ma su questo punto ci sarebbe da discutere. La corsa alla risposta fulminea mi e’ sempre sempbrata una “tamarrata”: ci mettesse anche 5 volte tanto a parita’ di servizio nessuno si lamenterebbe. Magari a benedifcio dei consumi! (2 ml di dollari al mese i signori di google si ciucciano)

  13. ubuntista Says:

    @ Andrea: interessanti osservazioni… sul punto 2, ovviamente si tratterebbe di mirror.

    @ slystone: forse ho letto una informazione datata… cmq 100.000 o 500.000 sono una cifra enorme, e soprattutto sono destinati a crescere :-)

  14. Rillo Says:

    Io penso che sia necessario avere anche un sistema di indicizzazione tramite crawlers, come gli altri motori. Questo permetterebbe di non usare G neanche all’inizio.
    Si potrebbe indirizzare lo spider su domini selezionati, con un livello di ricursività limitato.

    Per la privacy, il profilo utente può essere eliminato alla chiusura del browser, e uno nuovo può venire creato al successivo avvio. Non credo serva unire i risultati delle diverse sessioni. Non è mica G!

  15. ubuntista Says:

    @ Rillo: il crawling è troppo dispendioso in termini di calcolo/server/banda :-(

  16. glaucos Says:

    Azz, ne parlavo proprio qualche sera fa con la mia ragazza, e si pensava ad un sistema simile al calcolo distribuito, con le varie opzioni su qanta banda e processore destinare al progetto… Così a naso secondo me non sarebbe niente male come idea, vedremo se il tempo partorirà un prodotto del genere :)

  17. pikappa Says:

    A me sembra un’idea fantastica e da utente poco esperto vedo con molto più favore il firefox-add-on piuttosto che un sw a parte; non so perchè, ma un’estensione di firefox da l’idea di essere una cosa piccolapiccolapiccola e leggeraleggeraleggera. In fondo si sta chiedendo alla gente di metterci del proprio, e se diamo l’impressione di chiedere pochissimissimo penso che ci sarebbero molte più adesioni. Eppoi nessuno ci dice che l’add-on non possa domani essere integrato in ff come già successo per altre estensioni. Chissenefrega se diventa “Googlox”, l’importante che resti open.

  18. ubuntista Says:

    @ pikappa: l’add-on per firefox è sicuramente il modo migliore per coinvolgere gli utenti, ma un repository centrale deve esistere per forza.

  19. blood Says:

    l’idea è interessantissima. E’ in effetti osceno che le ricerche della popolazione modniale debbano ancora appellarsi a 3 grossi colossi closed, censori, schiavi delle leggi e dei soldi di regimi et similia.
    Il primissimo punto da risolvere è ovviamente popolare i database, che IMHO dovrebbero risedere su una specie di rete p2p come bittorrent o simile con magari un certo mirroring periodico da un pc all’altro (un backup fra utenti).
    Il secondo problema spinoso è la privacy..io non mi intendo di privacy quindi mi spiace ma alm moemnto non ho idee, tuttavia ricordiamoci che ci osno cacciatori di dati personali a cui dell’open source non frega nulla e non si farebbero scrupoli..quindi privacy prima di tutto..
    Poi col tempo qualità e concorrenza andranno avanti..

    My 2 cents..
    BlooD

  20. Rillo Says:

    Crawling.
    Questo non deve essere effettuato dal server centrale, si potrebbe distribuire il carico tra tutti i client.
    Senza una indicizzazione automatica avremmo un database come lo sono Digg o del.icio.us, che trovano alcuni risulati pertinenti con le ricerche ma che ignorano buona parte del www.

    G, invece, si può identificare con il www stesso, perchè se un sito non è su G, è come se non esistesse.

  21. ubuntista Says:

    @ Rillo: esatto, il crawling andrebbe fatto dai client. UMANI! (ovviamente in maniera automatizzata e trasparente)


  22. Si potrebbe cominciare tranquillamente memorizzando le chiavi di ricerca ed effettuare l’analisi delle pagine effettivamente Scaricate così da rispettare il profilo di consumo se non si possiede una flat. intanto si raccolgono le chiavi e si svolge l’analisi dei risultati più rilevanti di Gym.

  23. ubuntista Says:

    @ Luca: interessante: dovrebbe essere prevista una versione “low-band” per utenti con dial-up.

  24. jak Says:

    @ubuntista

    inizierei a modificare il post con tutte le idee che sono pervenute in modo da raccoglierle insieme!

    il progetto lo trovo ottimo, anche se non ho nessuna competenza a riguardo, se però aspettate qualche anno di università spero di potermi affacciare anche io su questo progetto! Sei veramente un vulcano di idee!

    @ chi dice di doversi basare su GYM per sempre

    beh alla fine se il motore open source è senza trucchi e senza inganni ognuno dovrà fare il proprio per promuovere il proprio sito come è giusto che sia, nei modi più leciti ovviamente senza trucchetti come si diceva, di plugin o roba simile, ad alterare i risultati (cosa che per altro si riesce a fare anche con GYM), e già solo visitandoselo da soli ;) si farebbe rientrare nella “propria lista di siti” in condivisione, ormai i siti si promuovono prima tra altri siti e persone…poi i numerosi klik su GYM fanno salire o scendere il sito in graduatoria.

    Per esempio è più facile che un blog posto tra i primi 10 di WordPress, come questo, abbia già una sua rilevanza anche senze google, poi pian piano viene visitato, se ne parla, si sparge la voce, gli altri lo cercano sul motore di ricerca open source e sale o scende nella lista…secondo me è un metodo più che paritario e soprattutto non è politicizzato, sponsorizzato, spintaneo, corrotto ecc ecc

    magari ho detto una scemenza, scusatemi in questo caso!

    ciao

  25. Francesco Says:

    A me l’idea mi piace ma pare francamente quasi impossibile. E’ vero che con una grid si possono fare tante cose ma un repository piu’ o meno decentralizzato dove mettere tutto… mica son poche cose. Magari con freenet + qualche sistema di grid computing qualcosa di dignitoso lo si puo’ pensare ma… sono molto scettico.

    Ben disponibile a perderci tempo comunque, nei limiti del possibile :-)

    Ciao, f.

  26. ubuntista Says:

    @ jak: infatti, scriverò un nuovo post più completo.
    sul resto… non mi sembra una scemenza!

    @ francesco: chissà… vedremo!

  27. Andrea Says:

    Mi piacerebbe diventare una cavia per questo progetto. Come si fa?

  28. ubuntista Says:

    @ Andrea: tra poco te lo dico :-)


  29. [...] me questa idea qua dell’Ubuntista che andrà alla Ubuntu World Conference mi piace, ma mi piace [...]

  30. jak Says:

    ma sei già partito con il progetto????:D

  31. ubuntista Says:

    @ jak: ci sto lavorando :-)


  32. [...] 10th, 2007 Due giorni fa vi avevo scritto di una mia idea, riguardante un motore di ricerca open source. Oggi, grazie ai vostri commenti, a questo libro e alle mie riflessioni, ho le idee più chiare, e [...]


  33. [...] nuovo motore di ricerca, questa volta open source 10 06 2007 Il tutto inizia da questa idea di ubuntista. Prima si trattava solo di, appunto, un’idea, adesso lo considererei più un [...]

  34. wolf Says:

    Guardate FAROO ( http://www.faroo.com ), un motore di ricerca peer-to-peer.

  35. francesco Says:

    Magari,sarebbe il mio sogno.Davvero.Io sono un convinto sostenitore della “Redistribuzione Sociale del reddito”. Se avessi un free press a distribuzione gratuita,oppure un sito con banner publicitari, i proventi tolti i relativi costi di mantenimento,tutto Redistribuito in beneficenza. Il sogno di mia mamma ed io è la costruzione di un ospedale pediatrico e scula di primo insegnamento nei paesi dell’Africa.
    Ciao
    francesco1976napoli


I commenti sono chiusi.

Iscriviti

Get every new post delivered to your Inbox.