Un motore di ricerca open source?
08-06-2007
E’ da alcuni giorni che mi ronza in testa un’idea malsana.
Tutto è partito da Scobleizer, che risponde alla domanda “userai Ask.com?” sottolineando come tutto parta dai Data Center. Fare concorrenza a Google significa avere un Data Center di pari livello, o superiore.
Sapendo che Google possiede ormai diversi Data Center, per un totale che supera i 100.000 PC, e dando per scontato che CIA e NSA (che notoriamente posseggono una buona parte della potenza di calcolo del pianeta) non si metteranno a fare concorrenza ai Search Engine, cosa rimane?

Rimane solo un’idea… ingenua? Irrilevante? Surreale?
A. Coinvolgere un certo numero di utenti, chiedendo di installare una estensione Firefox, o simile;
B. Questa estensione Firefox registra le ricerche su Google/Yahoo/MSN (GYM), memorizzando i risultati, e soprattutto LE PAGINE effettivamente cliccate, e la permanenza dell’utente nelle pagine stesse.
C. Raccolti dati a sufficienza, si crea un repository centrale che possiede migliaia di frasi di ricerca, e come risultato restituisce i primi 20 risultati di GYM, ordinandoli però in base alle pagine più cliccate e con maggiore permanenza.
D. Questo repository distribuisce AD OGNI CLIENT un sottoinsieme di questi risultati, rendendolo di fatto un repository esso stesso.
E. Chiunque cercherà con questo motore di ricerca Open potrà interrogare un qualsiasi client nel mondo.
Con pochi soldi, e qualche buona dose di programmazione, si ottiene la potenza di calcolo di centinaia di migliaia di computer, una affidabilità spaventosa, e un temibile concorrente.
La domanda che sorge spontanea è questa: perchè milioni di persone dovrebbero usare questo motore, che all’inizio sicuramente fornirà risultati scadenti?
Perchè il 90% degli introiti derivanti da questo motore andranno per una buona causa. Il restante 10% servirà a chi lancia il prodotto per migliorarlo e sostenerlo. E questo durerà PER SEMPRE.
La buona causa potrebbe essere:
- migliorare l’ambiente;
- lanciare iniziative benefiche per aiutare i poveri del mondo;
- aiutare la diffusione di Linux :-)
E secondo me, ogni giornata, o ogni settimana, di incassi dovrebbe essere devoluta ad una causa SPECIFICA.
A me sembra una idea grandiosa… qualcuno sa dirmi se pecco di ingenuità? Se sogno troppo? Se è una buona idea? Cosa andrebbe migliorato?
08-06-2007 at 09:03
Sì, pecchi di ingenuità… come tutti di noi che usiamo open source! Ma la tua idea è interesante… La farà alcuno nel futuro? Ciao!
08-06-2007 at 09:13
@ Io: se la elaboro bene… la faccio io!
08-06-2007 at 09:36
Quindi in una prima fase, io dovrei installarmi la FF-add-on, ma dovrei continuare ad usare G/Y/M per popolare il database? E solo in un secondo momento, quando il DB risulta sufficientemente popolato, dovrei passare ad usare questo motore di ricerca distribuito?
Forse sarebbe meglio se i risultati della ricerca fossero “mergiati”, cosicche’ all’inizio mi ritroverei essenzialmente con gli stessi risultati di G/Y/M (e questo sarebbe un motivo per usare sin dall’inizio il tuo motore) mentre il suo valore aggiunto comincera’ a farsi vedere pian piano col tempo…
Resta il fatto che un tale motore di ricerca non potrebbe lui stesso fare a meno di G/Y/M, sia per iniziare che poi quando e’ a regime… o no?
Vabbe’, considerazioni sparse senza capo ne’ coda… :)
08-06-2007 at 09:42
L’idea non e’ ingenua, a me sembra la logica estensione del concetto open source ai motori di ricerca.
E’ un po’ il Debian dei motori di ricerca… e poi
sarebbe subito usato da tutta la comunita’, accelerando
di molto la crescita di qualita’ dei risultati.
Bisognerebbe parlarne anche con promotore di
Wikipedia, lui voleva anche far partire un progetto
per un motore di ricerca…
Un poco di concorrenza a Google non farebbe male…
A me comincia a ricordare la MS degli inizi…
Ciao a tutti
08-06-2007 at 09:55
@ hronir e MarcoPoloni: grazie, osservazioni interessanti.
Marco, intendi Jimmy Wales, detto Jimbo?
08-06-2007 at 09:56
Ad un’idea del genere parteciperebbe davvero un sacco di gente… chi usa firefox ha spesso e volentieri cognizione di cosa significhi avere un browser serio (o quantomeno qualcuno a lui vicino che che ha testato sulla sua pelle l’inaffidabilità di IE) e installare un altro plugin (che si aggiunge probabilmente ad una lunga schiera) non sarebbe un gran problema… l’utente non dovrebbe fare altro che lasciar lavorare il proprio pc nei momenti morti (una specie di Boinc dei motori di ricerca… fico :P ). Unico neo della cosa… rassicurare gli utenti circa la loro privacy… query anonime e criptate in trasmissione sarebbero indispensabili…
Io parteciperei senza dubbio… e tirerei dentro tutti i miei conoscenti… Utopia? Chimera? Forse… ma è dalle piccole cose che nascono i grandi progetti…
08-06-2007 at 10:00
@ JeKo: ovviamente, tutto andrebbe anonimizzato e criptato.
Ma considerando che una query di ricerca e relativi risultati occupa solo pochi KB, non lo vedo come un grosso problema o overhead :-)
08-06-2007 at 10:14
Bell’idea! Mi hai attivato i neuroni di colpo :)
Però più che estensione per firefox farei un programma vero e proprio (con eventuali plugin di interfacciamento ai vari browser), magari basato sul p2p. Non so se è legalmente possibile, ma si potrebbe – inizialmente – far fare la ricerca al programma stesso nei vari motori (e non raccogliere le info delle ricerche fatte), magari scremando con qualche algoritmo i risultati più probabili dei vari motori.
In pratica ognuno mette anonimamente in condivisione su una rete p2p i propri risultati delle ricerche (quindi cercando delle parole chiavi si ottengono dei risultati, i link aperti da questa ricerca vengono salvati ed archiviati in relazione a quelle key).
Magari ho solo ripetuto l’idea originale e non ci ho fatto caso, ma l’argomento può essere dannatamente interessante.
Creando il progetto su sourceforge, non servirebbe neanche venderlo o ricevere sponsorizzazioni (quindi guadagni), basta (se prende) la comunity a mantenerlo e svilupparlo :)
(ok, non so bene come funziona SF… ma sarebbe da valutare :p)
Ciao :)
08-06-2007 at 10:21
Ora faccio l’avvocato del diavolo:
* quindi per promuovere il mio sito basterebbe scrivere una plugin che “bara”, dicendo al repository centrale che sto cliccando tantissimo il mio sito (magari lo faccio tramite più ip)
* il nostro motore si baserebbe fortemente su G,Y,M, quindi difficilmente i nostri risultati saranno migliori dei nostri (anche perché tendenzialmente la maggior parte dei click sarà sui primi risultati)
* per le frasi di ricerca mai utilizzate che facciamo? “per favore, prova con Google”…. dopo quanto tempo una persona si stufa e usa direttamente google?
08-06-2007 at 10:42
@ kjow: ovviamente sarebbe un qualcosa p2p
@ Pix: giusto… quelli che hai elencato sono esattamente i grossi problemi da risolvere!
08-06-2007 at 11:02
Sono in una fase di avversione e paura per Grande Fratello Google, quindi ogni idea che mi permetta di liberarmene, anche parzialmente, mi entusiasma.
L’idea è interessante e andrebbe sviluppata per bene, può dare buoni risultati.
Mi interessa l’aspetto economico. Un server-repository centrale che gestisca (centinaia di) migliaia di accessi richiede una certa potenza di calcolo… e di soldi. Pensi si possa fare una stima?
Faccio anch’io qualche osservazione critica:
1- la fase di acquisizione stringhe richiede un tempo consistente, inversamente proporzionale alla quantità di utenti coinvolti nel suo sviluppo. Quindi bisogna coinvolgere tantissime persone e partire prima possibile, o si perde tempo prezioso. Entrambe le cose non sono facilissime.
2- non ho ben capito la fase in cui i singoli utenti diventano dei mini-repository. Pensi ad una struttura in cui gli utenti sostituiscano del tutto o in parte il server centrale, stile p2p o stile Skype? In tal caso ci potrebbero essere dei problemi in caso di formattazione/abbandono dell’utente/ecc. che vanno affrontati (ma questo sarebbe il meno).
3- la buona causa è nobile, giusta e interessante, ma se pensi che la gente lascerà un supporto granitico e affidabile come GYM per “salvare il mondo” (ironizzo volutamente) dubito che sarà così. Bisogna dare un quid di concretezza in più. In questo concordo con alcune delle osservazioni di hronir
4- Come suggerisce Jeko, la privacy è fondamentale. L’essere free software apporta una certa sicurezza su questo aspetto. Però bisogna spiegare bene agli utenti che non vogliamo profilare la loro esistenza, o l’utente superparanoico non aderirà mai. Anzi, forse qui nasce un punto di vantaggio, sottoforma di un messaggio del tipo: “Liberatevi di G, che sa tutto di voi, e passate da noi che siamo no-profit e non ci interessa vendere i vostri profili”
5- secondo me è il maggior punto debole è che per liberarsi di GYM (e soprattutto di G) bisogna usare GYM (e soprattutto G, credo), all’inizio e probabilmente anche dopo. Mi sembra un controsenso. Credo che sia necessario trovare un modo per azzerare la dipendenza da GYM prima possibile, rendendosi totalmente autonomi, altrimenti creiamo solo una sovrastruttura che senza le sue fondamenta crolla in un colpo.
Simone, è una bella idea. Ti incoraggio a portarla avanti.
08-06-2007 at 11:18
Simone dove hai letto che son 100.000 pc? Io ricordavo almeno 5 volte tanto.
Eccoti le cifre:
- Over 450,000 servers ranging from 533 MHz Intel Celeron to dual 1.4 GHz Intel Pentium III (as of 2005)
- One or more 80GB hard disk per server (2003)
- 2–4 GiB memory per machine (2004)
Credo che il plugin dovrebbero usarlo davvero un bel po’ di milioni di persone per arrivare a tanto.. ;)
Senza contare che a livelli prestazionali google risulterebbe irraggiungibile. Ma su questo punto ci sarebbe da discutere. La corsa alla risposta fulminea mi e’ sempre sempbrata una “tamarrata”: ci mettesse anche 5 volte tanto a parita’ di servizio nessuno si lamenterebbe. Magari a benedifcio dei consumi! (2 ml di dollari al mese i signori di google si ciucciano)
08-06-2007 at 11:36
@ Andrea: interessanti osservazioni… sul punto 2, ovviamente si tratterebbe di mirror.
@ slystone: forse ho letto una informazione datata… cmq 100.000 o 500.000 sono una cifra enorme, e soprattutto sono destinati a crescere :-)
08-06-2007 at 12:16
Io penso che sia necessario avere anche un sistema di indicizzazione tramite crawlers, come gli altri motori. Questo permetterebbe di non usare G neanche all’inizio.
Si potrebbe indirizzare lo spider su domini selezionati, con un livello di ricursività limitato.
Per la privacy, il profilo utente può essere eliminato alla chiusura del browser, e uno nuovo può venire creato al successivo avvio. Non credo serva unire i risultati delle diverse sessioni. Non è mica G!
08-06-2007 at 12:43
@ Rillo: il crawling è troppo dispendioso in termini di calcolo/server/banda :-(
08-06-2007 at 13:07
Azz, ne parlavo proprio qualche sera fa con la mia ragazza, e si pensava ad un sistema simile al calcolo distribuito, con le varie opzioni su qanta banda e processore destinare al progetto… Così a naso secondo me non sarebbe niente male come idea, vedremo se il tempo partorirà un prodotto del genere :)
08-06-2007 at 15:24
A me sembra un’idea fantastica e da utente poco esperto vedo con molto più favore il firefox-add-on piuttosto che un sw a parte; non so perchè, ma un’estensione di firefox da l’idea di essere una cosa piccolapiccolapiccola e leggeraleggeraleggera. In fondo si sta chiedendo alla gente di metterci del proprio, e se diamo l’impressione di chiedere pochissimissimo penso che ci sarebbero molte più adesioni. Eppoi nessuno ci dice che l’add-on non possa domani essere integrato in ff come già successo per altre estensioni. Chissenefrega se diventa “Googlox”, l’importante che resti open.
08-06-2007 at 15:25
@ pikappa: l’add-on per firefox è sicuramente il modo migliore per coinvolgere gli utenti, ma un repository centrale deve esistere per forza.
08-06-2007 at 17:37
l’idea è interessantissima. E’ in effetti osceno che le ricerche della popolazione modniale debbano ancora appellarsi a 3 grossi colossi closed, censori, schiavi delle leggi e dei soldi di regimi et similia.
Il primissimo punto da risolvere è ovviamente popolare i database, che IMHO dovrebbero risedere su una specie di rete p2p come bittorrent o simile con magari un certo mirroring periodico da un pc all’altro (un backup fra utenti).
Il secondo problema spinoso è la privacy..io non mi intendo di privacy quindi mi spiace ma alm moemnto non ho idee, tuttavia ricordiamoci che ci osno cacciatori di dati personali a cui dell’open source non frega nulla e non si farebbero scrupoli..quindi privacy prima di tutto..
Poi col tempo qualità e concorrenza andranno avanti..
My 2 cents..
BlooD
08-06-2007 at 18:40
Crawling.
Questo non deve essere effettuato dal server centrale, si potrebbe distribuire il carico tra tutti i client.
Senza una indicizzazione automatica avremmo un database come lo sono Digg o del.icio.us, che trovano alcuni risulati pertinenti con le ricerche ma che ignorano buona parte del www.
G, invece, si può identificare con il www stesso, perchè se un sito non è su G, è come se non esistesse.
08-06-2007 at 19:42
@ Rillo: esatto, il crawling andrebbe fatto dai client. UMANI! (ovviamente in maniera automatizzata e trasparente)
08-06-2007 at 21:31
Si potrebbe cominciare tranquillamente memorizzando le chiavi di ricerca ed effettuare l’analisi delle pagine effettivamente Scaricate così da rispettare il profilo di consumo se non si possiede una flat. intanto si raccolgono le chiavi e si svolge l’analisi dei risultati più rilevanti di Gym.
08-06-2007 at 23:35
@ Luca: interessante: dovrebbe essere prevista una versione “low-band” per utenti con dial-up.
09-06-2007 at 00:15
@ubuntista
inizierei a modificare il post con tutte le idee che sono pervenute in modo da raccoglierle insieme!
il progetto lo trovo ottimo, anche se non ho nessuna competenza a riguardo, se però aspettate qualche anno di università spero di potermi affacciare anche io su questo progetto! Sei veramente un vulcano di idee!
@ chi dice di doversi basare su GYM per sempre
beh alla fine se il motore open source è senza trucchi e senza inganni ognuno dovrà fare il proprio per promuovere il proprio sito come è giusto che sia, nei modi più leciti ovviamente senza trucchetti come si diceva, di plugin o roba simile, ad alterare i risultati (cosa che per altro si riesce a fare anche con GYM), e già solo visitandoselo da soli ;) si farebbe rientrare nella “propria lista di siti” in condivisione, ormai i siti si promuovono prima tra altri siti e persone…poi i numerosi klik su GYM fanno salire o scendere il sito in graduatoria.
Per esempio è più facile che un blog posto tra i primi 10 di WordPress, come questo, abbia già una sua rilevanza anche senze google, poi pian piano viene visitato, se ne parla, si sparge la voce, gli altri lo cercano sul motore di ricerca open source e sale o scende nella lista…secondo me è un metodo più che paritario e soprattutto non è politicizzato, sponsorizzato, spintaneo, corrotto ecc ecc
magari ho detto una scemenza, scusatemi in questo caso!
ciao
09-06-2007 at 00:54
A me l’idea mi piace ma pare francamente quasi impossibile. E’ vero che con una grid si possono fare tante cose ma un repository piu’ o meno decentralizzato dove mettere tutto… mica son poche cose. Magari con freenet + qualche sistema di grid computing qualcosa di dignitoso lo si puo’ pensare ma… sono molto scettico.
Ben disponibile a perderci tempo comunque, nei limiti del possibile :-)
Ciao, f.
09-06-2007 at 10:46
@ jak: infatti, scriverò un nuovo post più completo.
sul resto… non mi sembra una scemenza!
@ francesco: chissà… vedremo!
09-06-2007 at 16:05
Mi piacerebbe diventare una cavia per questo progetto. Come si fa?
09-06-2007 at 16:51
@ Andrea: tra poco te lo dico :-)
09-06-2007 at 18:13
[...] me questa idea qua dell’Ubuntista che andrà alla Ubuntu World Conference mi piace, ma mi piace [...]
09-06-2007 at 18:45
ma sei già partito con il progetto????:D
09-06-2007 at 19:47
@ jak: ci sto lavorando :-)
10-06-2007 at 14:04
[...] 10th, 2007 Due giorni fa vi avevo scritto di una mia idea, riguardante un motore di ricerca open source. Oggi, grazie ai vostri commenti, a questo libro e alle mie riflessioni, ho le idee più chiare, e [...]
10-06-2007 at 20:06
[...] nuovo motore di ricerca, questa volta open source 10 06 2007 Il tutto inizia da questa idea di ubuntista. Prima si trattava solo di, appunto, un’idea, adesso lo considererei più un [...]
17-06-2007 at 14:05
Guardate FAROO ( http://www.faroo.com ), un motore di ricerca peer-to-peer.
04-04-2008 at 02:02
Magari,sarebbe il mio sogno.Davvero.Io sono un convinto sostenitore della “Redistribuzione Sociale del reddito”. Se avessi un free press a distribuzione gratuita,oppure un sito con banner publicitari, i proventi tolti i relativi costi di mantenimento,tutto Redistribuito in beneficenza. Il sogno di mia mamma ed io è la costruzione di un ospedale pediatrico e scula di primo insegnamento nei paesi dell’Africa.
Ciao
francesco1976napoli