Yahoo Pipes – mashup made easy

4 09 2009

Oggi ho provato ad utilizzare Yahoo Pipes: davvero impressionante!

Si tratta di un servizio che consente di aggregare, filtrare, generare feed partendo dalle più disparate fonti. E’ ad esempio possibile recuperare i feed dei principali quotidiani e filtrare gli articoli in base al fatto che contengano o meno alcune parole (o più in generale un’espressione regolare). Potentissima poi la possibilità di utilizzare come fonte una ricerca di google news (o blog search), sfruttandone tutte le potenzialità per ottenere un’inesauribile fonte personalizzata di new di qualità. Putroppo non è possibile utilizzare (direttamente) i risultati di una ricerca sul web (con google), ma è possibile avere a disposizione quelli di yahoo.

Tecnicamente le sorgenti possibili comprendono oltre ad rss e atom, anche XML, JSON, HTML, CSV, consentendo davvero di accedere a qualsiasi fonte disponibile sul web. L’unico limite è che le fonti non devono avere un file robots.txt che ne impedisca l’accesso.

Alle sorgenti è poi possibile applicare un gran numero di “operatori” che consentono di filtrare, dividere, unire, contare, troncare, verificare l’univocità, ordinare, etc, etc. in modo da ottenere davvero qualsiasi risultato si desideri.

Ma l’aspetto davvero straordinario del servizio è l’eccezionale tool grafico di generazione:

yahoo pipes edit

yahoo pipes edit

E’ un ambiente visuale estremamente semplice da utilizzare e allo stesso tempo potentissimo. Con qualche click è possibile selezionare le sorgenti, filtrarle unirle ed ottenere poi un feed che si può pubblicare con estrema semplicità.

Date un’occhiata al box qui a lato: trovate il feed che ho costruito per ottenere news simili ai contenuti di questo blog. In pochi minuti un risultato davvero eccellente!





La sottile differenza tra IP delivery e Cloaking

12 05 2009

Tra le linee guida di google più “profonde” c’è ovviamente il fatto di evitare il cloaking, ovvero di presentare a googlebot contenuti differenti rispetto a quelli presentati ad un normale utente. Ci sono però alcuni casi in cui presentare un contenuto differente sulla base dello user-agent, non è affatto un “imbroglio”, ma è anzi un modo per fornire migliori informazioni o addirittura una necessità in qualche caso.

In particolare può essere necessario fornire contenuti differenti in base al browser utilizzato (ad esempio in mobilità o con una risoluzione molto bassa) o in assenza di plugin (come flash) o ancora in seguito ad informazioni ottenute automaticamente (tramite cookies) sull’utente.

Altro caso tipico in cui una generazione “specializzata” dei contenuti è utilizzata in modo lecito è legato alla lingua o alla localizzazione geografica dello user-agent. Si tratta di tecniche ormai diffusissime che possono essere estremamente utili e funzionali per gli utenti, anche capisco che possano mettere in difficoltà sistemi puramenti automatici di crawling.

Purtroppo però la posizione di google rispetto all’utilizzo di tali tecniche non è completamente chiaro e mette quindi in grosse difficoltà i webmaster che devono valutare (paradossalmente) se implementare funzionalità a vantaggio degli utenti con il rischio di essere penalizzati dai bot convinti che tali funzionalità siano implementate a loro vantaggio.

Tale problematica ha dato luogo a lunghi dibattiti tra gli addetti ai lavori, tra i quali va senz’altro letto questo post su seomoz blog.

Fortunatamente c’è anche un post sul blog ufficiale di google che fa una buona chiarezza sulla vicenda; lo spirito della “legge” di gogle è estremamente ragionevole:

Googlebot should see the same content a typical user from the same IP address would see.

Ovviamente non è chiarissimo cosa voglia dire “the same content”: identico al byte ? identico solo nei contenuti (ad esempio non nella pubblicità) ? uguale in una buona percentuale del sito ? Sinceramente non credo che sia possibile determinare in mo affidabile al 100% nessuna procedura completamente automatica, visto che mi vengono sempre in mente casi “leciti” estremamente difficili da estrapolare. Ma almeno lo spirito mi sembra estremamente condivisibile.





Il numero esprime la realtà

27 01 2009

Mi sforzo sempre di quantificare le mie stime. E’ il modo migliore (l’unico in effetti) per poterle valutare e quindi migliorare. Spesso è un modo eccellente per tenersi aggiornati sulla realtà. Quanti sono gli abitanti della Turchia ? Quante automobili circolano a Il Cairo ? Quanti dipendenti ha la regione sardegna ? Che fatturato ha il gruppo Fiat o la Microsoft o la Toyota ? Mi faccio spesso domande di questo tipo e provo a rispondermi con dei numeri…

Oggi mi chiedevo quanti blog ci fossero al mondo. Credo che all’incirca 1 persona su 50 che usa abitualmente (almeno 1 volata alla settimana), internet finisca con l’aprire un blog. Quanti hanno un accesso ad internet ? Direi 1.500.000.000 di persone e di queste circa 750.000.000 hanno un accesso abituale. Il numero di blog dovrebbe essere quindi dell’ordine dei 15.000.000.

Vi sembra ragionevole ?

Sicuri ?

Sicuri Sicuri ?

Bene: ho sbagliato la stima di più di 1 ordine di grandezza !! I blogs sono circa 133.000.000 !!!

Date un’occhiata a questo interessante post su pingdom e vi renderete conto.

La cosa più interessante è che, visto che la mia stima sul numero di utenti era sostanzialmente corretta, era sbagliata la mia percezione del grado di “attività” degli utenti. Quasi un utente “attivo” su 5 ha un blog! Salvo che non ci siano utenti (in numero significativo) con più blog… Comunque sia è davvero un aspetto rivoluzionario per il modo di fare informazione dei consumatori dell’informazione stessa.





Eccesso di successo

21 11 2008

E’ stato lanciato nei giorni scorsi Europeana, quella che sarà la più grande libreria europea con ben due milioni di opere in 23 lingue, fra testi, spartiti, registrazioni audio, video e immagini: tutto pubblicato gratuitamente sul Web per la consultazione degli utenti.

Peccato che il servizio sia già stato sospeso:

The Europeana site is temporarily not accessible due to overwhelming interest after its launch (10 million hits per hour).

We are doing our utmost to reopen Europeana in a more robust version as soon as possible.

La domanda che mi faccio è questa: non sviluppare il sistema perché sopportasse un simile carico è stato un errore completo ed inqualificabile o ha una sua ratio ?

Nel mondo reale, è infatti necessario fare delle scelte che limitino il consumo di alcune risorse (ad esempio il tempo) nella fase di realizzazione di un progetto, con delle conseguenze (non sempre completamente prevedibili) su alcune caratteristiche finali quali ad esempio l’efficienza, scalabilità e affidabilità.

In quasi tutti i progetti sui quali mi è capitato di lavorare, (valutando a posteriori la cosa) abbiamo dedicato troppe risorse all’efficienza (specie locale), meno (ma comunque troppa) alla scalabilità (visti i carichi effettivi che abbiamo dovuto sopportare) e troppa anche all’affidabilità, nel senso soprattutto che abbiamo utilizzato architetture eccessivamente complesse, senza reali vantaggi nel contesto operativo e anzi con qualche problematica dovuta proprio al sistema di monitoraggio. Ovviamente ogni considerazione è fortemente relativa al singolo progetto, ma mi sento di fare qualche considerazione in generale:

I più grandi vantaggi in termini di efficienza, scalabilità ed affidabilità si consegueno a livello di architettura di sistema e un’architettura semplice, pur anche con alcuni limiti bene noti, è il miglior investimento possibile sia in termini di risorse utilizzate che di effettivi risultati ottenibili.

Tornando al caso Europeana, credo che non siano giustificabili. Hanno commesso un grave errore di progettazione, visto che in un caso del genere la scalabilità non puo’ non essere considerata un obbiettivo prioritario. Brutta figura.





Refcardz

7 07 2008

Servizio lanciato da DZone, Refcardz è in pratica una raccolta di pratici riferimenti su temi specifici (da Spring a GWT, dal formato Atom alla costruzione dei plug-in di eclipse).

Mi ha fatto pensare ad una sorta di bignami dell’era digitale…. ti chiedi se possa servire davvero a qualcosa. Mah forse per certi argomenti estremamente specifici, tipo “Shortcuts in NetBeans 6.1″, potrebbe avere un senso…. per il resto non mi pare.





Vista SP1 e Asus A8JS

1 07 2008

In generale non sopporto quelli che, giustificando qualsiasi problema di Linux o Mac o FireFox, sparano a zero su qualsiasi prodotto MS. E’ un fenomeno di grande rilevanza dal punto di vista commerciale che meriterebbe profonde riflessioni, ma per il momento mi limito a non fare il contrario: vi racconto una mia piccola disavventura con Vista.

Ieri ho installato il SP1 di Vista sul mio pc portatile: un Asus A8JS che possiedo da un anno circa e di cui mi reputo un fortunato possessore: con una CPU T7200, 2 GB di RAM e una scheda video nVidia Go7700 con  512MB di memoria dedicata, ho prestazioni adeguate anche con i tools di sviluppo che utilizzo (VS2005 e NetBeans 6.1). Comunqe, dopo aver scaricato in automatico il SP, lo installo senza apparenti problemi, ma al riavvio ho un’amara sorpresa: la risoluzione passa da 1440×900 a 1290×720 e in Impostazioni Schermo, tale risulta anche la risoluzione massima possibile. Le ho provate tutte: aggiornando e provando a configurare tutto quello che potevo (dai drivers al bios), utilizzando tutti gli aggiornamenti disponibili su sito asus (anche se molti ed in particolare quelli della scheda video erano già installati). Ovviamente senza alcun risultato. Fino a quando non trovo questo messaggio sul forum di supporto: esiste un sito ftp dell’asus pubblico, ma non pubbicizzato dove esistono drivers più aggiornati per la scheda video e che risolvono il problema!

Ovviamente la “colpa” è fondamentale di Asus, che non permette ad nVidia di rilasciare direttamente i drivers per la Go7700 e non si cura di farlo direttamente sul suo sito, ma sono davvero curioso di capire cosa diamine può aver fatto il SP1 per causare questo strano malfunzionamento!