Slides van het panel Social Graph Symposium

Enkele inleidende dia's uit een panel sessie op de Social Graph Symposium .

Social Graph Symposium Panel - mei 2010 - Presentation Transcript

1. Social Graph Symposium Panel
Ho John Lee | Principal Program Manager | Bing Social Search
2. Over mij:
Ho John Lee
hojohn. lee @ microsoft. com
twitter.com / Hjl
Past: Bing Twitter (v1), SocialQuant, handel, investeringen / consulting (China, India)
HP Labs, MIT, Stanford, Harvard
Huidige: Bing Social Search - grafiek en tijdreeksen analyse, data mining
Twitter, Facebook, nieuwe producten, technische planning
3. Wat kunnen we doen door het observeren van sociale netwerken?
Op het internet weet niemand dat je een hond.
Maar in sociale netwerken, kunnen we zien of je gedragen als een hond, welke groepen u behoort, en een aantal van uw interesses
4. Hoeveel Twitter-gebruikers zijn er?
van een zoekopdracht op twopular, mei 2009
5. Grafiek analyse voor relevantie en ranking
Spam marketing campagne
(Het bleken van tanden)
Natuurlijk aangesloten gemeenschap (# SMX)
Real time relevantie moet data mining te filteren en te rangschikken op basis van de geschiedenis
Spammy gemeenschappen kan zeer zichtbaar
Sociale grafiek, onderwerp / begrip grafiek, en het gedrag / gebaar grafieken zijn allemaal handige tools
6. Informatie diffusie in de grafiek
Waargenomen incidentie netwerk van retweets in Twitter
Kwak, Lee, et al., Wat is Twitter, een sociaal netwerk of een nieuws Media? WWW2010
Informatiestroom en gedragingen vormen een impliciete interactie grafiek
7. Onderwerp / sentiment bereik, volume, trendanalyse
Wat is de baseline van vermeldingen / sentiment per tijdseenheid?
Kijk voor veranderingen in de aandacht stroming rond een onderwerp, locatie, onderwerp
Kijk voor gecorreleerde signalen van meerdere bronnen
Overweeg bron relevantie en autoriteit ook
8. Het toepassen grafiek analyse
Aandacht stroom vs informatiestroom
Leidt tot nutsfuncties, kostenfuncties
Variabele diffusiesnelheden door acteur / netwerk / info soort
Voorspellen interesses en voorkeuren
Content creatie volgt aandacht
Zelf-georganiseerde gemeenschappen van aandacht
Als er geen inhoud, kunt u vragen om een ​​aantal
Waarneembare verspreiding van informatie
9. Clustering en fuzzing eigenschappen en identiteiten
* Veel gebruikte termen kunnen belangen te identificeren, affiniteiten, latente vraag intentie
* Maar kan mogelijk worden gebruikt om waarschijnlijke individuele gebruikers te identificeren!
* Infochaff - fuzzing out identiteit, gedrag, eigenschappen
10. Thank You
Ho John Lee
hojohn. lee @ microsoft. com
twitter.com / Hjl

ONDERZOEK: Inzichten uit de nieuwste social graph studies
Moderator: Eric Siegel - President bij Prediction Impact and Conference leerstoel aan Predictive Analytics Wereld
Sprekers:
Sharad Goel - Research Scientist bij Yahoo
Ho John Lee - Principal Program Manager bij Microsoft
DJ Patil - Chief Scientist bij LinkedIn
Marc Smith - Chief Social Scientist bij Connected Actie Consulting Group

Bladwijzers voor 20 januari via 23 januari

Dit zijn mijn verbindingen voor 20 januari door middel van 23 januari:

  • Data.gov - Featured Datasets: Richtlijn Agency Open Overheid - Datasets tot het einde van de dag onder de richtlijn Open regering nodig, 22 januari 2010. Freedom of Information Act verzoek logs, Treasury TARP en afgeleide activiteit logs, criminaliteit, inkomen, landbouw datasets.
  • Alle Uw Twitter Bot Needs Is Love - De naam van de bot's? Jason Thorton. Hij is neuriën voor maanden nu, het verzenden van meer dan 1250 tweets om wat 174 volgelingen. Zijn tweets, hoewel niet bijzonder creatief, beheren van zowel geloofwaardig en actueel. En hij wordt aangedreven door een enkel woord: Liefde.

    Thorton is de creatie van ontwikkelaar Ryan Merket, die hem gebouwd als een zijproject in ongeveer drie uur. Merket heeft zojuist de code die de bevoegdheden van hem geplaatst, en heeft ook onthuld hoe hij Thorton lijken enigszins realistisch: het bot zoekt naar tweets met het woord "liefde" in hen en tweets hen als zijn eigen.

  • Het bouwen van een Twitter Bot -. "Meet Jason Thorton Aan mensen die Jason kennen, hij is een succesvolle ondernemer in San Francisco, die 4-5 keer per dag tweets Maar Jason heeft een geheim, hij is niet echt een mens, hij is het product van mijn. eenvoudig algoritme in PHP

    Jason tweets veel over het woord "liefde" - dat is omdat Jason steelt eigenlijk tweets van het publiek tijdlijn dat het woord "liefde" bevatten en post deze als zijn eigen

    Jason @ ook de antwoorden op de mensen die het woord "liefde" gebruiken in hun tweets, en vraagt ​​hen willekeurige vragen of zegt iets arbitraire

    Het kostte me ongeveer 3 uur om code Jason, stel je voor wat een echte ingenieur kon doen met echte AI algoritmen? Nu beseffen dat het al een realiteit. Sites als Twitter zijn vol kant projecten, initiatieven bedrijf, spambots en AI-robots. Wanneer de vrije stroom van informatie wordt geopend, de hoeveelheid desinformatie toeneemt. Theres een reële behoefte aan iemand om de dierenarts de mensen die we ontmoeten 'op sociale sites - zal interessant zijn om te zien hoe deze markt groeit in het volgende jaar

  • Website monitoring-status - Public API Status - Gezondheid monitor voor 26 API's van populaire webdiensten, waaronder Google Search, Google Maps, Bing, Facebook, Twitter, SalesForce, YouTube, Amazon, eBay en anderen
  • PG & E Elektrisch systeem Outage Kaart - Deze kaart geeft de huidige uitval in onze 70.000 vierkante mijl verzorgingsgebied. Om meer details over een storing, met inbegrip van de oorzaak en het verwachte tijdstip van herstel zien, klik op de gekleurde pictogram dat hoort bij die uitval.

Bladwijzers voor 17 januari via 20 januari

Dit zijn mijn verbindingen voor 17 januari door middel van 20 januari:

  • PG & E Elektrisch systeem Outage Kaart - Deze kaart geeft de huidige uitval in onze 70.000 vierkante mijl verzorgingsgebied. Om meer details over een storing, met inbegrip van de oorzaak en het verwachte tijdstip van herstel zien, klik op de gekleurde pictogram dat hoort bij die uitval.
  • Twitter.com vs The Twitter Ecosysteem - Fred Wilson becommentarieert een aantal gegevens van John Borthwick aangeeft Twitter ecosysteem gebruik = 3-5x Twitter.com direct.

    "John's grafiek schat dat Twitter.com is ongeveer 20mm uvs een maand in de VS (comScore heeft het op 60mm UVS wereldwijd) en de Twitter-ecosysteem op ongeveer 60mm UVS in de VS.

    Die zegt dat over alle webservices, niet alleen AVC, de Twitter-ecosysteem is ongeveer 3x Twitter.com. En op deze blog, waarvan de doelgroep is zeker power users, die verhouding is 5x. "

  • Chris Walshaw :: Onderzoek :: Partition Archief - Welkom op de University of Greenwich Grafiek partitioneren Archief. Het archief bestaat uit de beste partities gevonden tot op heden voor een reeks grafieken en haar doel is om een ​​benchmark waartegen partitionering algoritmes kunnen worden getest, en een bron voor experimenten bieden.

    De partitie archief is operationeel sinds 2000 en bevat de resultaten van de meeste van de grote grafiek partitioneren software pakketten. Onderzoekers ontwikkelen van experimentele partitioneren algoritmen geregelde tijdstippen nieuwe partities voor mogelijke opname.

    Het merendeel van de test grafieken ontstaan ​​van de typische verdeling toepassingen, hoewel het archief bevat ook resultaten berekend voor een grafiek-kleuring testsuite [Wal04] opgenomen in een aparte bijlage.

    Het archief werd oorspronkelijk opgezet als onderdeel van een onderzoeksproject naar zeer hoge kwaliteit partities en auteurs die willen verwijzen naar de compartimentering archief moet het papier cite [SWC04].

  • Twitter's Crawl «Het product Guy - "Een lijst van incidenten die de laadtijd van pagina van de Twitter product getroffen, waarbij onderscheid tussen de totale downtime, en gedeeltelijke downtime en informatie ontoegankelijkheid, op basis van de openbare berichten op Twitters blog.

    http://status.twitter.com/archive

    Ik deed mijn best om niet dubbel eventuele problemen te tellen, maar het was moeilijk omdat veel van de problemen die zich voordoen zo vaak, en het is vaak moeilijk te onderscheiden, uit deze toestand blog alleen berichten, tussen een aanhoudend probleem wordt ervaren of vast, van die een nieuw ontstaan ​​van een vergelijkbare of zelfde probleem. Verder heb ik uitgesloten ook het effect op de laadtijd van pagina die voortvloeien uit het geplande onderhoud / downtime - perioden waarin de gebruiker verwachting meest zou worden gebracht met de belofte van het product van Page laadtijd. "

  • Soundboard.com - Soundboard.com is het web grootste catalogus van gratis geluiden en klankborden - in meer dan 20 categorieën, voor mobiel of PC. 252.858 gratis geluiden op 17.171 klankborden van films tot sport, geluidseffecten, televisie, beroemdheden, geschiedenis en reizen. Of bouwen, aanpassen, insluiten en beheer je eigen

Bladwijzers voor 31 december via 17 januari

Dit zijn mijn verbindingen voor 31 december door middel van 17 januari:

  • Khan Academy - De Khan Academy is een not-for-profit organisatie met als missie het leveren van een hoge kwaliteit van onderwijs voor iedereen, overal.

    Wij hebben 1000 + video's op YouTube die alles van elementaire rekenkundige en algebra tot vergelijkingen, natuurkunde, scheikunde, biologie en financiering, die zijn opgenomen door Salman Khan differentieel.

  • StarCraft AI Competition | Expressive Intelligence Studio - AI bot oorlogsvoering concurrentie met behulp van een gehackte API om StarCraft lopen, zal worden op AIIDE2010 gehouden in oktober 2010.
    De concurrentie zal StarCraft Brood War 1.16.1 gebruiken. Bots voor StarCraft kunnen worden ontwikkeld met behulp van de Broodwar API, die haken geeft in StarCraft en maakt de ontwikkeling van aangepaste AI voor StarCraft. Een C + +-interface stelt ontwikkelaars in staat om de huidige status van het spel en de afgifte van orders opvragen om eenheden. Een inleiding tot de Broodwar API is hier beschikbaar. Instructies voor het bouwen van een bot die met een afstandsbediening proces communiceert zijn hier beschikbaar. Er is ook een forum. We moedigen het indienen van bots die gebruik maken van geavanceerde AI technieken. Sommige ideeën zijn:
    * Planning
    * Data Mining
    * Machine Learning
    *-Case Based Reasoning
  • Meten Maatregelen: Het leren over Statistical Learning - Een "quick start guide" voor statistische en zelflerende systemen, goede verzameling van referenties.
  • Berkowitz et al.: Het gebruik van formele methoden in kaart brengen, analyseren en interpreteren hawala en terrorisme verband houdende alternatieve overboekingssystemen (2006) - Berkowitz, Steven D., Woodward, Lloyd H., & Woodward, Caitlin. (2006). Het gebruik van formele methoden in kaart brengen, analyseren en interpreteren hawala en terrorisme verband houdende alternatief geldovermakingssystemen. Oorspronkelijk bedoeld voor publicatie in het bijwerken van het volume 1988, eds, Wellman en Berkowitz, Sociale Structuren:. A Network Approach (Cambridge University Press). Steve overleed in november 2003. Zie Barry Wellman's "Steve Berkowitz: A Network Pioneer is overleden," in Connections 25 (2), 2003. Het is voor ons onmogelijk geweest om een ​​actualisering van de gegevens, of van de kwaliteit van de graphics die mogelijk zou zijn geweest als Berkowitz zou leven toe te voegen. Een vroege versie van het artikel verscheen in de Proceedings van de zitting over de bestrijding van terroristische netwerken: Current Research in Social Network Analysis voor de Nieuwe Oorlog Fighting Milieu. 8 Internationale Command and Control Research and Technology Symposium. National Defense University, Washington, DC 17-19 juni, 2003
  • SSH tunnels via web filters | s-anand.net - Stap voor stap uitleg over het gebruik van Putty en een EC2 bijvoorbeeld om het opzetten van een eigen web proxy op de vraag.
  • PyDroid GUI automatisering toolkit - GitHub - Wat is Pydroid?

    Pydroid is een eenvoudige toolkit voor het automatiseren en scripting repetitieve taken, met name die waarbij een GUI, met Python. Het bevat functies voor het besturen van de muis en het toetsenbord, het vinden van kleuren en bitmaps op het scherm, maar ook cross-platform waarschuwingen weergegeven.
    Waarom Pydroid gebruiken?

    * Het testen van een GUI applicatie voor bugs en randgevallen
    o U denkt misschien dat je app is stabiel, maar wat gebeurt er als u op 5000 keer die knop?
    * Automatiseren spelletjes
    o Het schrijven van een script te verslaan die crappy flash game zoveel meer voldoening dan urenlang zelf spelen het kan zijn.
    * Freaking out vrienden en familie
    o Nou misschien is dit niet echt een praktisch nut, maar ...

  • Tijdreeksgegevens Bibliotheek - Meer data sets - "Dit is een verzameling van ongeveer 800 tijdreeksen afkomstig uit vele verschillende fields.Agriculture Chemie Misdaad Demografie Ecologie Financiën Gezondheid Hydrologie Industrie Arbeidsmarkt Macro-Economie Meteorologie Micro-Economie Diverse Fysica Productie Sales Gesimuleerde serie Sport Transport & Toerisme Boom-ringen Utilities "
  • Hoe informatief is Twitter? »SemanticHacker Blog -.. "We ondernam een kleine studie naar de verschillende typen berichten die u kunt vinden op Twitter karakteriseren We gedownloade een steekproef van tweets over een periode van twee weken met behulp van de Twitter API streaming Dit resulteerde in een corpus van 8,9 miljoen berichten ('tweets') geplaatst door 2,6 miljoen unieke gebruikers. Ongeveer 2,7 miljoen van deze tweets, of 31%, waren antwoorden op een tweet geplaatst door een andere gebruiker, terwijl een half miljoen (6%) waren retweets. Bijna 2 miljoen (22 %) van de berichten bevatten een URL. "
  • Gremlin - een Turing-compleet,-grafiek op basis van programmeertaal - GitHub - Gremlin is een Turing-compleet,-grafiek gebaseerde programmeertaal die is ontwikkeld in Java 1.6 + voor sleutel / waarde-paar multi-relationele grafieken bekend als eigendom grafieken. Gremlin maakt uitgebreid gebruik van de XPath 1.0 taal om complexe grafiek mapverzendingen ondersteunen. Deze taal heeft toepassingen op het gebied van grafiek query, analyse en manipulatie. Connectoren bestaan ​​voor de volgende data management systemen:

    * TinkerGraph in-memory grafiek
    * Neo4j grafiekbestand
    * Sesame 2.0-compatibele RDF winkels
    * MongoDB database met documenten

    De documentatie voor Gremlin kan gevonden worden op deze locatie. Tenslotte kunt u terecht TinkerPop voor andere softwareproducten.

  • De C Programming Language: 4.10 - van Kernighan & Ritchie & Lovecraft - nietig Rlyeh
    (Int mene [], int wgah, int Nagl) {
    int Ia, fhtagn;
    if (wgah> = Nagl) return;
    swap (Mene, wgah, (wgah + Nagl) / 2);
    fhtagn = wgah;
    voor (Ia = wgah 1; Ia <= Nagl; Ia + +)
    if (mene [Ia] <mene [wgah])
    swap (mene, + + fhtagn, Ia);
    swap (Mene, wgah, fhtagn);
    Rlyeh (Mene, wgah, fhtagn-1);
    Rlyeh (mene, fhtagn 1, Nagl);

    } / / PH'NGLUI MGLW'NAFH CTHULHU!

  • Hoe om e-mailadressen te zetten in naam, leeftijd, etniciteit, seksuele geaardheid - Dit is zo Meta - "Sla uw e-mail lijst als CSV-bestand (net komma scheiden die e-mailadressen) Upload dit bestand naar je facebook account als je wilde. voeg ze toe als vrienden. Voila, zal facebook u alle profielen van al die gebruikers geven (in mijn test, ongeveer 80% van mijn e-mail lijsten hebben facebook profielen). Nu, klik door elk profiel, en vanwege de nieuwe standaard facebook instellingen , waarop alle informatie openbaar maakt, ongeveer 95% van de gebruiker informatie is beschikbaar voor u om te oogsten. "
  • Microsoft Security Development Lifecycle (SDL): Hulpmiddelen Repository - Een verzameling van eerder intern-security tools van Microsoft, waaronder anti-XSS, fuzz test, FxCop, bedreiging modellering, binscope, nu beschikbaar als gratis download.
  • Analytics X Prize - Thuis - prognose van de moorden in Philadelphia - De Analytics X Prize is een voortdurende wedstrijd om analyse, modellering, en statistieken van toepassing op de sociale problemen die invloed hebben op onze steden op te lossen. Het combineert het gebied van statistiek, wiskunde en sociale wetenschappen aan de onderliggende oorzaken van disfunctioneren in onze buurten te begrijpen. Inzicht in deze relaties en het ontdekken van de meest gecorreleerde variabelen laat ons toe om onze beperkte middelen effectiever in te zetten en te richten op de variabelen die de grootste positieve impact op verbetering zal hebben.
  • PeteSearch: Hoe om gebruikersinformatie te vinden vanaf een e-mailadres - FindByEmail code vrijgegeven als open-source. U passeert het een e-mailadres, en het vraagt ​​11 verschillende openbare API's om te ontdekken welke informatie deze diensten hebben op de gebruiker met dat e-mailadres.
  • Meten Maatregelen: Beyond PageRank: Leren met Content en Netwerken - Conclusie: het leren op basis van inhoud en netwerk data is de huidige stand van de techniek Er is een grote papier en praten over personalisatie in Google News ze gebruiken inhoud voor dit doel, en vervolgens de gebruiker klik streams om personalisatie te bieden, dat wil zeggen raden specifieke voorwerpen in elk actueel cluster. De kwestie is het filteren van inhoud is typisch (zoals wij zeggen in het onderzoek) "veel moeilijker." Stel je hebt een sociale grafiek, een bos van documenten, en je weet dat sommige gebruikers in de sociale grafiek zoals sommige documenten, en je wilt andere documenten waarvan je denkt dat ze zullen willen aanbevelen. Met behulp van methoden die gebaseerd zijn op Netwerken, kunt u overwegen een clustering gebruikers op basis van co-visitaion (ze hebben samen graag een aantal van de documenten). Deze schalen geweldig, en het internationaliseert geweldig. Als u begint met het extraheren van functies uit de documenten zelf, dan wat je bouwen voor Engels misschien niet zo goed werken voor de Chinese markt. Verder is er veel meer gegevens in de tekst dan er in de sociale grafiek
  • mikemaccana's python-docx op master - GitHub - MIT-licentie Python bibliotheek om te lezen / schrijven-bestanden Microsoft Word docx. "De docx module leest en schrijft Microsoft Office Word 2007 docx-bestanden. Deze worden aangeduid als 'WordML', 'Office Open XML' en 'Open XML' van Microsoft. Zij kunnen worden geopend in Microsoft Office 2007, Microsoft Office Mac 2008, OpenOffice.org 2.2 en Apple iWork 08. De module is gemaakt toen ik op zoek was naar een Python ondersteuning voor MS Word. doc-bestanden, maar kon alleen vinden diverse hacks waarbij COM-automatisering, bellen. net of Java, of het automatiseren van OpenOffice of MS Office. "

Een laatste blik op Twitter userbase groei (tot juni 2009)

Een aantal mensen hebben gevraagd over updates van de eerdere berichten op Twitter gebruikers profiel bevolking evenals enkele statistische analyse. Ik toetreding tot de Microsoft Bing search team dus ik zal waarschijnlijk niet worden delen zoveel gegevens in de toekomst, maar ik wilde een paar grafieken eerst uit te krijgen.

Hier is een bijgewerkte blik op Twitter de user base groei, tot en met juni 2009. Dit onderzoek heeft veel spam accounts gesnoeid, dus het werkelijke aantal gebruikersprofielen op elk punt in de tijd is waarschijnlijk hoger dan de grafiek uitgezet hier. Omhoog en naar rechts, richting langs 13M is de belangrijkste afhaalmaaltijden. Merk ook op dat de meerderheid van de Twitter-profielen zijn gemaakt in de afgelopen maanden. Vergelijk met de grafiek via mei 2009

twitter-userbase-june09

Hier is de overeenkomstige raming van nieuwe gebruikersaccounts per dag. Die eerste grote piek is de Oprah show met Twitter. Niet precies welke media-evenementen gaan met de meer recente piek, waarschijnlijk een combinatie van Ashton Kutcher vs CNN en andere beroemdheden op een campagne om meer volgelingen te krijgen. Ter herinnering, niet de grafieken niet echt afzetten bij de rechterkant, dat is gewoon van nieuwe gebruikers niet onmiddellijk ontdekt.

twitter-userbase-rate-june09

Helaas heb ik waarschijnlijk niet het samenstellen van elke stats visualisaties hier omdat ik de SocialQuant werk overgang naar Microsoft Bing. Maar ik kijk ernaar uit om te helpen bij een aantal interessante applicaties voor Twitter en andere sociale media op de Bing-platform, en hopen dat u zult in staat zijn om enkele resultaten er genieten in de nabije toekomst.

Wanneer u bij een splitsing in de weg ...

Crossroads of the World at the Beach Bar, Waikiki

Crossroads of the World in de Beach Bar, Waikiki

Zoals sommigen van jullie weten, heb ik het verkennen van een verscheidenheid aan paden voorwaarts voor SocialQuant, mijn real-time social search en analytics project. Mijn familie, vrienden en collega's hebben me veel steun, geduld en advies tijdens dit proces gegeven, die een kruispunt heeft bereikt, en als Yogi Berra zegt: "Als je bij een splitsing in de weg, neem het!"

De opkomst van Twitter, Facebook en andere sociale media, gecombineerd met web-based applicaties, smartphones en cloud computing hebben allemaal de weg geëffend voor nieuwe toepassingen en gebruik maken van modellen op basis van sociale ontdekking, samenwerking en communicatie, naast de traditionele zoekopdracht . Wat we allemaal roepen 'real time search "is de laatste tijd niet echt real-time, noch is het precies zoeken, waarin je een definitief / gezaghebbend antwoord te vinden. Een groot deel van de gelegenheid draait om het ontdekken van mensen, discussies en evenementen die voor u relevant zijn en brengt het onder uw aandacht in een tijdig, bruikbare manier. Informatiestromen van sociale media zijn van voorbijgaande aard, onbetrouwbaar, en lawaaierig. Op hetzelfde moment, kan de enorme hoeveelheid gegevens helpen vormen de basis voor het bouwen van betere filters. Als een toegevoegde bonus, kunt u vragen stellen aan mensen in de sociale grafiek zelf, en er zijn tal van voorbeelden van communities of interest te vormen rond de actualiteit, zoals Barack Obama's inauguratie, de Iraanse verkiezingen, of zelfs Michael Jackson's begrafenis, die allemaal helpen oppervlak informatie-inhoud, mening, en sentiment die voorheen ontoegankelijk waren online. Een interessant aspect van real-time social media is dat het niet alleen algoritmische, het is gebaseerd op de menselijke verbindingen en emoties. Dus een boodschap die "goed voelt" van mensen die je vertrouwt kan meer relevant dan een die is "correct" op keer.

De uitdaging bestaat er dan in het filteren en de rangschikking van de enorme stroom van informatie op een manier die direct beperkte (en niet uitbreiden) tijd en aandacht van de gebruiker op een manier die het meest waardevol voor hen helpt. Met de huidige informatie-technologie, verbazingwekkende dingen zijn mogelijk met beperkte middelen. Persoonlijk heb ik meer computer-en opslagfaciliteiten dan de faciliteit lanceerden we HP's originele foto site met (voor miljoenen dollars), tegen een fractie van de kosten, routinematig duwen rond datasets miljoenen rijen op de lokale ontwikkeling servers. Helaas, dat is gewoon de ante aan de slag op het probleem. Hardlopen ranking, clustering, en semantische analyse voor het filteren van de steeds groeiende stroom van sociale media uiteindelijk vereist web schaal computing, zelfs met een zorgvuldige probleem selectie en gegevens snoeien. De bar is ook omhoog gaan elke dag als de social media gebruikers groeit , en zo goed gefinancierd teams vooruitgang boeken op hun platformen (+ Google ). Dus zeer binnenkort, om concurrerend te zijn in real-time, is social search en discovery gaat om de toegang tot tal van gegevens en ofwel vereisen het krijgen van een datacenter of het werken met iemand die er een heeft.

In mijn geval heb ik onlangs gekozen voor de laatste pad, en zal toetreden tot de Microsoft Bing search team, gericht op real-time en social search. Microsoft zelf laat tekenen zien van een renaissance, met zoeken hervatting , Windows 7 op zoek slanker, Azure steeds niet-vluchtige , meer web-API's krijgen gepubliceerd, kern online applicaties beginnen te draaien , en een koele Office 2010 video. Zelfs Mini-Microsoft is positief steeds onlangs. En Google is begonnen met "grootheid" kwesties .

Ik kijk uit naar het werken met Sean Suchter en de Microsoft Bing search team (en waarschijnlijk uitbreiden van hun carbon footprint) in de uitoefening van nieuwe toepassingen en diensten zoals de sociale media en online applicatie ruimte evolueert.

U kunt volgen langs op Twitter ( @ Hjl ). Zoals altijd, alle meningen hier zijn alleen van mij en niet de positie van een verleden, heden of toekomst werkgever, partner, of zakenpartner niet weerspiegelen.

Volg stelde gebruikers, trekken onmiddellijk spamcloud

Ondanks Twitter verbazingwekkende groei , er is algemene overeenstemming dat de Suggested Users List en de nieuwe gebruikerservaring heeft tekortkomingen . Bij wijze van experiment heb ik een nieuwe Twitter-account. Ik wilde zien wat de ervaring zou kunnen kijken als iemand geïnteresseerd is in, maar verder volledig onbekend met de service. Tijdens de aanmeldingsprocedure, het pikt automatisch enkele suggesties gebruikers (schijnbaar willekeurig), die ik al gekozen, ongeveer een dozijn of zo. Toen vroeg het voor mijn e-referenties te controleren op andere mensen die ik ken op Twitter, die ik heb geweigerd, omdat ik over het algemeen niet webapplicaties geven toegang tot mijn e-mail diensten. Toen ging ik terug naar "Suggested Users" onder de rubriek "Find People" en geselecteerde allemaal. In totaal heeft de lijst Suggesties Gebruikers kreeg me tot 237 vrienden in mijn inkomende stroom.

Binnen een paar minuten na afloop van dit proces, had ik al 13 spam volgers aanbieden affiliate links voor camera's, porno en Twitter volgers. Een dag later was ik tot 41 spam volgelingen, plus 4 follow-backs van rekeningen volgde ik in aanvulling op de gesuggereerde Gebruikers List.

twitter-newuser-spam-090705 Er zijn twee verschillende zaken hier: 1) het vinden van een set van interessante / relevante mensen voor nieuwe gebruikers om te volgen, en 2) het beperken van de impact van spam en affiliate marketeers, die lijken te scannen van de volgeling lijsten van de Voorgestelde gebruikers nieuwe identificeren accounts om spam.

Twitter gebruikers groei per dag

Twitter estimated new users per day through May 2009

Twitter geschatte nieuwe gebruikers per dag door middel van mei 2009

Hier is een aanvulling op de Twitter-gebruiker bevolkingsgroei grafiek van vorige week. Deze grafiek toont een schatting van het aantal nieuwe gebruikers per dag. De gestippelde blauwe balk is de 2009 Amerikaanse inauguratie van Barack Obama, en de extreme piek is de Oprah Winfrey show met Twitter.

De voor deze grafiek gegevens is niet zo compleet voor de laatste week of zo aan de rechterzijde, dwz de snelheid van de nieuwe gebruiker aanmeldingen niet naar nul is gegaan, en in feite nog steeds vrij hoog, niet 100k gebruikers per dag, maar ruim boven de "pre-mainstream adoptie" user aanmelden prijzen, in de range van 30-50K gebruikers / dag. Vanaf medio juni, Twitter heeft meer dan 8M gebruikersaccounts die zijn gemaakt.

Twitter's verbazingwekkende gebruikerservaring groei

Twitter estimated userbase through May 2009

Twitter geschat userbase tot mei 2009

De bovenstaande grafiek toont een schatting van Twitter gebruikers bevolking van de lancering maart 2006 tot mei 2009, op basis van een steekproef van ongeveer 6 miljoen waargenomen gebruikersprofielen. De gestippelde blauwe lijn is rond de 2009 US inauguratie van Barack Obama en waar de overgang van early adopter tot begin massapubliek lijkt te hebben gehaald.

De gehele gebruikersgroep van Twitter lijkt te hebben bereikt 1.000.000 ergens in januari, maar vandaag zijn er verschillende accounts die meer dan 1 miljoen volgers hebben elk.

Anders gezegd, als je je vóór februari 2009 is ondertekend, kunt u overwegen zelf iets van een early adopter op Twitter, en tot de vroegste 15% of zo van de gehele gebruikersgroep.

De cijfers in dit onderzoek zijn onnauwkeurig, maar representatief, ontleend aan onderzoek dat ik heb gedaan voor SocialQuant en FailWatch. Er is enige overlevende vooroordelen gebouwd in, aangezien ik snoeien spam en opgeschorte accounts. Alleen Twitter kent de ware stand van de user base en de sociale grafiek, natuurlijk.

De eerste Twitter-gebruikers hebben de neiging om elkaar meer leren kennen in het echte leven, aangezien een groot deel van het sociale netwerk groeide van vrienden van de oprichters, SWSX aanwezigen, en de San Francisco / Silicon Valley tech gemeenschap. De meer recente (post-Obama) aankomsten niet geneigd zijn om verbindingen op deze netwerken hebben, en weten vaak niet iemand anders te volgen. Ze komen via massamedia en celebrity-campagnes, en uiteindelijk na massamedia en beroemdheden, hetzij van de voorgestelde lijst gebruikers of omdat dat de enige mensen die ze kennen van.

Als je goed kijkt, zie je het stijgingspercentage vertraagt ​​naar het einde van de grafiek. Er was een enorme ramp in nieuwe gebruiker aanmeldingen rond de tijd van de Oprah show, die enigszins is afgenomen. Dit heeft geleid tot berichten over Twitter's naderende ondergang te bloggen, maar terugkijkend, zijn er vorige pieken geweest in de user base (meestal rond SXSW etc) die hebben geleid tot een piek, dan is een daling van de nieuwe gebruiker aanmeldingen om een ​​off-peak maar hoger -dan-before gemiddelde. Tot dusver is de stroomstoot is de grootste, maar lijkt te zijn na het patroon. Bij ontstentenis van een nieuwe driver, zou de groei gebruiker blijven bij een off-peak maar hoger niveau, tot de volgende grote sprong, of iets beters langskomt.

Bladwijzers voor 11 juni via 12 juni

Dit zijn mijn verbindingen voor 11 juni via 12 juni:

Bladwijzers voor 6 juni tot 8 juni

Dit zijn mijn verbindingen voor 6 juni tot 8 juni:

  • Latijnse motto generator: maak je eigen pakkende slogans! - Maak je eigen leven motto's en slogans in het Latijn! (Leren Latijn niet verplicht, een vaag idee voor een gewenste motto een plus)
  • Een kaart van sociale (netwerk) Dominantie - Met behulp van Alexa en Google Trend gegevens, Cosenza kleurcodering de kaart op basis waarvan sociale netwerk is de meest populaire in elk land. Alle van de lichtgroene landen behoren tot Facebook. Maar er zijn nog verzetshaarden in Rusland (waar V Kontakte regels), China (QQ), Brazilië en India (Orkut), Midden-Amerika, Peru, Mongolië en Thailand (hi5), Zuid-Korea (Cyworld), Japan (Mixi ), het Midden-Oosten (Maktoob) en de Filippijnen (Friendster).
  • Microsoft brengt Bing API - With No Usage Quota - update search API, zonder quota en enkele verbeteringen.
    * Ontwikkelaars kunnen nu verzoeken om gegevens in JSON en XML formaten. De SOAP-interface die de Live Search API vereist is ook behouden.
    * Gevraagde gegevens kunnen worden teruggebracht tot een van de volgende typen bron: web, nieuws, foto's, telefoonboek, spell-checker, gerelateerde vragen, en Encarta direct antwoord.
    * Het is nu mogelijk om verzoeken in OpenSearch-compliant RSS-formaat voor het web, nieuws, imago en het telefoonboek queries sturen.
    * Client applicaties in staat zal zijn om een ​​aantal verschillende soorten gegevensbronnen te combineren in een enkel verzoek met een enkele query string.
  • Twitter Grenzen Getting Belachelijk! «Verwon's Blog - anekdotische meldingen van Twitter gebruikers die in de problemen met snelheidsbeperking, ofwel API of max. berichten / tweets / volgt / regisseert.
  • flot - Google Code - Flot is een puur Javascript plotten bibliotheek voor jQuery. Het produceert grafische percelen van willekeurige datasets on-the-fly client-side. De focus ligt op eenvoudige gebruik (alle instellingen zijn optioneel), een aantrekkelijk uiterlijk en interactieve functies zoals zoomen en muis tracking. De plugin is bekend om te werken met Internet Explorer 6/7/8, Firefox 2.x +, Safari 3.0 +, Opera 9.5 + en Konqueror 4.x +. Als u een probleem te vinden, meld dit dan. Tekening wordt gedaan met het canvas tag geïntroduceerd door Safari en nu beschikbaar op alle grote browsers, behalve Internet Explorer waar de excanvas Javascript emulatie helper wordt gebruikt.

Bladwijzers voor 3 juni tot 4 juni

Dit zijn mijn verbindingen voor 3 juni tot 4 juni:

Bladwijzers voor 1 juni tot 2 juni

Dit zijn mijn verbindingen voor 1 juni tot 2 juni:

  • jqPlot - Pure Javascript plotten - jqPlot is een plotten plugin voor de jQuery JavaScript-raamwerk. jqPlot produceert mooie lijn-en staafdiagrammen met vele functies, waaronder: Tal grafiek stijl opties. Datum assen met aanpasbare opmaak. Gedraaide tekst as. Automatische trendlijn berekening. Tooltips en datapunt highlighting. Sensible defaults voor gebruiksgemak.
  • Nieuwe Twitter Onderzoek: Mannen Volg Mannen en Nobody Tweets - Conversation Starter - HarvardBusiness.org - "Hoewel mannen en vrouwen volgen een vergelijkbaar aantal Twitter-gebruikers, mannen hebben 15% meer volgers dan vrouwen Mannen hebben ook meer beantwoord relaties, waarin twee. .. gebruikers elkaar volgen Deze "volger split" suggereert dat vrouwen minder door aanhangers worden gedreven dan mannen, of strengere drempels voor heen relaties Dit is intrigerend, zeker gezien het feit dat vrouwen het bezit van een kleine meerderheid op Twitter: we vonden dat mannen hierbij 45% van de Twitter-gebruikers, terwijl vrouwen vertegenwoordigen 55%. "
  • Shirky: Macht Laws, Weblogs, and Inequality - 2003 artikel over populariteit / verkeer op blogs, die vervolgens de nieuwste opkomende sociale media formaat was. "Zodra een kracht wet distributie bestaat, kan het op een zekere mate van homeostase te nemen, de neiging van een systeem om zijn vorm te behouden, zelfs tegen druk van buitenaf. Is de weblog wereld een dergelijk systeem? Zijn er mensen die zo getalenteerd of verdienstelijk als de huidige sterren, maar wie niet zoiets als het verkeer krijgen? Ongetwijfeld. Zal dit probleem erger worden in de toekomst? Ja. "
  • goed formed.eigenfactor.org: Visualiseren informatiestroom in de wetenschap - Enkele leuke visualisatie ideeën met behulp van hiërarchische clustering om patronen te ontdekken in de citatie-netwerken.
  • Bing API, Versie 2.0 - Updated API-documentatie voor Microsoft Bing (voorheen Live Search) web services.

Bladwijzers voor 30 mei via 31 mei

Dit zijn mijn verbindingen voor 30 mei tot 31 mei:

Bladwijzers voor 29 mei 5:17-12:45

Dit zijn mijn verbindingen voor 29 mei 5:17-0:45:

Bladwijzers voor 21 mei 6:07-22:34

Dit zijn mijn verbindingen voor 21 mei 6:07-22:34:

Bladwijzers voor 20 mei 19:50-22:03

Dit zijn mijn verbindingen voor 20 mei 19:50-22:03:

Bladwijzers voor 14 mei via 15 mei

Dit zijn mijn verbindingen voor 14 mei tot 15 mei:

  • Gefeliciteerd, Google personeel: $ 210k winst per hoofd in 2008 | Royal Pingdom - Google had $ 209.624 winst per werknemer in 2008, waarbij alle andere grote tech bedrijven keken we naar, met inbegrip van grote hitters zoals Microsoft ($ 194K) verslaat, Apple ($ 151K), Intel ($ 64K) en IBM ($ 30K).
  • Statistical Data Mining Tutorials – A nice collection of presentations reviewing topics in data mining and machine learning. eg "HillClimbing, Simulated Annealing and Genetic Algorithms. Some very useful algorithms, to be used only in case of emergency." These include classification algorithms such as decision trees, neural nets, Bayesian classifiers, Support Vector Machines and cased-based (aka non-parametric) learning. They include regression algorithms such as multivariate polynomial regression, MARS, Locally Weighted Regression, GMDH and neural nets. And they include other data mining operations such as clustering (mixture models, k-means and hierarchical), Bayesian networks and Reinforcement Learning.
  • Dare Obasanjo aka Carnage4Life – Why Twitter's Engineers Hate the @replies feature – Looking at the infrastructure overhead required for Twitter's attempted change to @reply behavior.
  • Scratch Helps Kids Get With the Program – Gadgetwise Blog – NYTimes.com – On my candidate list for 7th grade introductory programming and analysis. "Scratch, an MIT-developed computer-programming language for children, is the focus of worldwide show-and-tell sessions this Saturday. "
  • jLinq – Javascript Query Language – For manipulating data sets in Javascript, sort of like jQuery

Bookmarks for May 13th from 06:26 to 22:36

These are my links for May 13th from 06:26 to 22:36:

Bladwijzers voor 8 mei tot 12 mei

Dit zijn mijn verbindingen voor 8 mei tot 12 mei:

2 3 Pagina 1 van 3 1 2 3