| Ho John Lee | 31 január 2010 | Komentáre sú uzavreté Tu sú moje odkazy na 23. januára cez 30. januára: - Leonarda da Vinciho životopis vysvetľuje, prečo je človek, renesančný Pre prácu - Davinci - Gizmodo - Zrazu v histórii, a to aj da Vinci sám mal na pero životopis vysvetliť, prečo bol uchádzačom. Tu je preklad jeho listu vojvodu z Milána, kresliť mnoho jeho talent a schopnosti. "Väčšina Preslávený Pánovi, keď sa dostatočne zohľadnený vzorkami a všetkých tých, ktorí hlásajú sami kvalifikované contrivers hudobných nástrojov vojny, a že vynález a funkčnosti týchto nástrojov nie je nič odlišné od tých, ktoré sa bežne používajú: Budem sa snažiť, aby boli dotknuté niekto iný, vysvetľovať, aby Vaša Excelencia, ukazovať svoju moc a autoritu svoje tajomstvo, a ponúka im, aby svoje najlepšie potešenie a aprobačné pracovať s účinnosťou u oportúnnych momentov na všetky tie veci, ktoré z časti, musí byť stručne uvedenými nižšie .. Tento dokument, napísaný kedy da Vinci bolo 30 rokov, je v skutočnosti viac, než motivačný list životopis, necháva mnoho z jeho umeleckých úspechov, a namiesto toho sa zameriava na to, čo môže poskytnúť pre vojvodu v technológiách vojny.
- jsMath: jsMath Home Page - Balíček jsMath poskytuje metódu, vrátane matematiky v HTML stránok, ktoré funguje vo viacerých prehliadačoch pod Windows, Macintosh OS X, Linux a ďalšie Unix. To prekonáva rad nedostatkov tradičného spôsobu použitia obrázkov reprezentovať matematiku: jsMath používa natívne písma, takže veľkosť, keď zmeníte veľkosť textu v prehliadači, vytlačí v plnom rozlíšení vašej tlačiarne a Nemusíte čakať na desiatky snímok, ktoré majú byť stiahnuté, aby bolo vidieť matematiku na webovej stránke. Tam sú tiež výhody pre webové stránky autorov, pretože nie je nutné predspracovanie vaše webové stránky vytvárať žiadne obrázky a matematika sa zadáva vo forme TeX, takže je ľahké vytvárať a udržiavať svoje webové stránky. Aj keď to funguje najlepšie s TeXu nainštalovaný, bude jsMath uchýliť sa späť ku kolekcii založeného na obrazu písma (ktorý môže ešte byť zmenšený alebo vytlačiť vo vysokom rozlíšení), alebo písma v kódovaní Unicode, keď TeXu nie sú k dispozícii.
- Josh na webe »Blog Archive» Zneužitie Cache: Sledovanie užívateľov bez cookies - Ak chcete sledovať užívateľa, som využiť troch URL: kontajner, ktorý môže byť akejkoľvek webovej stránky, podložka súbor, ktorý obsahuje unikátny kód, a na sledovanie strana, ktorá ukladá (v tomto prípade displeja) požiadavky. Trik je v tom, cache prehliadača podložka súbor na neurčito. Ak je požadovaný súbor pre prvý - a jediný - doba jedinečný identifikátor je vložiť na stránku. Podložka vloží sledovanie stránku odovzdaním jedinečný identifikátor zakaždým, keď je načítaný. Pozrite sa na zdrojový kód.
Jedna užitočná vec o tejto metóde je, že JavaScript nie je nevyhnutne nutné. Používa sa iba odovzdať správu a odkazujúcich na tracker. Asi by bolo možné nahradiť iframe s CSS a obrázky získať JS-free HTTP logovanie, ale stratí schopnosť ukladať správy tak ľahko. - Panopticlick - Váš prehliadač prstov sa zdá byť jedinečný medzi 342.943 testované tak ďaleko.
V súčasnej dobe odhadujeme, že váš prehliadač má odtlačok prsta, ktorý sprostredkuje aspoň 18,39 bitov identifikačné informácie. Meranie sme použili na získanie tohto výsledku sú uvedené nižšie. Môžete si prečítať viac o metodike tu, a o niektorých obrany proti odtlačkov prstov tu - Benlog »Nie Hash Secrets - Keď vám poviem, že SHA1 (foo) je X, potom to dopadá v mnohých prípadoch byť docela jednoduché pre vás zistiť, čo SHA1 (foo | | bar) je. Nemusíte vedieť, čo foo. pretože SHA1 je iteratívny a pracuje blok po bloku, ak viete, že hash foo, potom môžete rozšíriť výpočet určiť hash foo bar | |
To znamená, že ak viete, SHA1 (tajnej | | správy), si môžete spočítať SHA1 (tajnej | | pošta | | ČOKOĽVEK), ktorý je platný podpis správy | | nič. Takže ako tento systém, stačí vidieť jeden podpis od SuperAnnoyingPoke, potom môžete vydávať SuperAnnoyingPoke pre mnoho ďalších správ. Čo by ste mali používať, je HMAC: Hash-funkciu autentizačný kód správy. Nemusíte vedieť, ako presne to funguje, len treba vedieť, že HMAC je špeciálne postavený pre autentizačný kódy správ a use case z SuperAnnoyingPoke / MyFace. Pod kapotou, čo sa to deje, je približne dva hashe, s tajomstvom kombináciu po prvom hash - Data.gov - Najlepšie Dátové sady: Otvorený Nariadenie vlády agentúry - Súbory údajov požadovaných v rámci otvorenej nariadenia vlády až do konca dňa 22. januára 2010. Sloboda informácií guľatiny zákona vyžiadanie, financií TARP a derivátových záznamy o aktivite, kriminalita, výnosy poľnohospodárstva databáz.
Ho John Lee | 20 január 2010 | Komentáre sú uzavreté Tu sú moje odkazy na 17.ledna cez 20.januára: - PG & E Elektrická sústava výpadku Mapa - Táto mapa ukazuje aktuálne výpadky v našom 70.000 štvorcových kilometrov-servisnej oblasti. Ak chcete zobraziť ďalšie podrobnosti o výpadku, vrátane príčinu a predpokladaný čas obnovy, kliknite na farebne kódované ikony spojené s týmto výpadkom.
- Twitter.com vs Twitter Ekosystém - Fred Wilson poznámky k niektorým údajom z John Borthwick uvedením Twitter využívaniu ekosystémov = 3-5x Twitter.com priamo.
"Johnov graf odhaduje, že Twitter.com je o 20 mm Uvs mesiac v USA (comScore má to na 60mm Uvs po celom svete) a ekosystém Twitter asi 60 mm Uvs v USA. To hovorí, že vo všetkých webových služieb, a to nielen AVC, ekosystém Twitter je asi 3x Twitter.com. A na tomto blogu, ktorého publikum je určite pokročilí používatelia, že pomer je 5x. " - Chris Walshaw :: Výskum :: Rozdeľovací Archív - Vitajte na University of Greenwich Graf Delenie archívu. Archív sa skladá z najlepších oddielov nájdených aktuálne pre celú radu grafov a jeho cieľom je poskytnúť meradlo, podľa ktorého možno Algoritmy majú byť testované, a zdroj pre experimentovanie.
Oddiel archív je v prevádzke od roku 2000 a zahŕňa výsledky z väčšiny hlavných grafu delenie softvérových balíkov. Vedci rozvojovej experimentálne Algoritmy pravidelne predkladať nové oblasti pre prípadné zaradenie. Väčšina testovacích grafov vyplývajú z typických predelové aplikácií, hoci archív obsahuje výsledky vypočítané pre gra-sfarbenie testovacej súpravy [Wal04] obsiahnuté v samostatnej prílohe. Archív bol pôvodne založený ako súčasť výskumného projektu do vysoko kvalitných priečok a autorov, ktorí chcú postúpiť k rozdeleniu archívom, by mal citovať prácu [SWC04]. - Twitter je prechádzanie «Produkt Guy - "zoznam udalostí, ktoré ovplyvnili čas načítania stránky produktu Twitteri, rozlišovať medzi celkovým prestoje, a čiastočné výpadky a nedostupnosť informácií, na základe spoločných príspevkov na Twitters blogu.
http://status.twitter.com/archive Snažila som sa, aby to zdvojnásobiť počítať nejaké problémy, ale bolo to ťažké, pretože mnohé z problémov, sa vyskytujú tak často, a to je často ťažké rozlíšiť, z týchto miest stave blog sám, medzi pretrvávajúci problém prežívajú alebo pevné, z toho o novom vzniku podobné alebo rovnaké problémy. Okrem toho som tiež vylúčil vplyv na čas načítania stránky vyplývajúce z plánovanej údržby / prestojov - dobu, po ktorú by užívateľ očakávania sa najviac zladené s produktom sľub času načítania stránky. " - Soundboard.com - Soundboard.com je web najväčší katalóg voľných zvukov a soundboards - vo viac než 20 kategóriách, pre mobil alebo PC. 252858 zadarmo zvuky na 17171 soundboards z filmov cez šport, zvukové efekty, televízia, celebrity, história a cestovanie. Alebo stavať, prispôsobiť a spravovať vložiť svoje vlastné
Site Admin | 31 mája 2009 | Komentáre sú uzavreté Tu sú moje odkazy na 30.května až 31.května: - Mierka Twitter: Tvorba Twitter 10000 percent rýchlejší | Vysoká škálovateľnosť - zbierka odkazov na prezentácie a rozhovory týkajúce Twitter architektúry, vykonávacie plány a problémy s výkonom, od jari 2009.
- Posledné Psychiater: Rozdiel medzi amatérom, vedec a génius - amatér je plný úžasu a špekulácií, šťourat k pravde, ale trpia nedostatkom znalostí a lenivosti, že to nie je ani istý, či niekto iný má už Tieto objavy. "Je to stojí za prenasledovanie?"
Vedec vykonáva experimenty potvrdiť či vyvrátiť hypotézu, a tým, že melie pravdu. Génius má tri schopnosti, ktoré sú v skutočnosti spojení amatéra a vedca: 1.. poznať najmodernejšie, čo je známe a čo nie je známy. 2.. Ak chcete byť schopní myslieť "out of the box". 3.. Ak chcete byť dostatočne disciplinovaní sústrediť na nudu formálneho vyšetrovania jeho úžasné špekulácií. - PatchMatch: Randomizovaná Korešpondencia algoritmus pre štrukturálne editáciu obrazu - Výskumná práca akési "super retušovací štetec" pre manipuláciu s digitálne obrázky, umožňuje zostrihu dohromady rôzne časti obrazu a automatickou voľbou podobné textúry, aby sa šev prechody lepšie pracovať.
- Light Blue Touchpaper »Blog Archive» Attack of the Zombie Fotografie - sociálnych sietí a zdieľanie stránky majú problémy pri vykonávaní a riadení politiky riadenia prístupu vo veľkom meradle, a Content Delivery siete pridať ďalšie vrásky.
- Mapa všetkých lokalít Google dátových centier | Royal Pingdom - Kde na svete je hľadanie sa podáva od? Pokus zostaviť zoznam známych Google dátových centier po celom svete.
Site Admin | 28 mája 2009 | Komentáre sú uzavreté Tu sú moje odkazy na 24.května až 27.května: - Vzorce a herné mechanika - WoWWiki - Váš sprievodca na World of Warcraft - Vzorce a herné mechanika pravidlá a usmernenia pre rozvoj role hrať hry
- Manchester United Park má vytrvalostné vytrvať - NYTimes.com - kórejský futbalista Park Ji-Sung - V stredu večer v Ríme, je Park očakáva sa, že prvou ázijskou hráč na účasť v európskej Lige majstrov Manchester United, keď čelí Barcelona.
- mloss.org - Strojové učenie Open Source Software - Veľký výber open source balíčkov pre strojové učenie, dolovanie dát, štatistické analýzy
- Datacentier ako Computer - André Luiz Barroso a Urs Hölzle 2009 (PDF) - 120 stránok na veľkých hodinách meradle výpočtových od Google. "Tieto nové veľké dátové centrá sú úplne odlišné od tradičných hosting zariadeniach skorších dôb a nemožno vnímať len ako zbierku spoločne umiestnených serverov. Veľké časti hardvérových a softvérových prostriedkov v týchto zariadeniach musí pracovať v zhode s cieľom efektívne prinášať dobré úrovne Internet výkon služby, niečo, čo môže byť dosiahnuté iba holistický prístup k ich návrhu a nasadenie. Inými slovami, musíme zaobchádzať dátové centrá ako jeden masívny sklad mierke počítača (WSC). popíšeme architektúru WSCs, hlavný faktory, ktoré ovplyvňujú ich konštrukciu, prevádzku a nákladovú štruktúru a vlastnosti ich softvér základne. "
- Geeking s Gregom: datacentra je nový mainframe - Ukazovateľ na papieri zo strany spoločnosti Google Luiz Andre Barroso a Urs Hölzle o vývoji výpočtovej meradle skladu a správy a využívania výpočtových zdrojov v modernom datacentre.
Site Admin | 15 mája 2009 | Komentáre sú uzavreté Tu sú moje odkazy na 14.mája až 15.května: - Gratulujeme, Google personál: $ 210k v zisku na hlavu v roku 2008 | Royal Pingdom - Google mal 209.624 dolár zisku na jedného zamestnanca v roku 2008, ktorý prekoná všetky ostatné veľké tech spoločností Pozreli sme sa na, vrátane veľkých hitters ako Microsoft ($ 194k), Apple ($ 151K), Intel ($ 64K) a IBM ($ 30K).
- Štatistické Kurzy dolovania dát - pekná zbierka prezentácií preskúmavaní témy v data miningu a strojového učenia. napr "HillClimbing, simulované žíhanie a genetické algoritmy. Niektoré veľmi užitočné algoritmy, ktoré majú byť použité iba v prípade núdze." Patria klasifikačné algoritmy, ako sú rozhodovacie stromy, neurónové siete, Bayesovský klasifikátormi, SVM a prejímané báze (aka neparametrickej) učenia. Patrí medzi ne regresné algoritmy, ako je multivariačný polynomiálnej regresia, Mars, lokálne vážené regresie, GMDH a neurónových sietí. A ďalšie údaje banskej činnosti, ako je zoskupovanie (zmes modely, k-means a hierarchickej), Bayesovský siete a posilňované učenie.
- Dare Obasanja aka Carnage4Life - Prečo Twitter inžinieri Nenávidieť @ odpovede funkciu - pri pohľade na infraštruktúru réžiu požadované za pokus o zmenu Twitteri na @ odpovede správanie.
- Scratch pomáha deťom si s programom - Gadgetwise Blog - NYTimes.com - Na mojom zozname pre 7. triedy úvodné programovania a analýzy. "Scratch, MIT vyvinutý počítačový programovací jazyk pre deti, je zamerať sa na celom svete show-a-povedať zasadnutí v sobotu."
- jLinq - Javascript Query Language - pre manipuláciu s dátovými súbormi v JavaScripte, niečo ako jQuery
Site Admin | 23.apríla 2009 | Komentáre sú uzavreté Tu sú moje odkazy na 20.apríla až 23.apríla: Site Admin | 19.dubna 2009 | Komentáre sú uzavreté Tu sú moje odkazy na 18.apríla až 19.dubna: - Prečo Programátori Suck v CSS Design - Stefano je Linotype - praktický prístup k CSS pre non-dizajnérmi (programátori).
- The Art & Science of Seductive interakcií - prezentačné zábery na zlepšenie aplikačnej užívateľský zážitok tým, že je hra, ako je (body, úrovne, nedostatok), sociálnej interakcie, a ďalšie nápady.
- Stephen Marsland - Python kód z "strojového učenia: Algoritmické Perspective", rozmanité klastrov a odhad algoritmy.
- Firediff - v prípade Schody - Firediff implementuje zmenu monitor, ktorý zaznamenáva všetky zmeny vykonané Firebug a samotnej aplikácie na CSS a DOM. Tento
poskytuje pohľad na funkčnosť aplikácie, rovnako ako poskytnúť záznam o zmenách, ktoré boli potrebné na ladenie a vyladenie na stránke z displeja. - Crowdsourcing sémantický web | lexanderA .. - "V súčasnej dobe, všetky pokusy o zabezpečenie sémantické metadáta vyžadujú server-side zmeny, čo znamená, že sa musíme spoliehať na strane autorov na ich vykonanie Toto, samozrejme, je hlavnou prekážkou, ale čo keby sme mohli zmeniť? Čo keby sme mohli obísť Autori a majú dav pridať sémantické metadáta existujúcich stránok? "
- Jednoducho, ako dôležité je Valley? Poďme sa pozrieť na niektoré údaje. - Tony Wright dot com - Je Silicon Valley podnikania na konkrétnom modeli na SV? Zoznam akvizícií v rokoch 2007 a 2008.
Site Admin | 10.04.2009 | Komentáre sú uzavreté Tu sú moje odkazy na 9.dubna cez 10.apríla: - Kódovanie Hrôza: Sex, Lies, and Software Development - existujú nejaké programovacie úlohy by ste nemali užívať? Nie preto, že práca nevenovali dosť, mal zlé výhody alebo obmedzené nahor - ale preto, že samotná práca urobil vám to nepríjemné? - Dlhý komentár vlákno o etike a sociálnych otázok okolo pracuje pre porno stránky verzus iné zamestnávateľa.
- Daring Fireball: Ako Blokovať DiggBar - na URL skracovače a blokovanie DiggBarr od rámovanie cieľovej stránky.
- Ako som stratil 50 libier s novým Twitter API - A teraz je to všetko - o vykonávaní zmien potrebných na aktualizáciu Twitter klient aplikácie (Dr Twoot) na najnovšie rozhranie API
- 10 dokumentov, ktoré musíte prečítať | Veda pre SEO . - "Toto je zoznam mojich top 10 voľne dostupných článkov na tému získavanie informácií Všimnite si, že sú dosť staré, ale používané metódy popísané a jej výsledky nie sú vždy zo dňa. Tie, ktoré sú dôležité, však zo, pretože poskytujú dobrý základ k pochopeniu, prečo sú veci tak, ako sú v získavaní informácií v týchto dňoch. "
- Ježiš blinched (alebo: prečo mám rád Zelený štvrtok) - Pistácie je Posterous - "čo zostane so mnou dodnes je biedne ľudstvo Ježiša v príbehoch poslednej večeri, zrady, odopieranie a predovšetkým v Getsemanskej záhrade."
Site Admin | 24.února 2009 | Komentáre sú uzavreté Tu sú moje odkazy na 23.února až 24.února: Google Research vydáva obrovské n-gram dátový súbor získaný z biliónov slov o prečítaní rozsiahle vyhľadávanie Google snímacej úsilie: Spracovali sme 1.011.582.453.213 slová bežiaci text a zverejnilo počty pre všetky 1146580664 piatich slovných sekvencií, ktoré sa objavujú aspoň 40 krát. Existujú 13.653.070 unikátnych slov, po slovách vypustením, ktoré sa objavujú menej ako 200 krát.
Vyzerá to ako len vec pre rozvoj niektoré zaujímavé aplikácie prediktívneho textu, alebo len náhodné data mining. 6-DVD set bude distribuovaný Linguistic Data Consortium , ktorá zbiera a distribuuje zaujímavú reč a textové databázy a vzdelávacie sady. Niektoré ďalšie položky v ich zbierke sú ľudské výpovede z 3000 reproduktory , mapovanie medzi čínske a anglické miesta, organizácie a firemné názvy a transkripcie hovorovej levantského arabskej reči . Aktualizácia Nedeľa 08-06-2006 16:41 PDT: Pozri tiež AOL výskum vydáva 20 miliónov vyhľadávacích dotazov Posledných niekoľko večerov som pracoval cez prieskumnom kópiu PageRank Google a na ďalšie roky , a Amy Langville a Carl Meyer . Na rozdiel od niektorých nedávnych kníh na Google, to nie je práve jednoduché a pútavé letné čítanie. Avšak, ak máte záujem o vyhľadávacie algoritmy, aplikovaná matematika, optimalizácia pre vyhľadávače, alebo uvažujete o budovanie svojej vlastnej vyhľadávač, je to kniha pre vás. Študenti hľadanie a vyhľadávanie informácií literatúre môže uznať autormi, Langville a Meyer, z ich recenziu papier, hlbšie PageRank . Ich nová kniha rozširuje o technickom materiáli predmetu v pôvodnom dokumente, a pridáva mnoho anekdot a pozorovaní v mnohých postranné celom texte. Postranné poznámky poskytujú niekoľko praktických, sociálnych a nedávny historický kontext pre matematiku sú prezentované, vrátane tém ako "PageRank a Link Spamovanie", "Ako vyhľadávače zarobiť peniaze?", "SearchKing verzus Google", a odkaz na jeremy Zawodny je PageRank je mŕtvy príspevok. Tam je tiež nejaký ukážkový kód Matlab a odkazy na webové zdroje v súvislosti s vyhľadávačmi, lineárnej algebry a pásové implementáciách. (Ctižiadostivý vyhľadávač staviteľ bude chcieť preskúmať niektoré z týchto zdrojov a inde sa dozvedieť o web roboti a veľkého rozsahu, čo nie je témou tohto dokumentu.) Táto kniha môže slúžiť ako vynikajúci úvod k hľadanie algoritmov pre niekoho s programovaním alebo matematiky pozadia, pokrývajúca PageRank na dĺžku, spolu s niekoľkými diskusiou HITS, salsa, a antispamových prístupov. Niektoré aktuálne témy, ako napríklad clustering, personalizácie a povesti (TrustRank / SpamRank) tu nie sú upravené, hoci oni sú stručne popísané. Bibliografia a webové zdroje poskytujú komplexný zoznam zdrojov pre ďalší výskum (nahor okolo roku 2004), ktoré Vám pomôžu bod motivované čitateľa správnym smerom. Som si istý, že to bude populárny na Google a Yahoo, a možno aj na rôznych agentúr SEO rovnako. Tí s menším záujmom o vnútornostiach vyhľadávacie technológie sa môžu tešiť viac príležitostné letné čítanie o Google, skúste John Battelle to hľadať . Alebo si Langville a Meyersa knihy, preskočte matematiku, a len prečítať postranných panelov. Pozri tiež: A čítanie na PageRank a vyhľadávacie algoritmy , moja del.icio.us odkazy na vyhľadávacie algoritmy Niekedy kliknite na náhodné "hlboké" stránke s výsledkami vyhľadávania, či niečo zaujímavého objavia, z dôvodu obmedzenia popularity a PageRank pre niektoré otázky. Paul Kedrosky poukazuje na nedávne papiera z CMU čo naznačuje, náhodne miešanie v niektorých nízkych poradie strán môže zlepšiť výsledky hľadania v priebehu času. Bohužiaľ, korelácia medzi popularitou a kvalitou je veľmi slabá pre novo vytvorené stránky, ktoré majú málo návštevy a / alebo in-odkazy. Horšie je, že proces, pri ktorom nové, kvalitné stránky hromadia popularita je vlastne inhibovaná pomocou vyhľadávačov. Vzhľadom k tomu, vyhľadávače rozdeľovať obmedzený počet kliknutí za jednotku času medzi veľké počet strán, a to vždy zoznam veľmi populárne stránky na horné a pretože používatelia zvyčajne zameriavajú svoju pozornosť na top málo výsledkov, novo vytvorené, ale kvalitné stránky sú "vyradení". Navrhujeme jednoduché a elegantné riešenie pre tento problém: zavedenie riadené množstvo náhodnosti do rebríčka výsledkov hľadania metódy. Pritom ponúka nové stránky šancu preukázať svoju cenu, aj keď jasne použitie príliš veľa náhodnosti bude rozkladať výsledok a kvalitu zrušiť všetky výhody dosiahnuté. Z toho dôvodu, že je kompromisom medzi prieskumu odhadnúť kvalitu nových stránok a využívanie stránok, ktoré boli známe, že sú vysoko kvalitné. Zaoberáme sa tento kompromis ako analyticky a simuláciou, v rámci hospodárskej objektívne funkcie na základe Súhrnným výsledkom kvalitnej odpis. My ukazujú, že mierne množstvo náhodnosti vedie na zlepšenie výsledkov vyhľadávania.
Link: Miešanie Skladaný Deck: Prípad pre čiastočne Randomizovaná Poradie výsledkov vyhľadávania ,  Prasa , aka "Prasa" je nový webový nástroj pre skúmanie PageRank priradený na začiatok výsledkov vyhľadávania na Google, Yahoo a MSN Search. Hľadané výrazy sa zadávajú obvyklým spôsobom, ale kombinovaný zoznam výsledkov zo všetkých troch vyhľadávačov je uvedený v poradí PageRank, od najvyššej k najnižšej, spolu s vyhľadávačmi a výsledok hodnosti.
Skúšal som niekoľko vyhľadávacích dotazov, ako napríklad "web 2.0", "Palo Alto", "vyhľadávací algoritmus", "Martin Luther King", a bol prekvapený, ako rýchlo sa PageRank 0 strán začne otáčať vo výsledkoch vyhľadávania. Pre "web 2.0", horná výsledok na Yahoo je Wikipedia vstup na Web 2.0, ktorá sa zdá byť rozumné, ale je to tiež stránku PR0, čo je pre mňa prekvapujúce. Ako ďalší experiment, som sa snažil niekoľko kľúčových slov z tohto zoznamu Najvyššie platená hľadaných výrazov s všeobecne podobnými výsledkami. PageRank sa používa iba Google, ktorý už používa pôvodné PageRank algoritmus pre poradí výsledky, ale je to stále zaujímavé sledovať najlepšie výsledky hľadania z troch hlavných vyhľadávačov ustanovených sa skóre PR dostať nejaký zmysel stránky väzby. Pozri tiež: Som zakopla o odkaz na zaujímavú knihu o hackingu PageRank pri pohľade na niektoré nesúvisiace povesťou na blogu Iana McAllisterovy. Nedatované papier s názvom " Poruchy PageRank / Niečo je zle s matematického modelu Google ", a Hillel Tal-Ézer, profesor na College of Academic Tel Avivu Yaffo.
Poukazuje na chybu v algoritme PageRank Google, ktorý spôsobuje "prepadom" stránky, ktoré nie sú pevne spojené s hlavnou webovej grafu majú nereálne význam. Autor ďalej pokračuje vysvetlením, nový algoritmus s rovnakým zložitosti pôvodnú PageRank algoritmu, ktorý rieši tento problém.
Po rýchlom preštudovaní tohto, zdá sa popísať jednu z metód, ktoré boli populárne medzi niektorými optimalizáciu pre vyhľadávače chvíľu späť, v ktorom by sa odkaz na farmách byť konštruované a ukázal na jednu stránku s žiadnymi odchádzajúce odkazy, v snahe umelo zvýšiť na cieľovú stránku v hľadaní rebríčku. Táto technika je menej účinná než v minulosti, pretože Google naďalej aktualizovať indexovanie a hodnotenie algoritmy v reakcii na úspech odkaze spamu a ďalšie poradie manipulácie. Analýza odkaz vzorov ( SpamRank , odkaz hmotnosť ) a webe povesti ( Hilltop ) môže podstatne znížiť účinok je tu uvedené. Avšak, to je pekné vidieť, kvantitatívny popis problému. Pozri tiež: A čítanie na PageRank a vyhľadávacích algoritmov Greg Linden sa pozrieť na Langville a Meyer hlbšie PageRank , jeden z článkov na mojom krátkom zozname PageRank čítania a pozerať sa do niektorej z týchto oblastiach som o tom premýšľal. Na pravdepodobnosťami prechodu cez odkaz v odkaze grafe, papier je príklad na str 338 predpokladá, že surferi sú rovnako pravdepodobné, že kliknete na odkazy kdekoľvek na stránke, ktorá je jasne sporný predpoklad. Avšak, na konci tejto stránky, oni stručne uvádza, že "akýkoľvek vhodný rozdelenia pravdepodobnosti" možno použiť namiesto vrátane jeden pochádzal z "protokoloch webového použitie". Podobne, oddiel 6.2 opisuje prispôsobenie vektor - pravdepodobnosti skákanie na nespárované stránku v grafe, skôr ako nasledovať odkaz - a stručne naznačuje, že tento vektor personalizácia dá určiť z aktuálnych dát použitia. V skutočnosti, aspoň čo som si prečítal, že papier sa zdá naznačovať, že by bolo ideálne pre oboch z nich - pravdepodobnosť, že po spojení a vektor Personalizácia je pravdepodobnosť skákanie na stránku - napríklad na základe skutočných dát použitie. Zdá sa, že naznačujú, že by výnos PageRank, ktorý by bol najlepší odhad hľadajúceho záujmu stránke.
Niektoré myšlienky:
1.. Cieľom hľadanie rebríčku je identifikovať tie najrelevantnejšie výsledky pre vstupné dotazu. Ak ponecháme stranou otázku merítka chvíľu sa zdá, že sú tu dobré možnosti, ako začleniť informácie o zámere, kontextu, a povesť vďaka prechodu a personalizácie vektor. Nemáme vlastne starať o "PageRank" sám o sebe, ale skôr o získanie príslušnej výsledok pred používateľom. Nebezpečenstvo pri používaní popularity sám (dopravné údaje o skutočných klikli odkazov) je vytvára rýchlu slučku kladnej spätnej väzby, ktorá môže odrážať len to, čo je dobre propagoval skôr než relevantná. Technorati je zvlášť náchylné na tento účel, pretože ľudia klikajú na vrchole otázok, len aby videli, čo sú okolo. Ďalším príkladom je, že Langville a Meyer papier je celkom dobrá, ale odkazy na ňu sú pochované hlboko v stránke s výsledkami vyhľadávania pre "PageRank". Takže ... Myslím, že môžeme dobre využiť skutočné využitie dát, ale iba niektoré aplikácie (napr. "sledovačov buzz"), sa môžu spoľahnúť na využitie dát len (alebo prevažne). Podmienené alebo osobné hodnotenie by bolo nákladné počítať v globálnom meradle, ale môže tiež dať užitočné výsledky, ak boli použité na výrazne redukovaná sada príslušných stranách. 2.. V povesti a kontextové vyhľadávaciu aplikáciu, môžu untraversed odchádzajúce odkazy stále pomáhajú identifikovať, čo je "susedstve" informácií je potenciálne súvisiace s danú stránku. Neviem, koľko je to vlastne používa už. Som videl obrovské množstvo prichádzajúcich komentárovému spamu blábol s odkazmi na skutočných firiem (Apple, Macromedia, BBC, ABC News), čo nedáva moc zmysel, ak sa spameri, že to pomôže ich obsah "cítiť lepšie". Bez odkazy na "tradičné" obsah, spam obsah je zistiteľná prepojenie väčšinou s inými známymi nevyžiadaným obsahom, ktorý sa snaží nebyť spojený s tým, skutočné stránky. 3.. Ak sa domnievate, že vyhľadávacie užívatelia majú nejaký zámer vodičský ich výber odkazov, ktoré nasledujú, je možné vytvoriť podmienené rozdelenie prechod stránky, skôr než rovnomerne náhodné jeden. V tomto duchu som narazil na demo ("myslenie") a papier z Yahoo na filtri pre označovanie prednosť "komerčné" verzus "nekomerčných" výsledkov vyhľadávania. Myslím, že by to mohlo byť praktické stavať oveľa menšie zbierky téma-domain-konkrétne stránky s témou špecifické poradí, a padať späť na všeobecné poradí modelu pre ďalšie výsledky hľadania. 4. Myslím, že vyhľadávače sa neustále mení očakávané správanie užívateľov v priebehu času, takže rovnomerne náhodne predpoklad ešte členitejšie. Keď používatelia vyčerpať svoj záujem o danej odkaz cestu, oni sú pravdepodobne preskočiť na osobné, známeho URL alebo hľadať znova a ísť do inej lokálne riadený výsledku vyhľadávania. To by prekrútiť distribúcia ďalej v prospech podmieneného rebríčku modelu, skôr ako jednoducho náhodný jeden. Ak ste sa prihlásili k odberu plné krmiva, zistíte, zbieral som nejaké základné čítaní PageRank, vyhľadávanie pásovým vyhľadávanie Personalizácia a detekciu spamu v každodennom odkazoch včera . Tu sú niektoré odkazy, ktoré stojí za to spomenúť pre tých, ktorí majú záujem na vnútornosti vyhľadávanie všeobecne a najmä Google. -
Hlbšie PageRank (PDF) - Internet Matematika sv. 1, č 3: 335-380 Amy N. Langville a Carl D. Meyer. Podrobný 46-stranový prehľad PageRank a hľadanie analýzy. To je najlepší technický úvod som narazil tak ďaleko, a má dlhý zoznam odkazov, ktoré tiež stojí mimo kontroly.
- Online Reputation systémy: Náklady na útok PageRank (PDF) -
Andrew Clausen. Detailný pohľad by na hodnoty a nákladov na povesti a špekulácie o tom, koľko to stojí kúpiť lepšie umiestnenie prostredníctvom nevyžiadanej pošty, odkaz sprostredkovanie, apod Niekde v tomto dokumente alebo príbuznú notu Tvrdí, že zvýšenie vyhľadávač poradí je teoreticky príliš nákladná byť účinné, ale ukázalo sa, že nie je tento prípad, ale základné myšlienky okolo povesť sú zaujímavé - SpamRank - Plne automatické Link Detekcia spamu - Nedokončená (PDF) -
András A. Benczúr, Károly Csalogány, Tamás Sarlós, Máté Uher. Navrhuje SpamRank metrika založená na osobnej a miestnej PageRank PageRank distribúcia prepojenie lokalít. - Detekcia duplicitných a okolí duplicitné súbory - William Pugh prezentačné zábery na US patente 6658423 (pridelené na Google) pre priblíženie pri použití pásového oparu (posuvné okenné časti textu) k porovnání obsahu podobnosti. Táto práca bola vykonaná v priebehu stáže na Google a nevie, či tento konkrétny metóda sa používa pri výrobe (vs iné metódy).
Pozerám sa na pomerne úzkom vyhľadávaciu aplikáciu v súčasnej dobe, ale hlavná myšlienka využitia subjektívne povesť personalizovať výsledky vyhľadávania a odfiltrovať spam obsah sa zdá v podstate zdravé, a to najmä ak sieť dôvery (sociálne a profesionálne upravovať) ISN " t je príliš veľký. | |