Tagy

Záložky pre 23. januára cez 30 januára

Tu sú moje odkazy na 23. januára cez 30. januára:

  • Leonarda da Vinciho životopis vysvetľuje, prečo je človek, renesančný Pre prácu - Davinci - Gizmodo - Zrazu v histórii, a to aj da Vinci sám mal na pero životopis vysvetliť, prečo bol uchádzačom. Tu je preklad jeho listu vojvodu z Milána, kresliť mnoho jeho talent a schopnosti. "Väčšina Preslávený Pánovi, keď sa dostatočne zohľadnený vzorkami a všetkých tých, ktorí hlásajú sami kvalifikované contrivers hudobných nástrojov vojny, a že vynález a funkčnosti týchto nástrojov nie je nič odlišné od tých, ktoré sa bežne používajú: Budem sa snažiť, aby boli dotknuté niekto iný, vysvetľovať, aby Vaša Excelencia, ukazovať svoju moc a autoritu svoje tajomstvo, a ponúka im, aby svoje najlepšie potešenie a aprobačné pracovať s účinnosťou u oportúnnych momentov na všetky tie veci, ktoré z časti, musí byť stručne uvedenými nižšie .. Tento dokument, napísaný kedy da Vinci bolo 30 rokov, je v skutočnosti viac, než motivačný list životopis, necháva mnoho z jeho umeleckých úspechov, a namiesto toho sa zameriava na to, čo môže poskytnúť pre vojvodu v technológiách vojny.
  • jsMath: jsMath Home Page - Balíček jsMath poskytuje metódu, vrátane matematiky v HTML stránok, ktoré funguje vo viacerých prehliadačoch pod Windows, Macintosh OS X, Linux a ďalšie Unix. To prekonáva rad nedostatkov tradičného spôsobu použitia obrázkov reprezentovať matematiku: jsMath používa natívne písma, takže veľkosť, keď zmeníte veľkosť textu v prehliadači, vytlačí v plnom rozlíšení vašej tlačiarne a Nemusíte čakať na desiatky snímok, ktoré majú byť stiahnuté, aby bolo vidieť matematiku na webovej stránke. Tam sú tiež výhody pre webové stránky autorov, pretože nie je nutné predspracovanie vaše webové stránky vytvárať žiadne obrázky a matematika sa zadáva vo forme TeX, takže je ľahké vytvárať a udržiavať svoje webové stránky. Aj keď to funguje najlepšie s TeXu nainštalovaný, bude jsMath uchýliť sa späť ku kolekcii založeného na obrazu písma (ktorý môže ešte byť zmenšený alebo vytlačiť vo vysokom rozlíšení), alebo písma v kódovaní Unicode, keď TeXu nie sú k dispozícii.
  • Josh na webe »Blog Archive» Zneužitie Cache: Sledovanie užívateľov bez cookies - Ak chcete sledovať užívateľa, som využiť troch URL: kontajner, ktorý môže byť akejkoľvek webovej stránky, podložka súbor, ktorý obsahuje unikátny kód, a na sledovanie strana, ktorá ukladá (v tomto prípade displeja) požiadavky. Trik je v tom, cache prehliadača podložka súbor na neurčito. Ak je požadovaný súbor pre prvý - a jediný - doba jedinečný identifikátor je vložiť na stránku. Podložka vloží sledovanie stránku odovzdaním jedinečný identifikátor zakaždým, keď je načítaný. Pozrite sa na zdrojový kód.

    Jedna užitočná vec o tejto metóde je, že JavaScript nie je nevyhnutne nutné. Používa sa iba odovzdať správu a odkazujúcich na tracker. Asi by bolo možné nahradiť iframe s CSS a obrázky získať JS-free HTTP logovanie, ale stratí schopnosť ukladať správy tak ľahko.

  • Panopticlick - Váš prehliadač prstov sa zdá byť jedinečný medzi 342.943 testované tak ďaleko.

    V súčasnej dobe odhadujeme, že váš prehliadač má odtlačok prsta, ktorý sprostredkuje aspoň 18,39 bitov identifikačné informácie.

    Meranie sme použili na získanie tohto výsledku sú uvedené nižšie. Môžete si prečítať viac o metodike tu, a o niektorých obrany proti odtlačkov prstov tu

  • Benlog »Nie Hash Secrets - Keď vám poviem, že SHA1 (foo) je X, potom to dopadá v mnohých prípadoch byť docela jednoduché pre vás zistiť, čo SHA1 (foo | | bar) je. Nemusíte vedieť, čo foo. pretože SHA1 je iteratívny a pracuje blok po bloku, ak viete, že hash foo, potom môžete rozšíriť výpočet určiť hash foo bar | |

    To znamená, že ak viete, SHA1 (tajnej | | správy), si môžete spočítať SHA1 (tajnej | | pošta | | ČOKOĽVEK), ktorý je platný podpis správy | | nič. Takže ako tento systém, stačí vidieť jeden podpis od SuperAnnoyingPoke, potom môžete vydávať SuperAnnoyingPoke pre mnoho ďalších správ.

    Čo by ste mali používať, je HMAC: Hash-funkciu autentizačný kód správy. Nemusíte vedieť, ako presne to funguje, len treba vedieť, že HMAC je špeciálne postavený pre autentizačný kódy správ a use case z SuperAnnoyingPoke / MyFace. Pod kapotou, čo sa to deje, je približne dva hashe, s tajomstvom kombináciu po prvom hash

  • Data.gov - Najlepšie Dátové sady: Otvorený Nariadenie vlády agentúry - Súbory údajov požadovaných v rámci otvorenej nariadenia vlády až do konca dňa 22. januára 2010. Sloboda informácií guľatiny zákona vyžiadanie, financií TARP a derivátových záznamy o aktivite, kriminalita, výnosy poľnohospodárstva databáz.

Záložky pre 17.ledna cez 20 januára

Tu sú moje odkazy na 17.ledna cez 20.januára:

  • PG & E Elektrická sústava výpadku Mapa - Táto mapa ukazuje aktuálne výpadky v našom 70.000 štvorcových kilometrov-servisnej oblasti. Ak chcete zobraziť ďalšie podrobnosti o výpadku, vrátane príčinu a predpokladaný čas obnovy, kliknite na farebne kódované ikony spojené s týmto výpadkom.
  • Twitter.com vs Twitter Ekosystém - Fred Wilson poznámky k niektorým údajom z John Borthwick uvedením Twitter využívaniu ekosystémov = 3-5x Twitter.com priamo.

    "Johnov graf odhaduje, že Twitter.com je o 20 mm Uvs mesiac v USA (comScore má to na 60mm Uvs po celom svete) a ekosystém Twitter asi 60 mm Uvs v USA.

    To hovorí, že vo všetkých webových služieb, a to nielen AVC, ekosystém Twitter je asi 3x Twitter.com. A na tomto blogu, ktorého publikum je určite pokročilí používatelia, že pomer je 5x. "

  • Chris Walshaw :: Výskum :: Rozdeľovací Archív - Vitajte na University of Greenwich Graf Delenie archívu. Archív sa skladá z najlepších oddielov nájdených aktuálne pre celú radu grafov a jeho cieľom je poskytnúť meradlo, podľa ktorého možno Algoritmy majú byť testované, a zdroj pre experimentovanie.

    Oddiel archív je v prevádzke od roku 2000 a zahŕňa výsledky z väčšiny hlavných grafu delenie softvérových balíkov. Vedci rozvojovej experimentálne Algoritmy pravidelne predkladať nové oblasti pre prípadné zaradenie.

    Väčšina testovacích grafov vyplývajú z typických predelové aplikácií, hoci archív obsahuje výsledky vypočítané pre gra-sfarbenie testovacej súpravy [Wal04] obsiahnuté v samostatnej prílohe.

    Archív bol pôvodne založený ako súčasť výskumného projektu do vysoko kvalitných priečok a autorov, ktorí chcú postúpiť k rozdeleniu archívom, by mal citovať prácu [SWC04].

  • Twitter je prechádzanie «Produkt Guy - "zoznam udalostí, ktoré ovplyvnili čas načítania stránky produktu Twitteri, rozlišovať medzi celkovým prestoje, a čiastočné výpadky a nedostupnosť informácií, na základe spoločných príspevkov na Twitters blogu.

    http://status.twitter.com/archive

    Snažila som sa, aby to zdvojnásobiť počítať nejaké problémy, ale bolo to ťažké, pretože mnohé z problémov, sa vyskytujú tak často, a to je často ťažké rozlíšiť, z týchto miest stave blog sám, medzi pretrvávajúci problém prežívajú alebo pevné, z toho o novom vzniku podobné alebo rovnaké problémy. Okrem toho som tiež vylúčil vplyv na čas načítania stránky vyplývajúce z plánovanej údržby / prestojov - dobu, po ktorú by užívateľ očakávania sa najviac zladené s produktom sľub času načítania stránky. "

  • Soundboard.com - Soundboard.com je web najväčší katalóg voľných zvukov a soundboards - vo viac než 20 kategóriách, pre mobil alebo PC. 252858 zadarmo zvuky na 17171 soundboards z filmov cez šport, zvukové efekty, televízia, celebrity, história a cestovanie. Alebo stavať, prispôsobiť a spravovať vložiť svoje vlastné

Záložky pre 30.května cez 31.května

Tu sú moje odkazy na 30.května až 31.května:

Záložky pre 24.května cez 27.května

Tu sú moje odkazy na 24.května až 27.května:

  • Vzorce a herné mechanika - WoWWiki - Váš sprievodca na World of Warcraft - Vzorce a herné mechanika pravidlá a usmernenia pre rozvoj role hrať hry
  • Manchester United Park má vytrvalostné vytrvať - NYTimes.com - kórejský futbalista Park Ji-Sung - V stredu večer v Ríme, je Park očakáva sa, že prvou ázijskou hráč na účasť v európskej Lige majstrov Manchester United, keď čelí Barcelona.
  • mloss.org - Strojové učenie Open Source Software - Veľký výber open source balíčkov pre strojové učenie, dolovanie dát, štatistické analýzy
  • Datacentier ako Computer - André Luiz Barroso a Urs Hölzle 2009 (PDF) - 120 stránok na veľkých hodinách meradle výpočtových od Google. "Tieto nové veľké dátové centrá sú úplne odlišné od tradičných hosting zariadeniach skorších dôb a nemožno vnímať len ako zbierku spoločne umiestnených serverov. Veľké časti hardvérových a softvérových prostriedkov v týchto zariadeniach musí pracovať v zhode s cieľom efektívne prinášať dobré úrovne Internet výkon služby, niečo, čo môže byť dosiahnuté iba holistický prístup k ich návrhu a nasadenie. Inými slovami, musíme zaobchádzať dátové centrá ako jeden masívny sklad mierke počítača (WSC). popíšeme architektúru WSCs, hlavný faktory, ktoré ovplyvňujú ich konštrukciu, prevádzku a nákladovú štruktúru a vlastnosti ich softvér základne. "
  • Geeking s Gregom: datacentra je nový mainframe - Ukazovateľ na papieri zo strany spoločnosti Google Luiz Andre Barroso a Urs Hölzle o vývoji výpočtovej meradle skladu a správy a využívania výpočtových zdrojov v modernom datacentre.

Záložky pre 14.mája cez 15.května

Tu sú moje odkazy na 14.mája až 15.května:

  • Gratulujeme, Google personál: $ 210k v zisku na hlavu v roku 2008 | Royal Pingdom - Google mal 209.624 dolár zisku na jedného zamestnanca v roku 2008, ktorý prekoná všetky ostatné veľké tech spoločností Pozreli sme sa na, vrátane veľkých hitters ako Microsoft ($ 194k), Apple ($ 151K), Intel ($ 64K) a IBM ($ 30K).
  • Štatistické Kurzy dolovania dát - pekná zbierka prezentácií preskúmavaní témy v data miningu a strojového učenia. napr "HillClimbing, simulované žíhanie a genetické algoritmy. Niektoré veľmi užitočné algoritmy, ktoré majú byť použité iba v prípade núdze." Patria klasifikačné algoritmy, ako sú rozhodovacie stromy, neurónové siete, Bayesovský klasifikátormi, SVM a prejímané báze (aka neparametrickej) učenia. Patrí medzi ne regresné algoritmy, ako je multivariačný polynomiálnej regresia, Mars, lokálne vážené regresie, GMDH a neurónových sietí. A ďalšie údaje banskej činnosti, ako je zoskupovanie (zmes modely, k-means a hierarchickej), Bayesovský siete a posilňované učenie.
  • Dare Obasanja aka Carnage4Life - Prečo Twitter inžinieri Nenávidieť @ odpovede funkciu - pri pohľade na infraštruktúru réžiu požadované za pokus o zmenu Twitteri na @ odpovede správanie.
  • Scratch pomáha deťom si s programom - Gadgetwise Blog - NYTimes.com - Na mojom zozname pre 7. triedy úvodné programovania a analýzy. "Scratch, MIT vyvinutý počítačový programovací jazyk pre deti, je zamerať sa na celom svete show-a-povedať zasadnutí v sobotu."
  • jLinq - Javascript Query Language - pre manipuláciu s dátovými súbormi v JavaScripte, niečo ako jQuery

Záložky pre 20.apríla až 23.apríla

Tu sú moje odkazy na 20.apríla až 23.apríla:

Záložky pre 18.apríla cez 19.dubna

Tu sú moje odkazy na 18.apríla až 19.dubna:

Záložky pre 9.apríla cez 10.apríla

Tu sú moje odkazy na 9.dubna cez 10.apríla:

Záložky pre 23.února až 24.února

Tu sú moje odkazy na 23.února až 24.února:

Už čoskoro na DVD - 1146580664 bežné päť-slovo sekvencie

Google Research vydáva obrovské n-gram dátový súbor získaný z biliónov slov o prečítaní rozsiahle vyhľadávanie Google snímacej úsilie:

Spracovali sme 1.011.582.453.213 slová bežiaci text a zverejnilo počty pre všetky 1146580664 piatich slovných sekvencií, ktoré sa objavujú aspoň 40 krát. Existujú 13.653.070 unikátnych slov, po slovách vypustením, ktoré sa objavujú menej ako 200 krát.

Vyzerá to ako len vec pre rozvoj niektoré zaujímavé aplikácie prediktívneho textu, alebo len náhodné data mining. 6-DVD set bude distribuovaný Linguistic Data Consortium , ktorá zbiera a distribuuje zaujímavú reč a textové databázy a vzdelávacie sady. Niektoré ďalšie položky v ich zbierkeľudské výpovede z 3000 reproduktory , mapovanie medzi čínske a anglické miesta, organizácie a firemné názvy a transkripcie hovorovej levantského arabskej reči .

Aktualizácia Nedeľa 08-06-2006 16:41 PDT: Pozri tiež AOL výskum vydáva 20 miliónov vyhľadávacích dotazov

Google PageRank and Beyond - letné čítanie pre vyhľadávanie hackermi

Posledných niekoľko večerov som pracoval cez prieskumnom kópiu PageRank Google a na ďalšie roky , a Amy Langville a Carl Meyer . Na rozdiel od niektorých nedávnych kníh na Google, to nie je práve jednoduché a pútavé letné čítanie. Avšak, ak máte záujem o vyhľadávacie algoritmy, aplikovaná matematika, optimalizácia pre vyhľadávače, alebo uvažujete o budovanie svojej vlastnej vyhľadávač, je to kniha pre vás.

Študenti hľadanie a vyhľadávanie informácií literatúre môže uznať autormi, Langville a Meyer, z ich recenziu papier, hlbšie PageRank . Ich nová kniha rozširuje o technickom materiáli predmetu v pôvodnom dokumente, a pridáva mnoho anekdot a pozorovaní v mnohých postranné celom texte. Postranné poznámky poskytujú niekoľko praktických, sociálnych a nedávny historický kontext pre matematiku sú prezentované, vrátane tém ako "PageRank a Link Spamovanie", "Ako vyhľadávače zarobiť peniaze?", "SearchKing verzus Google", a odkaz na jeremy Zawodny je PageRank je mŕtvy príspevok. Tam je tiež nejaký ukážkový kód Matlab a odkazy na webové zdroje v súvislosti s vyhľadávačmi, lineárnej algebry a pásové implementáciách. (Ctižiadostivý vyhľadávač staviteľ bude chcieť preskúmať niektoré z týchto zdrojov a inde sa dozvedieť o web roboti a veľkého rozsahu, čo nie je témou tohto dokumentu.)

Táto kniha môže slúžiť ako vynikajúci úvod k hľadanie algoritmov pre niekoho s programovaním alebo matematiky pozadia, pokrývajúca PageRank na dĺžku, spolu s niekoľkými diskusiou HITS, salsa, a antispamových prístupov. Niektoré aktuálne témy, ako napríklad clustering, personalizácie a povesti (TrustRank / SpamRank) tu nie sú upravené, hoci oni sú stručne popísané. Bibliografia a webové zdroje poskytujú komplexný zoznam zdrojov pre ďalší výskum (nahor okolo roku 2004), ktoré Vám pomôžu bod motivované čitateľa správnym smerom. Som si istý, že to bude populárny na Google a Yahoo, a možno aj na rôznych agentúr SEO rovnako.

Tí s menším záujmom o vnútornostiach vyhľadávacie technológie sa môžu tešiť viac príležitostné letné čítanie o Google, skúste John Battelle to hľadať . Alebo si Langville a Meyersa knihy, preskočte matematiku, a len prečítať postranných panelov.

Pozri tiež: A čítanie na PageRank a vyhľadávacie algoritmy , moja del.icio.us odkazy na vyhľadávacie algoritmy

Náhodne skúmanie dlhý chvost výsledkov vyhľadávania

Niekedy kliknite na náhodné "hlboké" stránke s výsledkami vyhľadávania, či niečo zaujímavého objavia, z dôvodu obmedzenia popularity a PageRank pre niektoré otázky.

Paul Kedrosky poukazuje na nedávne papiera z CMU čo naznačuje, náhodne miešanie v niektorých nízkych poradie strán môže zlepšiť výsledky hľadania v priebehu času.

Bohužiaľ, korelácia medzi popularitou a kvalitou
je veľmi slabá pre novo vytvorené stránky, ktoré majú málo
návštevy a / alebo in-odkazy. Horšie je, že proces, pri ktorom nové,
kvalitné stránky hromadia popularita je vlastne inhibovaná
pomocou vyhľadávačov. Vzhľadom k tomu, vyhľadávače rozdeľovať
obmedzený počet kliknutí za jednotku času medzi veľké
počet strán, a to vždy zoznam veľmi populárne stránky na
horné a pretože používatelia zvyčajne zameriavajú svoju pozornosť na
top málo výsledkov, novo vytvorené, ale kvalitné
stránky sú "vyradení".

Navrhujeme jednoduché a elegantné riešenie pre
tento problém: zavedenie riadené
množstvo náhodnosti do rebríčka výsledkov hľadania
metódy. Pritom ponúka nové stránky šancu
preukázať svoju cenu, aj keď jasne použitie príliš
veľa náhodnosti bude rozkladať výsledok a kvalitu
zrušiť všetky výhody dosiahnuté. Z toho dôvodu, že je
kompromisom medzi prieskumu odhadnúť kvalitu
nových stránok a využívanie stránok, ktoré boli
známe, že sú vysoko kvalitné. Zaoberáme sa tento kompromis
ako analyticky a simuláciou, v rámci
hospodárskej objektívne funkcie na základe
Súhrnným výsledkom kvalitnej odpis. My
ukazujú, že mierne množstvo náhodnosti vedie
na zlepšenie výsledkov vyhľadávania.

Link:
Miešanie Skladaný Deck: Prípad pre čiastočne
Randomizovaná Poradie výsledkov vyhľadávania ,

Prasa - PageRank asistovanej vyhľadávače - nákupný rebríčku na Google, Yahoo a MSN

page rank asistovanej vyhľadávač
Prasa , aka "Prasa" je nový webový nástroj pre skúmanie PageRank priradený na začiatok výsledkov vyhľadávania na Google, Yahoo a MSN Search. Hľadané výrazy sa zadávajú obvyklým spôsobom, ale kombinovaný zoznam výsledkov zo všetkých troch vyhľadávačov je uvedený v poradí PageRank, od najvyššej k najnižšej, spolu s vyhľadávačmi a výsledok hodnosti.

Skúšal som niekoľko vyhľadávacích dotazov, ako napríklad "web 2.0", "Palo Alto", "vyhľadávací algoritmus", "Martin Luther King", a bol prekvapený, ako rýchlo sa PageRank 0 strán začne otáčať vo výsledkoch vyhľadávania. Pre "web 2.0", horná výsledok na Yahoo je Wikipedia vstup na Web 2.0, ktorá sa zdá byť rozumné, ale je to tiež stránku PR0, čo je pre mňa prekvapujúce.

Ako ďalší experiment, som sa snažil niekoľko kľúčových slov z tohto zoznamu Najvyššie platená hľadaných výrazov s všeobecne podobnými výsledkami.

PageRank sa používa iba Google, ktorý už používa pôvodné PageRank algoritmus pre poradí výsledky, ale je to stále zaujímavé sledovať najlepšie výsledky hľadania z troch hlavných vyhľadávačov ustanovených sa skóre PR dostať nejaký zmysel stránky väzby.

Pozri tiež:

Prečo Link Farmy (slúži k) Pracovný

Som zakopla o odkaz na zaujímavú knihu o hackingu PageRank pri pohľade na niektoré nesúvisiace povesťou na blogu Iana McAllisterovy. Nedatované papier s názvom " Poruchy PageRank / Niečo je zle s matematického modelu Google ", a Hillel Tal-Ézer, profesor na College of Academic Tel Avivu Yaffo.

Poukazuje na chybu v algoritme PageRank Google, ktorý spôsobuje "prepadom" stránky, ktoré nie sú pevne spojené s hlavnou webovej grafu majú nereálne význam. Autor ďalej pokračuje vysvetlením, nový algoritmus s rovnakým zložitosti pôvodnú PageRank algoritmu, ktorý rieši tento problém.

Po rýchlom preštudovaní tohto, zdá sa popísať jednu z metód, ktoré boli populárne medzi niektorými optimalizáciu pre vyhľadávače chvíľu späť, v ktorom by sa odkaz na farmách byť konštruované a ukázal na jednu stránku s žiadnymi odchádzajúce odkazy, v snahe umelo zvýšiť na cieľovú stránku v hľadaní rebríčku.

Táto technika je menej účinná než v minulosti, pretože Google naďalej aktualizovať indexovanie a hodnotenie algoritmy v reakcii na úspech odkaze spamu a ďalšie poradie manipulácie. Analýza odkaz vzorov ( SpamRank , odkaz hmotnosť ) a webe povesti ( Hilltop ) môže podstatne znížiť účinok je tu uvedené. Avšak, to je pekné vidieť, kvantitatívny popis problému.

Pozri tiež: A čítanie na PageRank a vyhľadávacích algoritmov

Personalizácie, úmysly a úpravy PageRank výpočty

Greg Linden sa pozrieť na Langville a Meyer hlbšie PageRank , jeden z článkov na mojom krátkom zozname PageRank čítania a pozerať sa do niektorej z týchto oblastiach som o tom premýšľal.

Na pravdepodobnosťami prechodu cez odkaz v odkaze grafe, papier je príklad na str 338 predpokladá, že surferi sú rovnako pravdepodobné, že kliknete na odkazy kdekoľvek na stránke, ktorá je jasne sporný predpoklad. Avšak, na konci tejto stránky, oni stručne uvádza, že "akýkoľvek vhodný rozdelenia pravdepodobnosti" možno použiť namiesto vrátane jeden pochádzal z "protokoloch webového použitie".

Podobne, oddiel 6.2 opisuje prispôsobenie vektor - pravdepodobnosti skákanie na nespárované stránku v grafe, skôr ako nasledovať odkaz - a stručne naznačuje, že tento vektor personalizácia dá určiť z aktuálnych dát použitia.

V skutočnosti, aspoň čo som si prečítal, že papier sa zdá naznačovať, že by bolo ideálne pre oboch z nich - pravdepodobnosť, že po spojení a vektor Personalizácia je pravdepodobnosť skákanie na stránku - napríklad na základe skutočných dát použitie. Zdá sa, že naznačujú, že by výnos PageRank, ktorý by bol najlepší odhad hľadajúceho záujmu stránke.

Niektoré myšlienky:

1.. Cieľom hľadanie rebríčku je identifikovať tie najrelevantnejšie výsledky pre vstupné dotazu. Ak ponecháme stranou otázku merítka chvíľu sa zdá, že sú tu dobré možnosti, ako začleniť informácie o zámere, kontextu, a povesť vďaka prechodu a personalizácie vektor. Nemáme vlastne starať o "PageRank" sám o sebe, ale skôr o získanie príslušnej výsledok pred používateľom. Nebezpečenstvo pri používaní popularity sám (dopravné údaje o skutočných klikli odkazov) je vytvára rýchlu slučku kladnej spätnej väzby, ktorá môže odrážať len to, čo je dobre propagoval skôr než relevantná. Technorati je zvlášť náchylné na tento účel, pretože ľudia klikajú na vrchole otázok, len aby videli, čo sú okolo. Ďalším príkladom je, že Langville a Meyer papier je celkom dobrá, ale odkazy na ňu sú pochované hlboko v stránke s výsledkami vyhľadávania pre "PageRank". Takže ... Myslím, že môžeme dobre využiť skutočné využitie dát, ale iba niektoré aplikácie (napr. "sledovačov buzz"), sa môžu spoľahnúť na využitie dát len ​​(alebo prevažne). Podmienené alebo osobné hodnotenie by bolo nákladné počítať v globálnom meradle, ale môže tiež dať užitočné výsledky, ak boli použité na výrazne redukovaná sada príslušných stranách.

2.. V povesti a kontextové vyhľadávaciu aplikáciu, môžu untraversed odchádzajúce odkazy stále pomáhajú identifikovať, čo je "susedstve" informácií je potenciálne súvisiace s danú stránku. Neviem, koľko je to vlastne používa už. Som videl obrovské množstvo prichádzajúcich komentárovému spamu blábol s odkazmi na skutočných firiem (Apple, Macromedia, BBC, ABC News), čo nedáva moc zmysel, ak sa spameri, že to pomôže ich obsah "cítiť lepšie". Bez odkazy na "tradičné" obsah, spam obsah je zistiteľná prepojenie väčšinou s inými známymi nevyžiadaným obsahom, ktorý sa snaží nebyť spojený s tým, skutočné stránky.

3.. Ak sa domnievate, že vyhľadávacie užívatelia majú nejaký zámer vodičský ich výber odkazov, ktoré nasledujú, je možné vytvoriť podmienené rozdelenie prechod stránky, skôr než rovnomerne náhodné jeden. V tomto duchu som narazil na demo ("myslenie") a papier z Yahoo na filtri pre označovanie prednosť "komerčné" verzus "nekomerčných" výsledkov vyhľadávania. Myslím, že by to mohlo byť praktické stavať oveľa menšie zbierky téma-domain-konkrétne stránky s témou špecifické poradí, a padať späť na všeobecné poradí modelu pre ďalšie výsledky hľadania.

4. Myslím, že vyhľadávače sa neustále mení očakávané správanie užívateľov v priebehu času, takže rovnomerne náhodne predpoklad ešte členitejšie. Keď používatelia vyčerpať svoj záujem o danej odkaz cestu, oni sú pravdepodobne preskočiť na osobné, známeho URL alebo hľadať znova a ísť do inej lokálne riadený výsledku vyhľadávania. To by prekrútiť distribúcia ďalej v prospech podmieneného rebríčku modelu, skôr ako jednoducho náhodný jeden.

Zoznam literatúry o PageRank a vyhľadávacích algoritmov

Ak ste sa prihlásili k odberu plné krmiva, zistíte, zbieral som nejaké základné čítaní PageRank, vyhľadávanie pásovým vyhľadávanie Personalizácia a detekciu spamu v každodennom odkazoch včera . Tu sú niektoré odkazy, ktoré stojí za to spomenúť pre tých, ktorí majú záujem na vnútornosti vyhľadávanie všeobecne a najmä Google.

  • Hlbšie PageRank (PDF) - Internet Matematika sv. 1, č 3: 335-380 Amy N. Langville a Carl D. Meyer. Podrobný 46-stranový prehľad PageRank a hľadanie analýzy. To je najlepší technický úvod som narazil tak ďaleko, a má dlhý zoznam odkazov, ktoré tiež stojí mimo kontroly.
  • Online Reputation systémy: Náklady na útok PageRank (PDF) -
    Andrew Clausen. Detailný pohľad by na hodnoty a nákladov na povesti a špekulácie o tom, koľko to stojí kúpiť lepšie umiestnenie prostredníctvom nevyžiadanej pošty, odkaz sprostredkovanie, apod Niekde v tomto dokumente alebo príbuznú notu Tvrdí, že zvýšenie vyhľadávač poradí je teoreticky príliš nákladná byť účinné, ale ukázalo sa, že nie je tento prípad, ale základné myšlienky okolo povesť sú zaujímavé
  • SpamRank - Plne automatické Link Detekcia spamu - Nedokončená (PDF) -
    András A. Benczúr, Károly Csalogány, Tamás Sarlós, Máté Uher. Navrhuje SpamRank metrika založená na osobnej a miestnej PageRank PageRank distribúcia prepojenie lokalít.
  • Detekcia duplicitných a okolí duplicitné súbory - William Pugh prezentačné zábery na US patente 6658423 (pridelené na Google) pre priblíženie pri použití pásového oparu (posuvné okenné časti textu) k porovnání obsahu podobnosti. Táto práca bola vykonaná v priebehu stáže na Google a nevie, či tento konkrétny metóda sa používa pri výrobe (vs iné metódy).

Pozerám sa na pomerne úzkom vyhľadávaciu aplikáciu v súčasnej dobe, ale hlavná myšlienka využitia subjektívne povesť personalizovať výsledky vyhľadávania a odfiltrovať spam obsah sa zdá v podstate zdravé, a to najmä ak sieť dôvery (sociálne a profesionálne upravovať) ISN " t je príliš veľký.