Slides do painel Social Graph Simpósio

Alguns slides introdutórios de uma sessão de painel na Social Graph Simpósio .

Social Graph Painel Simpósio - Maio de 2010 - Apresentação Transcrição

1. Social Graph Painel Simpósio
Ho John Lee | Gerente de Programa Principal | Bing Social Search
2 Sobre mim.:
Ho John Lee
hojohn. lee @ microsoft. com
twitter.com / hjl
Passado: Bing Twitter (v1), SocialQuant, comércio, investimento / consultoria (China, Índia)
HP Labs, o MIT, Stanford, Harvard
Atual: Bing Social Search - análise gráfica e de séries temporais, mineração de dados
Twitter, Facebook, novos produtos, planejamento técnico
3. Que podemos fazer pela observação de redes sociais?
Na internet, ninguém sabe que você é um cachorro.
Mas nas redes sociais, podemos dizer, se você agir como um cão, o que os grupos a que pertence, e alguns de seus interesses
4. Quantos usuários do Twitter estão lá?
a partir de uma pesquisa sobre twopular, maio de 2009
5. Análise do gráfico de relevância e classificação
Campanha de marketing Spam
(Clareamento dos dentes)
Naturalmente comunidade conectado (# SMX)
Relevância em tempo real precisa de mineração de dados para filtrar e classificar com base na história
Comunidades Spammy pode ser altamente visível
Social Graph, gráfico tema / conceito e comportamento / gesto gráficos são ferramentas úteis
6. Difusão Informações no gráfico
Rede incidência observada de retweets no Twitter
Kwak, Lee, et al, que é o Twitter, uma rede social ou um Notícias Media? WWW2010
Fluxo de informações e comportamentos formam um grafo interação implícita
7. Gama de tópicos / sentimento, volume, análise de tendências
Qual é a taxa de referência de menções / sentimento por unidade de tempo?
Procure por mudanças no fluxo de atenção em torno de um assunto, local, tema
Fique atento para sinais correlacionados de várias fontes
Considere relevância fonte e autoridade bem
8. Aplicando análise gráfica
Fluxo atenção vs fluxo de informações
Leva a funções de serviço público, funções de custo
Taxas de difusão variável ator / network / tipo Informações
Prevendo interesses e afiliações
A criação de conteúdos segue atenção
Comunidades auto-organizadas de atenção
Se não há conteúdo, você pode pedir para algum
Observável propagação de informações
9. Clustering e de difusão propriedades e identidades
* Termos usados ​​com frequência podem identificar interesses, afinidades, a intenção consulta latente
* Mas podem potencialmente ser usadas para identificar prováveis ​​utilizadores individuais!
* Infochaff - fuzzing fora de identidade, comportamento, propriedades
10. Obrigado
Ho John Lee
hojohn. lee @ microsoft. com
twitter.com / hjl

INVESTIGAÇÃO: Descobertas dos últimos estudos gráfico social
Moderador: Eric Siegel - O presidente em previsão do impacto e Presidente da Conferência de Predictive Analytics Mundo
Oradores:
Sharad Goel - Research Scientist no Yahoo
Ho John Lee - Gerente de Programa Principal da Microsoft
DJ Patil - Chief Scientist no LinkedIn
Marc Smith - Chefe cientista social no Connected Action Group Consulting

Meus slides no Painel de busca em tempo real na SES Chicago na semana passada

Apesar de busca em tempo real é relativamente novo, como acabamos de 2009, a capacidade de indexar e pesquisar resultados frescos está rapidamente se tornando uma commodity, com Bing, várias startups, e agora o Google todos os status integrar feeds de serviços de rede social. O próximo conjunto de desafios em 2010 será em torno de proporcionar uma melhor relevância, a descoberta de informações e exploração tópico para pesquisa social, utilizando os sinais do comportamento dinâmico de usuários e sua interação com os gráficos sociais e tópicos.

Eu dei uma pequena palestra em tempo real e pesquisa social para um painel na SES Chicago na semana passada. Estive cabeças para baixo para os últimos meses trabalhando no Bing Twitter Search, então agora que o primeiro lançamento é a porta que era uma boa oportunidade para conversar com as pessoas sobre alguns dos trabalhos que estamos fazendo. Houve um grande interesse no sentimento, de tendência e análise gráfico social lâminas (9 e 10). Vou escrever sobre aqueles em um post separado, mas queria ter a apresentação para aqueles que têm perguntado sobre isso.

O que é diferente sobre Tempo Real e Social Search - HJL Slides Para SES Chicago 09 de dezembro

O que é diferente sobre Tempo Real e Social Search - HJL Slides Para SES Chicago 09 de dezembro - Apresentação Transcrição

  1. O que há de diferente em tempo real e pesquisa social?
    Ho John Lee
    Gerente de Programa Principal
    Bing Social Search
    Search Engine Strategies
    Chicago - 07 dezembro de 2009
  2. O que há de busca em tempo real bom para, de qualquer maneira?
  3. Twitter é ótimo para assistir Uninformed Panics Unfold Vivo
    ... Ou encontrar balões
    http://xkcd.com/574/
  4. Algumas características da mídia Twitter / Sociais
    Imediatismo, Sentiment, Brevidade
    Nem sempre precisa
    Sentimentos, reações, impressões
    O contexto é muitas vezes essencial para determinar o significado
    Gestual - @ user, # hashtag, RT, favoritos, segue
    Comunidades de auto-organização da atenção e da autoridade
    Conteúdo segue atenção
    As pessoas falam sobre o que os outros estão falando
    Observações e comentários de todos os lugares
    Se não há conteúdo, você pode pedir para algum
    Cobertura cabeça ea cauda extrema
    Baixa relevância "ruído" pode tornar-se "sinal" de forma agregada
  5. O seu produto ou marca pode de repente estar no centro de uma enorme conversa
    Tiger Woods
    Menino do balão
    Quebrando História
    História Persistente
    Big Story
    Maior História
  6. Algumas características de tempo real / Social Search
    • Tempo real e pesquisa social é qualitativamente diferente da tradicional busca na web
    • Diferenças no ranking, relevância, modelo de uso
    • Gráfico social, o comportamento do usuário, localização, correlação de eventos e outros sinais de entrada
    • Busca em tempo real é freqüentemente sobre a descoberta, não procurar, por si só
    • "O que é todo mundo falando", seguido por "o que as pessoas estão dizendo sobre"
    • Tempo real e resultados de pesquisa Top sociais geralmente diferem dos resultados de pesquisa na web de topo
  7. Bing Twitter Search num ápice
    Top tweets
    Top Links compartilhados
    Tweets / Sentiment por link
    Adulto / filtro de spam; Tweets / Links classificação e relevância
  8. Bing Outono de 2009: Twitter verticais, Notícias, MSN, Mapas
    MSN Local Edition
    Página 2: tweets ou Links
    Página 1: tweets e links
    Twitter Resposta em Notícias SERP
    MSN Hot Topics
  9. Gama de tópicos / sentimento, volume, análise de tendências
    Qual é a taxa de referência de menções / sentimento por unidade de tempo?
    Alterações no fluxo de atenção em torno de um assunto, local, tema
    Fique atento para sinais correlacionados de várias fontes
    Considere relevância fonte e autoridade bem
  10. Análise do gráfico de relevância e classificação
    Campanha de marketing Spam
    Naturalmente comunidade conectado
    Comunidades Spammy são altamente visíveis - não fazer parte de um!
  11. Bing Twitter Maps Demo
  12. Para elevar-se acima do barulho, não há mais a fazer o que busca fica mais social
    Além disso ...
  13. Obrigado
    Ho John Lee
    hojohn. lee@microsoft.com
    twitter.com / hjl
A sessão foi moderada por Barbara Coll , CEO, WebMama.com Inc., com palestrantes Bill Fischer , co-fundador e Diretor, Workdigital, Ltd., Rob Caminhada , Managing Partner, NovaRising, Nathan Stoll , co-fundador, Aardvark, e Ho John Lee , Gerente de Programa Principal, Sociais e busca em tempo real, a Microsoft Bing.

Quando você chegar a uma bifurcação na estrada ...

Crossroads of the World at the Beach Bar, Waikiki

Crossroads of the World no Bar Beach, Waikiki

Como alguns de vocês sabem, eu tenho vindo a explorar uma variedade de caminhos a seguir para SocialQuant, o meu tempo real de pesquisa social e análise de projeto. Minha família, amigos e colegas me deram muito apoio, paciência e conselhos durante este processo, que chegou a uma encruzilhada, e como diz Yogi Berra: "Quando você chegar a uma bifurcação na estrada, não perca!"

A ascensão do Twitter, Facebook e outras mídias sociais, combinada com aplicações baseadas na web, smartphones e computação em nuvem têm tudo preparou o palco para novas aplicações e modelos de uso baseados na descoberta sociais, colaboração e comunicações, além de busca tradicional . O que todos nós estamos chamando de "busca em tempo real", ultimamente não é exatamente tempo real, nem é exatamente pesquisar, em que se encontra uma resposta definitiva / autoritário. Grande parte da oportunidade gira em torno de descobrir as pessoas, discussões e eventos que são relevantes para você e trazê-lo para a sua atenção em um tempo hábil, moda acionáveis. Informações fluxos de mídia social são transitórios, não confiável, e barulhento. Ao mesmo tempo, o grande volume de dados pode ajudar a fornecer a base para a construção de melhores filtros. Como um bônus adicional, você pode fazer perguntas para as pessoas no próprio gráfico social, e há inúmeros exemplos de comunidades de interesse, formando em torno de eventos atuais, como a tomada de posse de Barack Obama, as eleições iranianas, ou mesmo o funeral de Michael Jackson, todos os quais ajudam conteúdo de informação de superfície, a opinião eo sentimento que antes eram inacessíveis online. Um aspecto interessante de mídia social em tempo real é que não se trata apenas de algoritmos, é baseado em conexões e emoções humanas. Assim, uma mensagem de que "se sente bem" de pessoas de sua confiança pode ser mais relevante do que aquele que é "correta", às vezes.

O desafio, então, é na filtragem e classificação do fluxo maciço de informações de uma forma que ajuda limitada (e não em expansão) tempo direto do usuário e atenção de uma forma que é mais valioso para eles. Com a tecnologia da informação, coisas incríveis são possíveis com recursos limitados. Eu, pessoalmente, ter mais recursos de computação e armazenamento do que a facilidade lançamos local foto original da HP com a (por milhões de dólares), a uma fração do custo, rotineiramente empurrando conjuntos de dados de milhões de linhas nos servidores de desenvolvimento local. Infelizmente, isso é apenas a ante de começar a fazer o problema. Correndo classificação, clustering, e análise semântica para filtrar o crescente fluxo de mídias sociais eventualmente requer computação escala web, mesmo com a seleção cuidadosa problema e poda de dados. O bar também está subindo a cada dia , como os meios de comunicação social, base de usuários cresce , e como bem financiado equipes progredir em suas plataformas (+ Google ). Então, muito em breve, para ser competitivo, em tempo real, pesquisa social e descoberta vai exigir o acesso a muitos dados e quer obter um datacenter ou trabalhar com alguém que tem um.

No meu caso, eu recentemente escolheu o segundo caminho, e irá juntar-se a busca da Microsoft Bing equipe, com foco em tempo real e pesquisa social. A própria Microsoft tem dado sinais de um renascimento, com pesquisa relançamento , o Windows 7 olhar mais magro, Azure se tornar não-vaporoso , mais APIs web ser publicado, aplicações on-line a partir do núcleo de transformar-se , e um vídeo legal Office 2010. Mesmo Mini-Microsoft está ficando positivo recentemente. E o Google está começando a ter problemas de "grandeza" .

Estou ansioso para trabalhar com Sean Suchter e da equipe de busca da Microsoft Bing (e, provavelmente, a expandir a sua pegada de carbono) em busca de novas aplicações e serviços, como as mídias sociais e online evolui espaço de aplicação.

Você pode acompanhar no Twitter ( @ hjl ). Como sempre, todos e todas as opiniões aqui são exclusivamente minhas e não refletem a posição de qualquer passado, presente ou futuro empregador, sócio ou parceiro de negócios.

Crescimento surpreendente de usuário Twitter

Twitter estimated userbase through May 2009

Twitter estimado userbase através maio 2009

O gráfico acima mostra uma estimativa da população de usuários do Twitter a partir de seu lançamento em março de 2006 a maio de 2009, com base em uma amostra de cerca de 6 milhões de perfis de usuário observados. A linha azul tracejada é todo os EUA posse de Barack Obama e onde a transição dos primeiros a adotar a audiência de massa no início parece ter tirado 2009.

A população inteira do usuário do Twitter parece ter chegado a 1 milhão em algum momento de janeiro, mas hoje existem várias contas que têm mais de 1 milhão seguidores cada.

Dito de outra forma, se você se inscreveu antes de fevereiro de 2009, você pode considerar-se algo de um early adopter no Twitter, e entre os primeiros 15% ou mais de toda a população de usuários.

Os números desta pesquisa são inexatos, mas representativo, tomada a partir de pesquisas que venho fazendo para SocialQuant e FailWatch. Há algum viés sobrevivente embutido, já que estou poda spam e contas suspensas. Somente Twitter sabe o verdadeiro estado da base de usuários eo gráfico social, é claro.

Os usuários iniciais Twitter tendem a conhecer mais uns aos outros na vida real, uma vez que grande parte da rede social cresceu de amigos dos fundadores, participantes SWSX, ea comunidade de tecnologia San Francisco / Silicon Valley. As mais recentes (pós-Obama) chegados tendem a não ter conexões com essas redes, e muitas vezes não conheço ninguém de seguir. Eles chegam através de mídia de massa e campanhas de celebridades, e acabam seguindo mídia e celebridades, a partir da lista de usuários sugeriram, ou porque essas são as únicas pessoas que conheço.

Se você olhar com cuidado, você pode ver a taxa de crescimento desacelera no final do gráfico. Havia uma enorme rampa de novas inscrições de usuários em todo o tempo do programa de Oprah, que tem diminuído um pouco. Isto levou ao blog posts sobre iminente desaparecimento do Twitter, mas olhando para trás, houve surtos anteriores da base de usuários (geralmente em torno de SXSW etc) o que levou a um pico, em seguida, uma queda em novas inscrições de usuários para uma off-peak, mas maior do que a média antes. Até agora, o pico de corrente é o maior, mas parece estar a seguir o padrão. Na ausência de qualquer novo driver, o crescimento usuário deve continuar em um off-peak, mas de nível superior, até o próximo grande salto, ou algo melhor aparecer.

Resultados de pesquisa do Google e DMOZ editorializing?

Eu nunca vi uma página de resultados de pesquisa como esta antes. O texto meta "think tank conservador alegando a relatar sobre os eventos e as nações de importância estratégica para os Estados Unidos" não aparecer em qualquer lugar da página indicada, que não contém qualquer conteúdo <META> útil. Procurando por esse texto , ele parece que o texto surgiu a partir da listagem de diretório DMOZ .

Outra entrada da mesma lista DMOZ, o Kensington comentário , também retorna a meta texto DMOZ, desta vez no lugar do texto <META> na página real. DMOZ diz: "Uma revista eletrônica de comentário político e social. Quando a esquerda diz que o copo está meio cheio e do direito diz que é meio vazio, Kensington sugere que ele pode ser muito grande. "Próprio META de Kensington diz:" A n revista eletrônica de comentário político, financeiro e social ". DMOZ é uma descrição mais interessante, mas novamente não se origina a partir do próprio conteúdo.

Assim, parece que os editores listadas têm maior influência sobre certas descrições de pesquisa do Google do que os próprios sites de reais, o que não é necessariamente ruim, mas foi certamente inesperado (para mim). Em geral, eu prefiro que o Google limitar sua função editorial com os resultados de busca ranking e apresentando, e, talvez, fazer as opiniões editoriais conhecidos, mas não apresentada como definitiva.

Eu não estou particularmente familiarizado com a Fundação Jamestown, é por isso que eu estava procurando, em primeiro lugar. O editor DMOZ é claramente cético, mas eu prefiro formar minha própria opinião.

google-jamestown-serp-meta

Hacked by keymachine.de

Eu notei que a minha instalação do WordPress foi hackeado por um motor de busca de spam ataque de injeção em algum momento nas últimas semanas. Este particular insere texto invisível, com muitas palavras-chave em footer.php. As alterações no arquivo foram feitas usando o editor embutido tema, provenientes ns.km20725.keymachine.de, que está atualmente em 84.19.188.144. A campanha de spam atualiza automaticamente a carga de spam todos os dias mais ou menos. Os links apontam para uma variedade de servidores que também foram invadidos para hospedar o conteúdo spam. Aqui está um exemplo: http://www.nanosolar.com/feb3/talk.php?28/82138131762.html
Mandei um e-mail para Nanosolar, então eles provavelmente vai ter que limpar o conteúdo antes do tempo. Mas a campanha de spam automatizado SEO atualiza a palavra-chave e ligação de carga regularmente, para sites WordPress afetadas será atualizado para apontar para as novas vítimas de hospedagem.

A partir de uma verificação rápida no Google, parece que keymachine.de é um criminoso comum

Ms. Dewey - busca elegante, com chicotes, armas e dicas de namoro


Tem sido um tempo desde que eu me deparei com algo que eu não tenha visto antes online. Ms. Dewey se encaixa no projeto. É uma aplicação baseada em Flash combinar clipes de vídeo da atriz Janina Gavankar com busca Windows Live.

Como uma aplicação de busca, ele é gordo, lento e os resultados da consulta não são grandes. No entanto, como observa John Battelle, "claramente, a busca não é o ponto." Esta é pesquisa com uma atitude flirty, onde a velocidade ea qualidade dos resultados não estão no topo da lista de prioridades.

Como a curto atenção span teatro vai, é bastante divertido.

Se você não pode pensar em nada para procurar, Ms. Dewey vai incomodar por um tempo e, eventualmente, estender a mão e tocar na tela. "Helloooo ... Tipo de coisa aqui ..."

É muito mais interessante tentar algumas consultas e confira as respostas. Eu passei mais de meia hora de digitação em palavras-chave para ver o que iria vir para cima, começando com algumas das sugestões do Digg e Channel9 . O aplicativo oferece um conjunto semi-aleatória de respostas em vídeo com base nas palavras-chave de busca, para que você nem sempre terá a mesma reação de cada vez.

O chicote e chicote nem sempre aparecem quando você pensa, o jaleco parece estar fechado para a ciência ea matemática (tente "equação diferencial parcial"), e eu não sei o que traz as armas automáticas.

"Ms. Dewey "também tem uma página no MySpace , com mais videoclipes. A forma como o aplicativo é construído, que provavelmente pode continuar atualizando e adicionando respostas, desde que eles querem.

Tentei brevemente usando Ms. Dewey no lugar do Google, como um motor de busca de trabalho, mas é preciso muito tempo para responder a uma série de consultas (tem que esperar para o vídeo para jogar) e os resultados da pesquisa não são grandes (Live continua a melhorar, embora). No momento em que este é um experimento conceitual divertido.

Eu me pergunto se nós vamos ver uma nova categoria de pesquisa enfatizando estilo (entretenimento, atitude, sexo) sobre a substância (relevância, velocidade, alcance). A versão atual já poderia trabalhar para que o usuário busca ocasional, mas imagine Ms. Dewey, com resultados mais rápidos, sem bloqueio de busca, uma busca melhor UI, e os resultados do Google. Tudo me faz lembrar vagamente de um romance de William Gibson.

Mais informações sobre os dados de consulta de pesquisa America Online

Os dados de consulta de pesquisa que a America Online publicou no fim de semana foi removido de seu site após uma avalanche de mensagens sobre as questões de privacidade. AOL refere oficialmente este como "um parafuso para cima" , segundo a porta-voz Andrew Weinstein, que respondeu nos comentários em vários locais:

Todos -

Este foi um parafuso, e estamos com raiva e chateado com isso. Foi uma tentativa inocente o suficiente para chegar à comunidade acadêmica com novas ferramentas de pesquisa, mas era óbvio que não adequadamente controlados, e se tivesse sido, teria sido parado em um instante.

Apesar de não haver dados pessoalmente identificáveis ​​associadas a estas contas, nós absolutamente não estamos defendendo isso. Foi um erro e pedimos desculpas. Nós lançamos uma investigação interna sobre o que aconteceu, e estamos tomando medidas para garantir que este tipo de coisa nunca aconteça novamente.

Tirei uma cópia dos dados última noite antes de a ligação caiu, mas não dar a volta a realmente olhando-o até esta noite. Em um olhar casual em seções aleatórias dos dados, eu vejo um (para mim) surpreendente número de pessoas digitando em URLs completas, uma série de consultas relacionadas ao sexo, (alguns dos quais eu realmente não entendo), compras relacionadas com consultas, consultas relacionadas com a celebridade, e muito do que se parece com trabalhos escolares de ensino médio ou estudantes universitários.

Nesse meio tempo, muitas outras pessoas têm encontrado entradas interessantes / problemáticos entre os dados, incluindo números prováveis ​​de segurança social, números de carteira de motorista, endereços e outras informações pessoais. Aqui está uma lista de perguntas sobre como matar sua esposa a partir de Paradigm Shift.

Mais amostras abatidos a partir dos dados aqui , aqui e aqui .

# 479 Parece um estudante na Universidade Estadual de Prairie que gosto de jogar EA Sports Baseball 2006, é um fã de White Sox, e estava planejando ir a Ozzfest. Quando nada mais está acontecendo, ele gosta de assistir Nip / Tuck.

º 507 gosta de negociar no eBay, é a caça do fantasma, atualmente dirige um Dodge 2001, mas os planos sobre a obtenção de um Mercedes. Ele também vive na região de Detroit.

# 1021 está desempregado e vivendo em Nova Jersey. Mas isso não levá-lo para baixo, porque com o novo tempo encontrado, ele vai finalmente começar a ver os Sixers.

# 1521 como o pornô gratuito.

Com base em meus próprios padrões de busca ecléticos, eu estaria relutante em inferir intenção específica com base apenas em uma série de consultas de pesquisa, mas ainda é interessante, intrigante, e às vezes perturbador para ver os aglomerados de consultas que aparecem nos dados.

Até este ponto, a fim de ter um bom conjunto de comportamento de consulta de dados do usuário, você provavelmente precisará trabalhar para um dos grandes motores de busca como o Google ou o Yahoo (ou talvez uma empresa de spyware ou de marketing on-line). Eu ainda acho que a partilha dos dados foi bem-intencionada em espírito (embora uma asneira grande negócio).

Sav, comentando sobre a TechCrunch (# 67) observa:

A parte engraçada é que os pesquisadores, acostumado a olhar para os dados como este todos os dias, não percebi que você poderia identificar as pessoas por suas consultas de pesquisa. (Por que você iria querer fazer isso? Temos screenname de todos. Nós vamos esconder aqueles para os dados públicos.) As maiores descobertas na pesquisa sempre acontece por acaso ...

A questão mais ampla no contexto privacidade é que todas essas informações e muito mais já é rotineiramente coletadas pelos motores de busca, barras de ferramentas de busca, downloads desktop widget assorted / ponteiro / spyware, sites de compras online, etc eu não acho que a maioria das pessoas têm internalizado como quantidade de informações pessoais e dados comportamentais já está lá fora, em armazéns de dados privados. Na maioria das vezes você tem que pagar alguma coisa para obtê-lo, no entanto.

Espero ver pepitas mais interessantes extraídos a partir dos dados da consulta, e alguns vigorosa discussão política sobre a recolha e partilha de gestos de atenção pessoais tais como consultas de pesquisa e link de cliques nos próximos dias.

Veja também: AOL Research publica 20 milhões de consultas de pesquisa

Atualização de terça-feira 08-08-2006 05:58 PDT - A primeira interface online para explorar os dados de consulta de pesquisa da AOL é se a www.aolsearchdatabase.com (via TechCrunch ).

Atualização de terça-feira 08-08-2006 14:18 PDT - Aqui está outra interface online em dontdelete.com (via Infectious Greed )

Atualização quarta-feira 08-09-2006 19:14 PDT - Um perfil de usuário 4.417.749, Thelma Arnold , uma viúva de 62 anos de idade que vive em Lilburn, GA, juntamente com uma discussão sobre o banco de dados de consulta AOL no New York Times.

AOL Research publica 20 milhões de consultas de pesquisa

Dados mais matérias para engenheiros e SEOs pesquisa e forragem para os debates de privacidade online - AOL Research lançou uma coleção de cerca de 20 milhões de consultas de pesquisa que incluem todas as pesquisas feitas por um conjunto selecionado de forma aleatória de cerca de 500.000 usuários de março a maio de 2006.

Este deve ser um grande conjunto para trabalhar com se você está fazendo uma pesquisa sobre os motores de busca de dados, mas parece problemático do ponto de vista da privacidade. Os dados são anónimos, por isso os nomes de usuário AOL são substituídos por uma identificação numérica do usuário:

O conjunto de dados inclui {UserID, Query, QueryTime, ClickedRank, DestinationDomainUrl}.

Eu suspeito que pode ser possível fazer engenharia reversa de alguns dos grupos de consulta para identificar usuários específicos ou outros dados pessoais. Se nada mais, eu, ocasionalmente, observar as pessoas acidentalmente digitação em nomes de usuário ou senhas em caixas de pesquisa, de modo que há uma probabilidade de haver algum dos que estão no mix. "Anonymous" nos comentários lá no blog de ​​Greg Linden acredita que haverá um monte de pessoas. As URLs de destino aparentemente foram cortadas, bem, então você não será capaz de ver a página exata que resultou em um click-through.

Não ter tomado uma olhada nos dados reais ainda, mas eu estou feliz que eu não sou um usuário da AOL.

Adam D'Angelo diz :

Este é o mesmo dados que o DOJ queria de Google em março. Esta decisão permitiu Google para manter todos os logs de consulta secreta. Agora, qualquer governo pode apenas ir fazer o download dos dados de AOL.

Do lado da aplicação de pesquisa, este é um raro olhar para o comportamento de busca real do usuário, o que seria difícil de obter, sem acesso a um alto tráfego motor de busca ou, eventualmente, através de um serviço pago.

Plentyoffish vê uma oportunidade para os spammers PPC e Adsense :

Google / AOL deu apenas alguns dos mundos maiores spammers uma repartição dos termos de alto tráfego é apenas uma questão de semanas até que o Google recebe mega-spam de feito para adsense sites e outros tipos de sites de spam com objectivo de palavras-chave contidas nesta lista.

Eu acho que é ótimo que a AOL está tentando abrir mais e se envolver com a comunidade de pesquisa, e parece que há algumas outras coletas de dados interessantes no site da AOL Research -, mas eu suspeito que eles estão prestes a tomar uma grande quantidade de calor em frente a privacidade, a julgar a partir da mistura de reações iniciais sobre Techmeme. Espero que não assustá-los e eles encontram uma maneira de publicar dados de pesquisa úteis sem causar um desastre de privacidade.

Mais informações sobre o ângulo de privacidade SiliconBeat , Zoli Erdos

Veja também: Em breve, em DVD - 1146580664 seqüências comuns de cinco palavras

Update - domingo 08-06-2006 20:31 PDT - AOL Research parece ter retirado o anúncio e os dados de registro nas últimas horas, em resposta a um crescente número de postagens no blog , principalmente crítica, e principalmente focada em privacidade. Markus em Plentyoffish também usou os dados para gerar uma lista de palavras-chave de busca ringtone que os usuários clicaram em um site ringtone como um exemplo de como esses dados podem ser usados ​​por comerciantes de spam SEO e. Parece que as questões de privacidade estão indo para obter o máximo de tempo de antena no momento, mas acho que os dados de cliques palavra-chave vai ter o efeito mais imediato.

Atualização de segunda-feira 2006/08/07 08:02 PDT: Alguns espelhos dos dados AOL

Em breve, em DVD - 1146580664 seqüências comuns de cinco palavras

Google Research está publicando um enorme conjunto de dados de n-gramas destilado de trilhões de palavras perused pelo grande esforço de pesquisa spider do Google:

Nós processado 1.011.582.453.213 palavras de execução texto e está publicando as contagens para todos os 1146580664 seqüências de cinco palavras que aparecem pelo menos 40 vezes. Há 13.653.070 palavras únicas, depois de eliminadas as palavras que aparecem menos do que 200 vezes.

Este parece ser apenas a coisa para o desenvolvimento de algumas aplicações de previsão de texto interessante, ou mineração de dados apenas aleatória. O conjunto de 6 DVD será distribuído pela Linguistic Data Consortium , que recolhe e distribui discurso interessante e bases de dados de texto e conjuntos de treinamento. Alguns outros itens em sua coleção incluem discurso transcrito de 3000 falantes , um mapeamento entre Chinês e Inglês lugar, organização e nomes de empresas , e uma transcrição do discurso do Levante árabe coloquial .

Atualização domingo 08-06-2006 16:41 PDT: Ver também AOL Research publica 20 milhões de consultas de pesquisa

Google está tendo problemas para esta noite?

Esta noite estou recebendo resposta lenta ou o tempo limite de conexão do Google para a última meia hora ou assim (20:30-21:00 PDT). Geralmente isso significa que a rede local está com problemas, mas outros grandes sites (Yahoo, CNN) estão funcionando tão rapidamente como sempre, juntamente com várias sessões SSH em todo o mundo, por isso parece ser específico para o Google.

Até agora eu fico lenta ou nenhuma resposta a partir da página principal de pesquisa, Gmail, Adsense, Adwords, Analytics, e Finanças.

Páginas que respondem estão voltando em 10 + segundos, e algumas páginas estão carregando sem gráficos ou com modelos únicos e nenhum conteúdo.

Qualquer outra pessoa vendo esses problemas? Esta é a primeira vez que eu vi o Google inutilizável por mais de um minuto ou dois. (Ao contrário neste site, que tem sido saltando para cima e para baixo devido a problemas no Dreamhost recentemente ).

Procurar referências - Julho 2006 snapshot


Aqui está uma visão rápida de referências motor de pesquisa de entrada para as últimas semanas. Compare isso com um outro cargo no ano passado em partes encaminhamento motor de busca , recentemente referenciado em um post no Alexa notar a discrepância entre os relatórios de tráfego motor de busca publicados e observações anedóticas por webmasters.

É só eu, ou são esses gráficos um pouco pateta? O Yahoo realmente ainda tem 23% do mercado de buscas? O Google está a menos de metade do mercado de buscas?

Eu não acredito nisso. Qualquer webmaster irá dizer-lhe que o Google representa quase todo o tráfego motor de busca. Yahoo não está nem perto de 23%. Basta ler os blogs, aqui, aqui, aqui e aqui e em inúmeros outros blogs.

Já em 82% em outubro passado, o Google aumentou para mais do tráfego de pesquisa de entrada (92%) aqui, em grande parte, à custa de "Outros". Na queda, parecia que aqueles eram em sua maioria diversos motores de busca chineses, então talvez o meu site não está sendo indexado ou bem posicionados mais lá, ou o Google está pegando quota de mercado, ou ambos.

Alguns dos comentadores no Alexa pós observou aumento do tráfego da Microsoft / MSN / Live Search, incluindo um que tem a maioria do seu tráfego através de pesquisa do MSN. Estou um pouco surpreso que eu não vejo mais o tráfego de busca Yahoo e Microsoft aqui, mas que também pode ser uma função do que é provável que estar à procura de um determinado tema.

Veja também os comentários de Greg Linden sobre a competitividade da Yahoo e da Microsoft esforços de busca

A Cauda Longa de cliques inválidos e outros conceitos do Google cliques fraudulentos

Ler alguns bem fim de semana para os engenheiros de pesquisa, SEOs, e os operadores de rede de spam:

Um relatório independente de 47 páginas no Google Adwords / Adsense fraude do clique, apresentado ontem, como parte de uma disputa legal entre Presentes e Google Lane, oferece uma ótima visão geral da história e estado atual da fraude do clique, cliques inválidos de todos os tipos, eo processo de filtragem de quatro camadas que o Google usa para detectá-los.

Google construiu os quatro "linhas de defesa" contra cliques inválidos seguintes: pré-filtragem, filtragem on-line, off-line de detecção automática e detecção desligada manual, nessa ordem. Google implanta diferentes métodos de detecção em cada uma dessas fases: as abordagens e baseada em anomalia baseadas em regras do pré-filtragem e os estágios de filtragem, a combinação de todas as três abordagens na fase de detecção automática desligada, ea abordagem baseada em anomalia em fase de inspeção manual offline. Essa implantação de diferentes métodos em diferentes estágios dá ao Google uma oportunidade para detectar cliques inválidos utilizando técnicas alternativas e, portanto, aumenta as chances de detecção de cliques inválidos em mais um desses estágios, de preferência de forma proativa nas fases iniciais.

Uma observação interessante é que a maioria fraude do clique pode ser eliminado através de filtros simples. Alexander Tuzhilin , autor do relatório, especula sobre uma Zipf-lei Cauda Longa de cliques inválidos de ataques menos comuns, e observa:

Apesar de seu atual desempenho razoável, esta situação pode mudar significativamente no futuro, se novos ataques se transferirá para Cauda Longa da distribuição Zipf, tornando-se mais sofisticado e diversificado. Isso significa que seus efeitos serão mais proeminente em comparação com a situação atual e que o actual conjunto de filtros simples implantado pelo Google pode não ser suficiente no futuro. Os engenheiros do Google reconhecer que eles devem permanecer vigilantes contra novos tipos de ataques possíveis e estão actualmente a trabalhar nos filtros de última geração para resolver este problema e para ficar "à frente da curva" na batalha sem fim de detectar novos tipos de cliques inválidos.

Ele também destaca o problema irredutível da fraude do clique em um modelo PPC:

  • Clique fraude e cliques inválidos podem ser definidos conceitualmente, mas a única defintion de trabalho é uma questão definida operacionalmente
  • A definição operacional de cliques inválidos não podem ser totalmente revelados ao público em geral, porque vai levar a enorme fraude do clique.
  • Se a definição operacional não é divulgado, até certo ponto, os anunciantes não podem verificar ou contestar por que eles foram acusados ​​de certos cliques

O acordo judicial pede uma avaliação independente sobre se os esforços do Google para combater fraudes de cliques são razoáveis, que Tuzhulin acredita que eles são. A questão mais interessante é saber se eles vão continuar a ser suficiente o tempo avança ea Cauda Longa da fraude do clique se expande.

Links:

Google PageRank and Beyond - verão leitura para hackers de busca

As poucas noites passadas eu estive trabalhando através de uma cópia da revisão de PageRank e além do Google , por Amy Langville e Carl Meyer . Ao contrário de alguns livros recentes sobre o Google, isso não é exatamente uma leitura fácil e envolvente verão. No entanto, se você tiver interesse em algoritmos de busca, matemática, Search Engine Optimization, ou está pensando em construir o seu próprio motor de busca aplicada, este é um livro para você.

Estudantes de pesquisa e informações da literatura de recuperação pode reconhecer os autores, Langville e Meyer, a partir de seu artigo de revisão, mais profundo dentro PageRank . Seu novo livro expande o material sujeito técnico no artigo original, e adiciona muitas anedotas e observações em várias barras laterais ao longo do texto. As notas laterais fornecer algum contexto histórico prático, social e recente para a matemática que está sendo apresentado, incluindo temas como "PageRank e Link spam", "Como os motores de busca ganhar dinheiro?", "SearchKing vs Google", e uma referência para Jeremy Zawodny PageRank é Morto post. Há também um código Matlab amostra e referências para os recursos da web relacionados aos motores de busca, álgebra linear, e implementações de rastos. (O construtor de motor de busca aspirantes vai querer explorar alguns desses recursos e em outros lugares para aprender sobre crawlers e computação em larga escala, o que não é o foco aqui.)

Este livro pode servir como uma excelente introdução à pesquisa algoritmos para alguém com uma programação ou fundo matemática, cobrindo PageRank longamente, junto com alguma discussão sobre HITS, salsa, e abordagens antispam. Alguns temas atuais, tais como clustering, personalização e reputação (TrustRank / SpamRank) não são aqui tratados, embora eles são mencionados brevemente. Os recursos bibliografia e web fornecer uma lista abrangente fonte para futuras pesquisas (até por volta de 2004), o que ajudará os leitores motivados ponto na direção certa. Tenho certeza de que vai ser popular no Google e Yahoo, e talvez em várias agências de SEO também.

Aqueles com menos interesse nas entranhas da tecnologia de busca pode desfrutar de um verão mais casual ler sobre Google, tente de John Battelle The Search . Ou obter Langville e Meyers livro, salte a matemática, e apenas ler as barras laterais.

Veja também: A Lista de Leitura no PageRank e Pesquisa Algoritmos , meus links del.icio.us sobre algoritmos de busca

Del.icio.us acrescenta favoritos privados

Del.icio.us está testando favoritos privados agora.

Eu tenho jogado com uma instância particular de Scuttle desde del.icio.us foi adquirido pelo Yahoo há alguns meses, mas continuaram usando del.icio.us para postar links públicos de qualquer maneira.

Os meus links del.icio.us são automaticamente postadas aqui (exceto quando um fim ou o outro está fora de serviço por algum motivo), não sei se isso incluiria os queridos ou não privadas. Também não se sabe exatamente onde os favoritos privados pode ser visível, além de na própria conta. Eu vou ter que dar uma chance.

Mais folhas de chá de apresentação do Google dia analista

Parece que um monte de conteúdo interessante do evento analista da semana passada a Google está nas notas do orador do baralho de slides do PowerPoint. Greg Linden e outros já apontaram as notas sobre os planos de armazenamento do Google (GDrive, Farol no slide 19).

Esta tarde há outro pontinho na CNBC sobre comunicações acidentais em slides.

As notas não divulgadas anteriormente afirmou que o negócio de publicidade do Google núcleo foi esperado um crescimento de quase 60 por cento para US $ 9,5 bilhões em 2006, mas as margens de lucro em seus negócios esteio AdSense poderia ser espremido este ano e além.

Eu não lembro de ter visto uma previsão de receita de lá, então eu voltei e olhei para ver o que ele realmente disse (slide 14).

Nosso negócio anúncios para o momento está saudável e crescendo e nós estamos em uma trajetória de forte
projetada para crescer a partir de US $ 6 bilhões este ano para US $ 9,5 bilhões no próximo ano puramente baseado em tendências de tráfego e monetização crescimento

Mas fortes concorrentes estão tentando agregar tráfego
Margens do AdSense será espremido em 2006 e além
Y! e MSN vai fazer coisas não-econômicos para aumentar a quota de
A rede de publicidade será commodity ao longo do tempo
Então, é preciso construir um sistema de anúncios mais completa que é caracterizado por duas palavras: mais ampla e profunda. Ou seja, lançar a rede mais ampla de atrair novos tipos de clientes) e mais profunda para melhorar a nossa relação com os clientes existentes.

Reuters diz que essas notas particulares foram supostamente deixado na acidentalmente a partir de discussões de planejamento interno no final de 2005.

"Estas notas não foram criadas para fins de planejamento financeiro, e não deve ser considerado como orientação financeira. De acordo com as práticas do passado, o Google não está fornecendo orientação receita ", disse o Google no arquivamento.

Eu gostei "Y! e MSN vai fazer coisas não-econômicos para crescer share ".

Não acho que nós vamos estar recebendo arquivos do PowerPoint a partir de relações com investidores do Google próxima vez. Há um arquivo PDF até agora .

Atualize 03-08-2006 21:34 PDT: Paul Kedrosky postou uma cópia dos slides originais PPT.

Aleatoriamente explorar a cauda longa de resultados de pesquisa

Às vezes eu clicar em uma página de resultados de busca aleatória "profunda" para ver se algo interessante aparece, por causa das limitações de popularidade e PageRank para algumas consultas.

Paul Kedrosky aponta para um artigo recente da CMU, que sugere a mistura de forma aleatória em algumas páginas de baixo escalão podem melhorar os resultados da pesquisa ao longo do tempo.

Infelizmente, a correlação entre a popularidade e qualidade
é muito fraco para as páginas recém-criados que têm poucos
visitas e / ou in-links. Pior ainda, o processo pelo qual a nova
páginas de alta qualidade acumular popularidade é realmente inibido
pelos motores de busca. Desde que os motores de busca distribuir
um número limitado de cliques por unidade de tempo, entre um grande
número de páginas, sempre listando páginas altamente populares em
o topo, e porque os usuários costumam se concentrar sua atenção em
o início poucos resultados, recentemente criado, mas de alta qualidade
páginas são "excluídos".

Propomos uma solução simples e elegante para
este problema: a introdução de um ambiente controlado
quantidade de aleatoriedade no ranking de resultados de pesquisa
métodos. Se o fizer, oferece novas páginas a chance
para provar o seu valor, apesar de claramente usando também
muito aleatoriedade vai degradar a qualidade e resultado
anular todos os benefícios alcançados. Portanto, há uma
equilíbrio entre a exploração de estimar a qualidade
de novas páginas e exploração de páginas já
conhecido por ser de elevada qualidade. Nós estudamos essa compensação
tanto analítica e por meio de simulação, no contexto
de uma função objetivo econômico baseado na
qualidade resultado agregado amortizado ao longo do tempo. Nós
mostram que uma quantidade modesta de aleatoriedade leva
dos resultados de pesquisa melhorada.

Link:
Arrastando uma plataforma Stacked: The Case for parcialmente
Ranking randomizado de resultados do Search Engine ,

Será que o Google crescer a essa taxa para sempre? Não? Então MORRER!

Hoje foi um dia emocionante moderadamente ou irritante para ser um investidor em empresas de tecnologia pública. CFO do Google, George Reyes, aparentemente esqueceu que estava webcasting a um grupo público de investidores, em vez de conferência com uma equipe in-house no Googleplex durante o Q & A sessão no Merrill Lynch Internet, Publicidade, Informação, e conferência de Educação: ( Yahoo / AP Notícias )

Q: Olhando para trás ao Q3 de 2005, havia alguma coisa lá dentro que era talvez uma espécie de one-time na natureza, que foram responsáveis ​​por esse crescimento de receita forte ...?

A: Então, nós passamos por um período de 18 meses, provavelmente, onde pensávamos que tínhamos ... bem, deixe-me caracterizá-lo ... tivemos que foi chamado de RevForce iniciativa Receita Force-o que era realmente uma equipe de engenheiros técnicos realmente muito brilhantes que eram tentando ajustar e otimizar o sistema de anúncios, e não, você sabe de uma maneira muito, muito responsável [não seja mau!] e esse tipo de paga muito bem com os frutos desse trabalho.

E o que aconteceu desde então é que temos tão bom e tão eficiente no que na época que realmente a maioria do que resta é apenas o crescimento orgânico, o que significa que você tem que crescer o seu tráfego e seu tem que crescer a sua monetização.

Mas assim, eu acho, que estamos agora, claramente nossas taxas de crescimento estão diminuindo. E você vê que cada trimestre. E nós vamos ter que encontrar outras maneiras, você sabe, para rentabilizar o negócio.

Mais tarde, no Q & A há algo sobre a "lei dos grandes números" em última análise, limitando o crescimento devido à falta de pessoas para olhar para a publicidade. Estes são problemas de alta classe para ter, e estes soam como perfeitamente comentários inteligentes para uma coffeetalk interna ou discussão particular. Mas quando o seu estoque está sendo negociado a 72x o lucro, é uma coisa ruim quando o CFO diz "o crescimento está a abrandar" a um quarto de investidores que procuram um crescimento extremo. A resposta vai ser "atirar primeiro e descobrir isso mais tarde", que é o que aconteceu esta manhã.

Lembra-me de uma cena em Ghostbusters:

Gozer: Você é Deus?
Ray: Não.
Gozer: Então - MORRER!

Winston: Ray, quando alguém pergunta se você é um Deus ", você diz SIM!


Quão grande é a taxa de crescimento? Puxando alguns dados do site de RI da Google , este gráfico mostra o crescimento bruto trimestral da GOOG receita para 2003-2005. A linha marrom é Adsense sites, a linha de luz azul é para os sites de propriedade do Google, ea linha azul escuro é o total.

Uma simplista limite inferior para o crescimento futuro do Google seria supor que ele controla o crescimento global do uso da internet. Eu inseri uma linha azul adicional apenas acima de 4%, o que é uma estimativa aproximada da taxa de crescimento global da internet. Eu não tentei encontrar dados detalhados, isto é a partir de Jakob Nielsen Alertbox , que cita uma taxa de crescimento anualizada de 18% de 2002 a 2005.

"Estamos chegando ao ponto em que a lei dos grandes números começam a criar raízes", disse Reyes terça-feira. "No final do dia, o crescimento lento. Será que vai ser precipitada? Eu duvido. "

Google emitiu um comunicado à imprensa no final da tarde :

Como já dissemos antes, as melhorias de monetização continuará a ser um fator-chave na condução de futuro crescimento da receita. Ainda vemos oportunidades significativas para melhorar a monetização e pretendem continuar a concentrar os nossos esforços nesta área.

Além disso, como já dissemos em nossos arquivos junto à SEC, a nossa taxa de crescimento da receita em geral diminuído ao longo do tempo e esperamos que continue a fazê-lo como resultado da dificuldade de manter as taxas de crescimento em termos percentuais como a nossa receita para aumento maior níveis.

Ei, que tal projecto GBuy vai, de qualquer maneira ...

Webcast da apresentação conferência (registro obrigatório)

Henry Blodget tem uma série de mensagens interessantes no Google, incluindo por que ele não possuí-la , aproxima-se a uma avaliação , os mais recentes ganhos , e as aventuras de hoje .

O dia analista Google chegando nesta quinta-feira deve ser bastante interessante. Talvez valesse a pena tentar apanhar o webcast . Aposta George está recebendo algum treino extra dentro

Google e capas de revistas como um indicador contrário

Is Google headed for a downturn? Not only is it featured in a generally negative cover article in this week's Barron's , but now it's featured on the cover of Time as well. Essas revistas atender a públicos muito diferentes, assim transformando-se em duas coisas ao mesmo tempo pode ser considerado um sinal de que o Google está atingindo um pico de tipos em ambas as frentes culturais financeiras e gerais.

There's a long tradition of things going badly for companies and people after getting this sort of high profile magazine cover treatment. Se o Google aparece próximo da capa da People ou Entertainment Weekly que está provavelmente condenada ...

Update 02-12-2006 18:31 PST: John Battelle suggests that having made the cover of Time, Google has “jumped the shark” , while Matt Cutts offers a recent historical perspective of Google's non-shark-jumping behavior while simultaneously demonstrating effective link baiting technique.

I don't consider myself an expert on shark-jumping, but I do think that hitting the covers of Barrons and Time is qualitatively different than the counter-examples that Matt offers. Google é a transição de ser amado por ser melhor, novo, e whizzy, e em uma fase em que as pessoas esperam que ele "simplesmente funciona". Google tem obtido grande o suficiente que as pessoas estão a desenvolver uma relação de amor / ódio com ele (e serviços web em geral) que eles têm com o e-mail, e onde a discussão sobre a privacidade, mídia e comércio está apenas começando a obter alguma atenção da crítica de pessoas de fora da terra tecnologia.

Reverse engineering a referer spam campaign

It looks like someone's launched a new referrer spam campaign today, there's a huge uptick in traffic here. As solicitações recebidas são de toda a internet, provavelmente a partir de uma botnet de PCs sequestrados, mas parece que todos os links apontam para uma rede de classe C em 85.255.114 em algum lugar na Ucrânia.

It's interesting to think a little about link spam campaigns and what opportunity the operators hope to exploit. Two major types of link spam on blogs are comment spam and referrer spam. My perception is that comment spam is more common. A maioria dos blogs agora envolvê links de saída em comentários dos leitores com o "rel = nofollow" para impedir comentários links de aumentar rank do Google para os itens ligados, mas os links ainda estão lá para as pessoas a clicar.

Referente spam é mais indireta. Ele é criado por fazer uma solicitação HTTP com o cabeçalho REFERER definida para a URL a ser promovido. Most of the time, this will only be visible in the web server log.

Here is a typical HTTP log entry:

 87.219.8.210 [04/Feb/2006: 15:20:35 -0800]
     GET / HTTP/1.1 weblog/archives/2005/09/15/google-blog-search-referrers-working-now
     403 - "http://every-search.com"

Some blogs and other web sites post an automatically generated list of “recent referrers” on their home page or on a sidebar. Em uso normal, isso seria mostrar uma lista dos sites que tinha ligado para o site que está sendo visto. Listas recentes referrer são menos comuns agora, por causa do aumento de referrer spam.

Referente de spam também vai aparecer no site estatística e resumos de trânsito. These are usually private, but are sometimes left open to the public and to search engines.

One presumed objective of a link spam campaign is to increase the target site's search engine ranking. Em geral, isso requer a construção de um conjunto de ligações de entrada válidos, de preferência sem o atributo "nofollow". Referrer spam may be more effective for generating inbound links, since recent referrer lists and web site reports typically don't wrap their links with nofollow.

As páginas de destino para os links nesta campanha é interessante na medida em que não contêm publicidade em tudo. Isto sugere que esta campanha está a tentar construir uma espécie de PageRank fazenda para promover outra coisa.

As páginas de reais são todos construídos no mesmo modelo de blog, e conter uma combinação de jargão e da barra lateral links para subdomínios com base em palavras-chave "valiosos". Usando o formato de blog automaticamente fornece um monte de site de interligação, e eles também têm "recente" e "top referer" listas, que são todos de outros sites de spam na rede.

Parece que o texto do conteúdo deve ser fácil de identificar como spam com base na análise de freqüência. Perhaps having a very large cloud of spam sites linking to each other along with a dispersed set of incoming referrer spam links makes the sites look more plausible to a search engine? Estes sites não parece ter qualquer, mas eu vim através de outros sites de spam e comentar mensagens de spam que têm links para sites que não são spam, como. Gov e locais de edu., Talvez tentando parecer mais credível a um motor de busca ranking algoritmo. Todos os sites de estar na mesma sub-rede que os torna mais fáceis de detectar, no entanto.

Given that there aren't that many public web site stat pages and recent referrer lists around, I'm surprised that referrer spamming is worth the effort. If the spam network can achieved good ranking in the Google and the other search engines, they can probably boost the ranking for a selected target site by pruning back some of their initial links and adding some links pointing at the sites that they want to promote. Afiliado links para pornografia, jogos de azar, ou sites de farmácias on-line deve pagar razoavelmente bem para que isso funcione para fora para os spammers.

Mais leitura: Uma lista de referências sobre PageRank e spam link detecção .

If you're having referrer spam problems on your site, you may find my notes on blocking referer spam useful.

Here's some sample text from “search-buy.com”:

I search-buy over least and and next train. Ne so at cruelty the search-buy in after anaesthesia difficulty general urinating. T pastry a ben for search-buy boy. Uma recusa viagem de pesquisa de comprar romances parecia Azusa Pacific University ca. Stoc dos meus é e busca-Compra Direta com Titãs sexo. Kid philadelphiaa would and york search-buy. G search-buy wore shed i dads. obstáculos futuros pesquisa-buy direito tinha XIX sátira. Os que eu ups isso em busca comprar menos encontra áudio Express Richmond. ter esta janela foi maravilhoso me procurar comprar-lo. Surel in actually search-buy our boy deep franklin notions. An search-buy it of my has of. Para a cabeça menino que um buy pesquisa. O james search-buy everywhere of but. Alread originam busca comprar bem sobre desde então.

Here are a few spam sites from this campaign and their IP addresses:

bikini-now.com A 85.255.114.212
babestrips.com A 85.255.114.229
search-biz.biz A 85.255.114.245
bustytart.com A 85.255.114.250
 cjtalk.net A 85.255.114.227
search-galaxy.org A 85.255.114.252
moresearch.org A 85.255.114.237

Aqui está a saída WHOIS para que netblock:

% Information related to '85.255.112.0 - 85.255.127.255' inetnum: 85.255.112.0 - 85.255.127.255 netname: inhoster descr: Inhoster hosting company descr: OOO Inhoster, Poltavskij Shliax 24, Kharkiv, 61000, Ukraine remarks: ----------------------------------- remarks: Abuse notifications to: abuse@inhoster.com remarks: Network problems to: noc@inhoster.com remarks: Peering requests to: peering@inhoster.com remarks: ----------------------------------- country: UA org: ORG-EST1-RIPE admin-c: AK4026-RIPE tech-c: AK4026-RIPE tech-c: FWHS1-RIPE status: ASSIGNED PI mnt-by: RIPE-NCC-HM-PI-MNT mnt-lower: RIPE-NCC-HM-PI-MNT mnt-by: RECIT-MNT mnt-routes: RECIT-MNT mnt-domains: RECIT-MNT mnt-by: DAV-MNT mnt-routes: DAV-MNT mnt-domains: DAV-MNT source: RIPE # Filtered organisation: ORG-EST1-RIPE org-name: INHOSTER org-type: NON-REGISTRY remarks: ************************************* remarks: * Abuse contacts: abuse@inhoster.com * remarks: ************************************* address: OOO Inhoster address: Poltavskij Shliax 24, Xarkov, address: 61000, Ukraine phone: +38 066 4633621 e-mail: support@inhoster.com admin-c: AK4026-RIPE tech-c: AK4026-RIPE mnt-ref: DAV-MNT mnt-by: DAV-MNT source: RIPE # Filtered person: Andrei Kislizin address: OOO Inhoster, address: ul.Antonova 5, Kiev, address: 03186, Ukraine phone: +38 044 2404332 nic-hdl: AK4026-RIPE source: RIPE # Filtered person: Fast Web Hosting Support address: 01110, Ukraine, Kiev, 20Á, Solomenskaya street.  . quarto 201 endereço: UA telefone: +357 99 117759 e-mail: support@fwebhost.com nic-hdl: fonte FWHS1-RIPE: RIPE # Filtered 
Page 1 of 5 1 2 3 4 5