reCAPTCHA ajuda a digitalizar milhões de textos antigos: O PROBLEMA: Spammers
Serviços de email grátis como Google, Yahoo! e Microsoft estavam sofrendo ataques de hackers/spammers que haviam criado programas capazes de obter milhões de contas de email todos os dias.
reCAPTCHA ajuda a digitalizar milhões de textos antigos
Por que os spammers precisavam de tantos emails? Porque os serviços de email permitiam que usuários enviassem somente um número específico de emails por dia (Yahoo permitira 100 envios de email por dia), então para que a tática de spam pudesse funcionar efetivamente, os spammers precisavam de um número gigantesco de endereços de email.
A SOLUÇÃO: CAPTCHA
Desenvolver um programa que protege os websites contra os robôs por meio da aplicação de um teste que os humanos podem passar, mas os robôs não. Por exemplo, humanos podem ler textos distorcidos como estes abaixo, mas os programas de computador não.
Em 2000, Luis von Ahn e Manuel Blum conceberam o termo ‘CAPTCHA’. Eles inventaram múltiplos exemplos de CAPTCHAS, incluindo os primeiros CAPTCHAs que seriam usados amplamente, os que foram adotados pelo Yahoo.
A REVELAÇÃO
- Aproximadamente 200 milhões de CAPTCHAs são digitados todos os dias ao redor do mundo
- Cada CAPTCHA leva aproximadamente 10 segundos para o preenchimento;
- 500.000 horas de tempo humano perdidas todos os dias digitando CAPTCHAs
O DESAFIO
Existe alguma maneira de este esforço humano ser utilizado para o bem da humanidade?
A SOLUÇÃO REAVALIADA: reCAPTCHA
– Digitalizar livros uma palavra de cada vez. reCAPTCHA é um serviço grátis do CAPTCHA que ajuda a digitalizar livros, jornais e shows de rádio antigos.
Como isso funciona
Digitalizar livros consiste do processo de tirar fotos de páginas do livro e em seguida usar OCR (reconhecimento óptico de caracteres) para descobrir o que as palavras são. Entretanto, em textos antigos, o OCR é bastante impreciso – para os livros escritos antes de 1900, OCR perde cerca de 30% das palavras.
O reCAPTCHA melhora o processo de digitalização de livros enviando para a web palavras que os humanos são capazes de decifrar, mas que não conseguem ser lidas por computadores na forma de CAPTCHAs. Cada palavra que não pode ser lida corretamente por OCR é colocada em uma imagem e usada como CAPTCHA. Isso é possível porque a maioria dos programas emite um alerta quando uma palavra não pôde ser lida corretamente.
Mas se um computador não pode ler tal CAPTCHA, como o sistema é capaz de conhecer a resposta correta?
A resposta: o reCAPTCHA oferece aos usuários duas palavras distorcidas. O sistema sabe o que uma delas é – se você identificá-la corretamente, ele assume que você provavelmente está respondendo a segunda (a ordem é aleatória) usando o melhor da sua capacidade e supõe que a sua resposta seja correta também para a nova palavra. O sistema então oferece essa nova imagem para um grupo de outras pessoas para determinar, com maior precisão, se a resposta original estava correta. Quando este grupo identifica a palavra desconhecida da mesma forma, é muito provável que o reconhecimento seja exato.
As duas palavras do reCAPTCHAs são tão velozes quanto digitar seqüências aleatórias de 6-8 caracteres, de modo que von Ahn não está nos fazer trabalhar mais.
É assim que os textos digitalizados vão sendo corrigidos, palavra por palavra. A maior parte desses textos são provenientes dos arquivos do New York Times e do projeto de digitalização do Google. E o Google gostou da tecnologia que acabou comprando o reCAPTCHA.
Leave a comment