{sape_links}

reCAPTCHA: «Цена вопроса»?

23 ноябрь 2011 9 193 0

В последнее время в Интернете всё большей популярности набирает, так называемая, reCAPTCHA. Причём ставят её все – от мала до велика, начиная с персональных сайтов, - заканчивая посещаемыми форумами.

Многие разработчики и вебмастеры свято и непоколебимо уверены, что данная капча помогает защитить от автоматических спам-ботов. Это в корне не верно. Данная «религия» имеет место только в том случае, когда у спамера нет денег – об этом чуть позже.

В довольно узких кругах все знают, что распознать эту капчу в автоматическом режиме не составит абсолютно никакой сложности. Существуют специальные сервисы, которые за скромную плату помогут в распознавании таких капч. Эти сервисы располагают довольно мощным API, позволяющий интегрировать сервис с практически любым программным комплексом: от десктопного – до веб-скриптов. Процент распознавания – практически равен такому при распознавании человеком. Стоимость? 1$ за 1000 отправленных капч. Признайтесь – это сущие копейки (особенно для людей, зарабатывающих на этом).

Что мы имеем в итоге?

Ресурсы поголовно как из инкубатора, начинают использовать «готовое решение», таблетку от спама.

Рядом с этим страдает только обычный пользователь. Школоту, скачавшую софт на шару – мы в расчёт не берём. Спамеры – профи, они будут использовать API антикапчи.

Как устроена reCAPTCHA

Более подробно эта тема описана в одной из заметок на хабрахабре.

Если вкратце, то Wikipedia нам скажет следующее:

reCAPTCHA — система, разработанная в университете Карнеги — Меллон для защиты веб-сайтов от интернет-ботов, и одновременной помощи в оцифровке текстов книг. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. На начало 2011 года, reCAPTCHA осуществляла оцифровку архивов газеты «The New York Times» и книг, доступных в Google Book Search.

Что это значит? Пользователю предъявляется одно случайно сгенерированное слово, изображение которого искажено (оно заведомо известно системе), и одно слово из оцифрованного документа, которое не смогла распознать система оптического распознавания (OCR). Оба слова пользователь должен ввести в поле ввода в виде текста. Т.е. в отличие от традиционных систем распознавания, система reCAPTCHA предлагает пользователю ввести два слова.

Одно из них известно системе, другое слово системе. Проверка ввода осуществляется по тому слову, которое известно системе. Неизвестное системе слово, введённое пользователем, сохраняется и используется в качестве возможного варианта распознания.

Эффективность reCAPTCHA была (до появления anticaptcha) только в том, что она помогала распознать текст, неразличимый OCR, основываясь на множестве предоставленных распознанных вариантов.
Таким образом, пользователи вынуждены вводить вдвое больше текста, чем в других системах. Рядом с этим, весь доход от распознавания текста остаётся корпорации Google, что расценивается некоторыми как принудительная эксплуатация труда.

Критика

В последнее время, reCAPTCHA подвергается критике пользователей из-за того, что картинки с трудом распознаются даже человеком, при этом защита – чисто теоретическая. На практике, пользователь не обязан вводить оба слова – одно из них не проверяется (можно ввести любую букву или слово вместо него). Не проверяемое слово можно определить по наличию запятых, восклицательных, вопросительных знаков и т.д., оно не раздваивается, как проверяемое слово. Также возможна инверсия цветов фона и букв у не проверяемого слова. Таким образом, данная методика получила широкое распространение, на выходе получатся неточности.

Почему я с уверенностью говорю о искажении данных? Здесь вполне применим закон Парето. Если его интерпретировать к этому случаю, получится, что 80% пользователей создают только 20% трафика загружаемых изображений, остальные 80% трафика могут создать спамеры. И у них для этого инструментов более, чем достаточно: гибкий API, низкая стоимость распознавания, наличие специализированного софта, прокси-сервера, возможность подмены useragent и т.д.

Послесловие

Каждый веб-мастер в праве сам принимать решение, какую систему защиты от спама ему использовать. Однако, я бы крайне не рекомендовал использовать reCAPTCHA. Сама идея – хороша, но реализация не учитывает современных реалий. В итоге – пострадает только обычный пользователь.

На текущий момент, нет системы лучше, нежели модерация людьми. Для некоторых ресурсов потребуется не один модератор. Пример эффективной реализации – ресурс Хабрахабр, который, по сути, является саморегулируемым: пользователи выставляют рейтинг публикациям и комментариям, а также выставляют «карму» пользователя. При достижении негативных значений у комментариев – они скрываются, при негативном рейтинге – пользователь ограничен в правах. В зависимости от уровня рейнтинга и кармы, пользователю доступно некоторое число голосов.

Рейтинг влияет на возможности:

У каждого - свой рентинг.

Негативные комментарии скрываются, это влияет на рейтинг.

Итоговая оценка зависит от разницы позитивных и негативных голосов.

Ключевые слова:

reCAPTCHA капча спам бот человек модерация Google

Вышел Mozilla Firefox 16

Mozilla Firefox 16 должен был выйти в массы ещё 9-го октября. Однако уже 10-го октября разработчики Mozilla Foundation обнаружили брешь в...

Корпоративная культура

Словосочетание «корпоративная культура» в последнее время на постсоветском пространстве набирает всё большей популярности. И Украине – не исключение....

Запущен сервис: расчёт мощности БП

Довольно таки часто приходится производить расчёт мощности блока питания для компьютеров с заданной конфигурацией. Дабы не тратить каждый раз, и без...

Превращаем СДЛ в УГ: 10 шагов

Нужно создать такое меню, в котором сам создатель будет использовать «указательные знаки». Разделы подменю должны быть как можно больше...

Ликбез: кнопки и счётчики 88х31

В последнее время среди многих веб-мастеров стало «стандартом» вешать гору говно-кнопок на свои сайты. Зачем это нужно – они сами того не знают, но...

Мобильные устройства и социальные сети

Оговорюсь сразу. Я не сторонник соц сетей, но многое указывает именно на это направление развития, хочется нам того или нет. Не так давно на...

Быстрая навигация