где брать уникальные статьи методика

Как получать сотни уникальных статей практически на автомате.

Спасибо, что посетили настроить блог. Метод описанные, в нем очень простой для освоения.
Однако он позволяет получать множество статей на различные тематики абсолютно
бесплатно и вся работа по максимуму автоматизирована. Я уже давно сам использую его,
но на данный момент я работаю в другой области и у меня нет необходимости в таком
количестве материалов.

Итак, мы будем работать с Вебархивом, который с давних времен хранит у себя копии
различных сайтов. Эти сайты я могу разделить на несколько типов:
1. Сайты, которые уже давно не работают.
2. Сайты, которые работают, но совершенно по другой тематике.
3. Полностью работающие сайты.

Нам необходимы будут первые 2 типа. Обычно они содержат, интересующие нас
материалы. Не буду лить лишнюю воду, а лучше дам конкретные инструкции.

Подробная инструкция по добыче уникальных статей с web.archive.org

1.Открываем любой браузер и набираем адрес web.archive.org. Интерфейс очень простой
и понятный для освоения.

Раньше я собирал огромные списки свободных доменов и проверял их на доступность в
вебархиве. Это требовало много ручной работы и часто не давало необходимых
результатов. В итоге все оказалось намного проще. Сам сайт позволяет искать копии
сайтов по ключам, которые можно задать в поисковой строке и это значительно
сокращает выборку. А также это позволяет вам работать только с той тематикой, которая
необходима в данный момент.

Давайте для примера пробежимся по женской тематике. Первый запрос, который сразу
пришел в голову - " Женские истории".


Как видим по этому запросу есть хорошая выдача и остается только немного
проанализировать доноров.

1. Необходимо выбрать сайты, где количество страниц в архиве будет хотя бы больше
100.




2. Далее нужно проверить выбранный домен на текущее состояние. В нашем случае я

выбираю 2 по списку - www.womanstory.ru. Если ввести его в адресную строку, то мы
увидим, что этот домен полностью рабочий и соответствует тематике. Его можно сразу
пропускать.
3. Повторяем пункты 1 и 2 пока не найдем домен, который не работает или имеет
совершенно другую тематику (например дорвей, или сайт компании).
4. В случае с примером, таким сайтом оказался сайт www.jenskie-istorii.ru, у которого 93
доступных уникальных копии страниц сайта.
5. Сохраняем найденные домены в текстовый файл.

Парсим доноров и получаем ссылки для автоматического парсинга
Была написана собственная программа для сбора доступных для парсинга ссылок с
донора "WebArchiveLinkParser". Программа имеет простейший интерфейс и позволяет
значительно ускорить этап сбора ссылок с доноров, для их дальнейшего парсинга в
Content Downloader.

Кроме того, были внесены изменения в сам файл автоматического парсинга. Теперь
фильтрация ссылок производится непосредственно перед парсингом статей.
1. Открываете файл "lists.txt" из папки "WALP 1.0" и добавляете не больше 10 доноров в
список. Сохраняете файл.
ВАЖНО. Ссылки вы должны сохранять без префикса http://
Например ссылка вида http://www.jenskie-istorii.ru будет добавлятся как - www.jenskieistorii.ru
3. Открываете программу WALP.exe из папки "WALP 1.0". Мы должны увидеть список
наших доноров в окне программы. Если нет, то проверяйте файл "lists.txt"


4. Нажимает кнопку "Спарсить" и ожидаем завершения
5. Результат парсинга находится в папке "result". Файлы с результатами имеют название
донора.

Автоматический парсинг

Т.к. ломанный CD последних версий перестал корректно работать с парсингом страниц, то
будем использовать старую версию (нам в принципе больше и не надо).
1. Запускаем старую версию CD из папки "Content Downloader II ver.2.79"
И открываем проект (CTR+O) - "автоматический парсинг с web.archive.org.cdp".
1. Вставляем список ссылок в окно парсера ( F8 + вставить + OK). Нажимаете правой
кнопкой по списку ссылок + "Применить фильтры к списку ссылок"
2. Указываем куда сохранять полученные статьи:
3. Ничего не меняем!
4. Запускаем итоговый парсинг статей (F5):
Ожидаем завершения парсинга.

Остается последний этап- проверка контента на уникальность.
Как проверять полученный контент на уникальность
1. Проверка контента вручную на различных сервис: text.ru, etxt.ru или content-watch. Недостаток метода заключается в том, что это долго и такие сервисы стараются ограничивать количество запросов для одного IP адреса.
2. Использовать пакетную проверку статей за определенную плату ( на том же text.ru есть различные пакеты символов)
3. Использовать программы для проверки (AntiPlagiarism.Net или Adego Plagiatus).

Я лично выбрал последний 3 пункт, т.к. он практически бесплатный (позже объясню почему) и позволяет пакетно проверять статьи.

Проведя множество тестов с различными программами я остановился на AntiPlagiarism.Net от сервиса etxt.ru. Для скачивания последней версии вам необходимо перейти по адресу -
https://www.etxt.ru/antiplagiat/ и скачать необходимый дистрибутив под вашу операционную систему.
Открываем программу и загружаем наши статьи для пакетной проверки:
1. Кликаем на значок "Пакетная проверка"
2. Указываем папку откуда следует брать статьи для проверка. В дополнительных опциях мы можем установить порог для уникальных статей и папку, куда они будут помещаться. Также советую статьи с недостаточной уникальностью слаживать в отдельную папку и далее отдавать их на доработку  копирайтерам (рерайт). Я так часто делал и это не стоило больших денег, т.к. требовалась лишь небольшая доработка.
3. Запускаем проверку (кнопка "Проверить уникальность").

Как видим даже мой тестовый прогон 10-ти статей выдал нам 1 уникальную статью уже на 4 проверке.
Это программа бесплатная, но поисковая система Яндекс часто блокирует частые запросы с одного IP (в случае проверки достаточно большого объема статей). В этом случая очень хорошим решением будет сервис https://anti-captcha.com/. Там достаточно низкая стоимость за разгадывания капчи и даже 100 рублей вам хватит на несколько сотен статей или даже больше.
Если вам нет необходимости работать с большими объемами статей, то просто достаточно будет включить отображение капчи и вводить ее вручную. Для настройки необходимо проделать следующий манипуляции с настройками:
Меню->Операции->Настройки->Вкладка "Другие" и поставить галочку на опции "Показывать капчу..."
Если вы хотите полностью автоматизировать эту проверку, то зарегистрируйтесь в сервисе, получите персональный ключ и добавьте его в настройки программы. Для этого снова заходим в настройки, убираем галочку "Показывать капчу...", а вместо нее активируем "Использовать сервис антикапчи".
Сохраняем и занимаемся своими делами, пока программа выполняет свою работу.
Этим не очень хитрым способом я добывал много необходимого мне контента для различных проектов.

По своему опыту скажу, что лучше перепроверять статьи перед публикацией на указанных ранее онлайнсервисах, т.к. поисковые системы иногда могут по разному отдавать выдачу для проверки статей программами. Но как показывает практика итоговое количество статей все равно остается огромным.
Удачи вам !
Ссылки используемые в курсе
1. web.archive.org (сайт архива, который хранит копии различных сайтов на своих серверах)
2. Content Downloader. (http://sbfactory.ru/)
Это уникальная программа для парсинга контента, изображений и других необходимых данных с любых
сайтов. Я советую купить ее лицензионную версию если вы работаете с получением различных данных для любых целей.

3. Text.ru - сервис проверки контента на уникальность. Пожалуй лучший в своем роде.
4. Content-Watch.ru - сервис проверки контента на уникальность. Проверяет быстро, но часто ошибается.
5. Etxt.ru - сервис проверки контента на уникальность. Хороший сервис + есть десктопная версия
программы для проверки.
6. Advego.com - сервис проверки контента на уникальность. Биржа контета и различные сервисы для проверки статей + есть своя программа.

4 комментария:

  1. привет! есть желание продать свой блог с адсенсом!?!

    ОтветитьУдалить
    Ответы
    1. есть еще 3 блога с посещаемостью от 60 посетителей в сутки какая цена, примерно. Хочу завязывать с блогами и переходить в оффлайн, дело свое есть.

      Удалить
    2. Анонимный06:04

      куплю блоги от 300 рублей и выше пиши https://directory-bloggers.blogspot.com/

      Удалить

давай скажи!