Сохранение веб страницы полностью

Узнайте о лучших программных инструментах и сервисах веб-архивирования, которые помогут сохранить любую веб-страницу. А также о том, как скопировать страницу сайта .

Веб-страницы со временем изменяются, они могут даже исчезнуть. Поэтому если вы хотите сохранить веб-страницу навсегда, нужно скачать ее на свой компьютер ( и загрузить на Dropbox ) или использовать сервис веб-архивирования, который будет бесплатно хранить копию этой страницы на своих серверах.

Существует много способов сохранять веб-страницы навсегда, и выбор инструмента будет зависеть от вида контента, который вы хотите сохранить в архив:

Архивы веб-страниц, постоянные

Если вы хотите сохранять текстовый контент, то для этих целей рекомендуются Pocket и Instapaper . Вы можете сохранять страницы через электронную почту, расширения для браузеров или через приложения. Эти сервисы извлекают текстовый контент из веб-страниц и делают его доступным на всех ваших устройствах. Но вы не можете загрузить сохраненные статьи, а только прочитать их на сайте Pocket или через мобильное приложение сервиса. Дальше мы расскажем, как полностью скопировать страницу сайта.

Evernote и OneNote — это инструменты для архивирования контента в подборки. Они предоставляют в распоряжение пользователей веб-клипперы ( или расширения ), которые позволяют легко сохранять полные веб-страницы в один клик.

Захваченные веб-страницы могут быть доступны с любого устройства, сохраняется оригинальный дизайн и возможность поиска по странице. Эти сервисы могут даже выполнять оптическое распознавание, чтобы найти текст на фотографиях. Evernote также позволяет экспортировать сохраненные страницы как HTML-файлы , которые можно загрузить в другом месте.

Если нужен быстрый и простой доступ к веб-страницам, то сохраняйте их в виде PDF-файлов . Перед тем, как скопировать страницу сайта в виде картинки, выберите правильный инструмент.

Google Chrome имеет встроенный PDF-конвертер . Также можно использовать Google Cloud Print . На сервис добавлен новый виртуальный принтер « Сохранить в Google Drive «. В следующий раз, когда вы будете печатать страницу на компьютере или мобильном устройстве через Cloud Print , вы сможете сохранить ее PDF-копию в Google Drive . Но это не лучший вариант сохранения страниц со сложным форматированием.

Когда важно сохранить дизайн, то лучше всего использовать скриншотер. Выбор подобных программ довольно велик, но я бы рекомендовал официальное дополнение Chrome от Google . Оно не только захватывает полные скриншоты веб-страниц, но также загружает полученное изображение на Google Drive . Дополнение может сохранять веб-страницы в формате веб-архива ( MHT ), который поддерживается в IE и Firefox .

Wayback Machine на Internet Archive — это идеальное место для поиска предыдущих версий веб-страницы. Но этот же инструмент можно использовать, чтобы скопировать страницу сайта и сохранить ее. Перейдите на archive.org/web и введите URL-адрес любой веб-страницы. Архиватор скачает на сервер ее полную копию, включая все изображения. Сервис создаст постоянный архив страницы, который выглядит так же, как оригинал. Он останется на сервере, даже если исходная страница была переведена в автономный режим.

Internet Archive не предоставляет возможности загрузки сохраненных страниц, но для этого можно использовать Archive.Is . Этот сервис очень похож на archive.org в том, что вы вводите URL-адрес страницы, и он создает на своем сервере точный ее снимок. Страница будет сохранена навсегда, но здесь есть возможность загрузить сохраненную страницу в виде ZIP-архива . Сервис также позволяет создавать архивы по дате. Благодаря чему вы можете получить несколько снимков одной и той же страницы для разных дат.

Все популярные браузеры предоставляют возможность загрузить полную версию веб-страницы на компьютер. Они загружают на ПК HTML страницы , а также связанные с ней изображения, CSS и JavaScript . Поэтому вы сможете прочитать ее позже в автономном режиме.

Теперь разберемся, как полностью скопировать страницу сайта на электронную читалку. Владельцы eReader могут использовать dotEPUB , чтобы загрузить любую веб-страницу в формате EPUB или MOBI . Данные форматы совместимы с большинством моделей электронных книг. Amazon также предлагает дополнение, с помощью которого можно сохранить любую веб-страницу на своем Kindle-устройстве , но этот инструмент в основном предназначен для архивирования текстового контента.

Большинство перечисленных инструментов позволяют загружать одну страницу, но если вы хотите сохранить набор URL-адресов , решением может стать Wget . Также существует Google Script для автоматической загрузки веб-страниц в Google Drive , но таким образом можно сохранить только HTML-контент .

Данная публикация представляет собой перевод статьи « The Best Tools for Saving Web Pages, Forever » , подготовленной дружной командой проекта Интернет-технологии.ру

Введение

Идея сохранения любой веб-страницы в виде одного файла со всеми вложенными ресурсами не нова, и существует немало альтернатив. Например, веб-браузер Safari позволяет сохранять отдельные веб-страницы для просмотра в автономном режиме, сохраняя все элементы страницы в веб-архиве (расширение файла .webarchive). Есть также MHTML, формат веб-архива, который аналогичным образом сохраняет веб-страницы в одном файле. Есть даже оффлайн-браузеры (привет модемные подключения и ночные дозвоны до провайдера!) со своими собственными форматами хранения данных (хотя они немного сложнее чем просто сохранение страниц, там они целые сайты сохраняли)

Но у всех описанных выше средств есть некоторые ограничения, такие как требование использования определенного браузера или стороннего клиента для просмотра полученного результата. Например, вы можете сохранять и просматривать файлы .webarchive только с помощью веб-браузера Safari и некоторых сторонних решений. Что касается MHTML, он больше не поддерживается для просмотра в Firefox, да и Google Chrome недавно удалил пользовательский флаг # save-page-as-mhtml, который ранее позволял сохранять веб-страницы как MHTML (возможно есть некоторые расширения, которые возвращают эту функциональность, я не проверял).

Так как же сохранить файлы чтобы было удобно и не было так неряшливо как куча файлов и директорий?

Решение

Есть программа Monolith, это инструмент командной строки для сохранения любой веб-страницы в виде одного HTML-файла, который будет содержать в себе всё необходимое для локального отображения веб-страницы, без необходимости подключения к Интернету, и вы можете использовать любой веб-браузер для их просмотра. Это означает, что вы не полагаетесь на какие-либо сторонние решения, и вам не нужны веб-браузеры, чтобы продолжать поддерживать формат веб-архива, обеспечивая защиту ваших локально сохраненных веб-страниц в будущем.

Эта программа может вам пригодиться чтобы сохранять веб-страницы содержащие документацию, вики-статьи и всё-всё что вас заинтересует, для локального / автономного использования. Поскольку веб-страницы сохраняются в обычном формате HTML, вы сможете использовать обычные инструменты поиска в файлах, чтобы быстро найти нужную веб-страницу.

Обычная опция «Сохранить страницу как» (или Ctrl + s) (предоставляемая веб-браузерами для сохранения веб-страниц на вашем компьютере) сохраняет ресурсы веб-страниц в папке рядом с сохраненной веб-страницей. Monolith же извлекает активное содержимое веб-страницы и преобразует его в данные закодированные base64, подставляя их затем в документе вместо обычных URL-адресов. В результате ресурсы страницы, такие как Javascript, CSS или изображения, встроены в HTML-код страницы, поэтому все, что вам нужно, — это веб-браузер для доступа к локально сохраненной веб-странице.

Инструмент также предоставляет 2 полезных параметра: -i для удаления изображений с сохраненных веб-страниц и -j для исключения JavaScript.

Изначально Monolith использовал Node.js, но совсем недавно был переписан на Rust. В настоящее время он неплохо работает для большинства страниц, но есть еще несколько вещей, которые требуют доработки.

Недостатки

Например, встраивание импорта CSS и веб-шрифтов в настоящее время не поддерживается, хотя похоже что разработчик планирует реализовать это в ближайшее время.

Так же не работает пока сохранение веб-страниц, требующих аутентификации. Кроме того, не работает сохранение встроенных видео, но это в любом случае не может быть осуществимо, поскольку встраивание видео в виде base64-данных приведет к созданию очень большого HTML-файла, и если вы захотите отредактировать HTML-файл, это будет боль.

Стоит также отметить, что Monolith сохраняет то, что находится на веб-странице, когда она загружается, поэтому он не будет хорошо работать с веб-сайтами, которые реализуют бесконечную прокрутку. Во первых это реализуется по-разному, в зависимости от веб-сайта (когда я тестировал — сохранялось только начало, как если бы прокрутку никто не трогал). Это, видимо, везде где реализована ленивая загрузка данных.

Установка

Для установки Monolith мы будем использовать Cargo — систему сборки Rust и менеджер пакетов. Вам также необходимо установить OpenSSL (devel), чтобы собрать Monolith. Установите это всё в Linux, используя:

Debian / Ubuntu / Linux Mint / Pop!_OS, etc.:

И снова с вами автор блога scriptcoding.ru. В сегодняшнем посте мы рассмотрим 11 полезных сервисов и плагинов для сохранения веб страниц и выделенного текста.

Может возникнуть вполне логический вопрос – зачем нужно использовать какие-то сервисы или плагины под браузер, если сохранить веб страницу полностью можно и без всего этого ? Верно, у каждого браузера есть свой уголок для закладок, куда мы можем методом перетаскивания или с помощью контекстного меню сохранить нужную веб страницу, что бы потом просмотреть ее. Однако, есть одно но…

Сейчас стало модным использовать не рядовые ноутбуки, а планшеты, айфоны, айпады и так далее. Конечно. Там тоже есть браузеры с закладками, и вы тоже можете сохранять любимые сайты в закладки, но… это не всегда удобно, и приходится искать другие пути для выполнения поставленных задач.

Кроме того, нужно всегда создавать резервную копию закладок, так как при первом же крушении Windows, пойдут в неведомую страну и все сохраненные закладки. Но и это не панацея, так как пострадать может и сама файловая система, и… не всегда получается в таком случае восстановить данные, накопленные многолетним серфингом по просторам интернета.

Онлайн сервисы для сохранения веб страниц

Instapaper – сохранение веб страниц

В первую очередь, нужно зарегистрироваться на сервисе www.instapaper.com . Сказать честно, главная страница выглядит довольно уныло, но… мы же не за красотою сюда пришли. После регистрации мы переходим в личные кабинет, слева находится меню со следующими пунктами:

  • Home – собственно, переход на морду. Справа находится текст с приветствием.
  • Liked – тут будут отображатся те страницы, которые вы пометили как Мне нравиться.
  • Archive – Собственно, архивы сохраненных веб страниц.
  • Highlights – данный пукт предназначен для выделения и сохранения текста из любой веб страницы.
  • Browse – что то на подобие ленты новостей.
  • Add Folder – достаточно нажать, что бы создать новую папку.

В самом верху, справа, есть пункт Add Link, нажав на который вы можете произвести сохранение выб страницы, указав ее URL адрес. Сохраненная веб страница будет отображаться в пункте Home.

Теперь, собственно, может возникнуть логический вопрос – и что толку? Неужели мне придется каждый раз копировать адрес нужной веб страницы, что бы сохранить ее? Конечно нет! В самом низу сервиса, слева, есть пункт More, нажав на него, появится небольшое меню. Пока нам достаточно перейти в How to Save. Тут можно выбрать, куда будет происходить сохранение и каким образом. Я выбрал вкладку Browser, здесь есть две кнопки, которые предназначены для сохранения веб страницы и выделенного текста. Просто перетягиваем кнопки в панель закладок вашего браузера и все. Как только вы захотите сделать сохранение заданной веб страницы или выбранного текста, достаточно будет нажать на эти кнопки.

LaterThis – как сохранить веб страницу

Как и с предыдущим вариантом, нам нужно перейти на сайт laterthis.com и регистрируемся. Данный сервис тоже дает возможность добавить небольшую кнопочку в панель закладок в вашем браузере. Есть два варианта кнопочек: простое добавление и быстрое добавление. Простое добавление открывает новую вкладку и позволяет вписать метки, поменять описание, название; а быстрое просто добавляет, не открывая вкладки. Также каждой ссылке можно ставить "звездочки", т.е. кое-какой рейтинг имеется. Также сервис позволяет просматривать списки ссылок другим пользователям сервиса.

GetPocket – как сохранить веб страницу в закладки

Нравится мне getpocket.com тем, что кроме плагинов для Хрома, Мозилки, и хромого Эксплорера имеет в своём запасе приложения для iPhone, BlackBerry, Android. Чтобы сохранить нужную веб страницу нужно просто нажать на кнопочку в адресной строке. Еще нравится этот ресурс тем, что не нужно переходить на их сайт, чтобы просмотреть список своих ссылок, плагин позволяет сделать это в специальном окошечке, в котором также можно удалять и редактировать записи.

ReadBag – сохранение любимых веб страниц

Регистрироваться на данном ресурсе readbag.com не нужно, т.к. можно войти при помощи гугловского аккаунта. Также легко встраивается в любой браузер в панель закладок. Есть мобильная версия, которая очень удобна.

ToRead – как можно сохранить веб страницы

Необычный сервис toread.cc , понравится далеко не всем. Сразу же Вам предложат регистрацию, нужно просто ввести мыло и в ответ упадет Вам с неба письмецо со ссылочкой для регистрации. Также как и все подобные сервисы встраивается в панель закладок в браузере, но в отличие от других никакой список страниц не создается, страницы просто сохраняются сервисом и отсылаются Вам на почту. Этот сервис для извращенцев, у меня на почте и так мусора хватает.

LaterLoop – сохраняем нужные веб странички

Еще один сервис www.laterloop.com . Очень даже хороший сервис, также есть рейтинг, архив, навороченный плагин для мозилы, который позволяет нажатием клавиш Ctrl + Space (просто сохраняет страницу) или Ctrl + Space + Space (сохраняет веб страницу и закрывает вкладку). Также есть мобильная, удобная версия сайта.

Elert Gadget – еще один сервис для сохранения ваших веб страниц

Еще один сервис www.elertgadget.com . Кроме кнопки, которую можно добавить в панель закладок в браузере, и плагинов для Firefox и IE, есть еще десктопная программа на Air. Перед тем как сохранить страничку Вы можете сделать её приватной или публичной, добавить описание, выбрать папку для размещения.

Плагины для мозиллы для сохранения интересных веб страниц

ScrapBook

Расширение для браузера Mozilla Firefox для того, чтобы сохранять веб страницы и манипулировать коллекцией сохраненных сайтов. При помощи него можно сохранять ссылки, создавать новые папки для ссылок, редактировать ссылки, экспортировать к себе на компьютер.

TaBoo

Очень хороший плагин для всеми обожаемой огненной лисы. Делает скриншоты сохраненной Вами страницы и, как видите, показывает сохраненные сайты в виде картинок, мне нравится. Позволяет отсортировать картинки по сетке, по дате, по деталям. Естественно Вы сами вправе редактировать название, описание и так далее.

Tark

Еще один плагин для FireFox(ика). Вы можете создать отдельную папку в закладках, в которую будет сохраняться все то, что Вы не успели прочитать или не хотели. Также Вы вправе решать, как долго будут показываться сохраненные плагином веб страницы, и также Вы можете решить, что делать с теми закладками, которые Вы посещали.

Save To Read

Еще один плагин для огненной мозилы, который позволяет быстро сохранять и удалять временные закладки, простота и удобство.

Всё… И еще небольшой совет: выбирайте лучше что-то из сервисов, т.к. плагины сохраняют информацию на жесткий диск Вашей машины, и при поломке компьютера или смерти ОС и Вы просто потеряете все сохраненные ранее ссылки. Хотя это не так и важно, но все же…

В добавок, к уже упомянутым сервисам и плагинам, советую ознакомится со следующими статьями:

Тут я тоже описал довольно много интересных вещей, которые могут пригодиться вам при работе в интернете.

Спасибо за внимание. Автор блога Владимир Баталий


[an error occurred while processing the directive]
Карта сайта