Уже несколько недель скраплю сайт BBC. Уже выскаблил 256 гигабайт чистого HTML. И это с учетом того, что пришлось отсечь целые языковые ветки сайта. Всего уже собралось 520K страниц, и 580K в очереди. Место на HDD заканчивается. Похоже я немного переоценил свои возможности. И это я еще не приступал к парсингу страниц, что обещает быть еще более медленным процессом. Беда.