Как сохранить все изображения из документа MS Word
Документы MS Word представляют собой чрезвычайно удобный «контейнер», в который можно поместить не только текст, но и массу других данных — диаграммы, таблицы, рисунки. Все это прекрасно до тех пор, пока не возникает необходимости «разобрать» DOC-файл по частям. Предположим, достать одну-две фотографии из документа в сотню страниц — это не проблема. А вот как достать из него сразу ВСЕ изображения?
К счастью, такой способ есть, точнее есть даже два способа, но каждый из них применим в своей нише.

Как же мне сохранить все изображения из этого DOC-файла?
Сохраняем все изображения из файла DOC
Достаточно простой способ получить сразу все изображения из текстового документа MS Word «старых выпусков» (до версии 2007) и имеющих расширение файла DOC, состоит в сохранении исходного документа в качестве веб-страницы.
Откройте ваш документ «с картинками» и выполните следующие действия: в меню «Файл» выберите пункт «Сохранить как«, и в параметрах сохранения поменяйте тип файла на «Веб страница» (как на рисунке). Сохраняем и переходим в папку с сохраненной «веб-страницей».

Сохраняем DOC-файл как веб-страницу
Как видите, вместо одного файла в формате DOC у нас появился файл в формате HTML (веб-страница) и папка Doc2.files. HTML-страница нам ненужна, там все осталось также как в оригинальном документе. А вот если зайти в папку…

В этой папке хранятся наши вытащенные из Word документа картинки
Да, среди кучи ненужного нам служебного барахла «ворда», обнаружатся и искомые файлы изображений. Можете смело копировать их куда вздумается — больше они к исходному документу не привязаны. Обратите внимание — если вы меняли размер картинок после вставки в документ, в папке будет несколько одинаковых изображений — оригинал, и измененная копия, которую MS Word сохранил на всякий случай.

А вот и сохраненные из Word изображения
Сохраняем все изображения из файла DOCX
Если со «старым-добрым» DOC все понятно, то новый DOCX (стандартный формат файлов Word, начиная с версии 2007) предлагает нам не один,а целых два способа одновременного сохранения всех изображений из исходного документа.
Первый способ — точно такой же, как описан выше, то есть сохранение документа в качестве веб-страницы.
Второй способ обладает не меньшей оригинальностью, и даже позволит вам чуть-чуть почувствовать себя настоящим хакером.
Вы когда-нибудь замечали, что два одинаковых файла сохраненных в форматах DOC и DOCX резко отличаются по «весу»? «Новый» DOCX весит значительно меньше старого «DOC». Вызвано это одной простой особенностью — дело в том, что DOCX представляет собой самый настоящий электронный архив, ничем не отличаясь от любого привычного вам RAR или ZIP файла. Соответственно, чтобы вытащить из него все содержимое, этот псевдо-архив нужно распаковать.

DOCX — всего лишь замаскированный ZIP!
Просто переименовываем файл, стирая расширение DOCX и дописывая вместо этого ZIP (не забудьте про точку, должно получиться: файл.zip) и нажимаем «Ок» на предупреждение системы о смене расширения. Что же дальше? Как что — распаковываем наш архив, как любой другой!

Распаковать архиватором файла ворда? Это что-то новенькое!
Заходим в получившуюся папку и идем по пути: «word» → «media».Так-так, что тут у нас? Ну конечно — нас ждут искомые фотографии. Как обычно — ничего сложного.

Снова получаем искомые картинки хранившиеся в листе MS Word