
Рубрикатор:
1. Концепция 2. Исходные изображения 3. Результат 3.1. Дополнительная серия 4. Анализ результата 5. Описание процесса обучения 6. Блокнот с кодом 7. Вывод
Концепция
Меня увлекает историческая фотография и я могу потратить много времени на исследование этой темы, рассматривание деталей и поиск первоисточников. По этой причине, я немного адаптировала задачу под себя и темой данного проекта является генерация фотографий, которые бы стилистически и сюжетно напоминали старые снимки.
Более того, эта тема показалась мне интересной, так как в ней напрямую прослеживается связь истории и прошлого с новыми технологиями и будущим.

Фотографии для обучения
Этот проект был для меня неким экспериментом — я понимала, что генерация людей (которые точно должны присутствовать на снимках) является сложной задачей для нейросети, но мне стало очень любопытно, как это будет выглядеть и какие есть для этого возможности.
Для обучение модели я нашла датасет с историческими фотографиями (28 штук) на Kaggle. Меня зацепило, что снимки в нем не связаны общей тематикой, они разносюжетные и разноплановые, что поспособствовало интересному результату.

Фотографии для обучения
Результат
Темой генерации я решила выбрать город с оживленными улицами, толпой людей, которая, возможно, напоминала бы своим масштабом собрание и праздник. Хотелось попробовать тем самым облегчить генерацию людей, так как предполагалось, что они будут вдали и не потребуют сильной и идеальной детализации.
Сгенерированное фото 01
Нейросеть справилась с задачей — фотографии действительно получились будто бы из прошлой эпохи. Они обладают особой винтажной атмосферой не только из-за сюжета, но и за счет цвета — не смотря на то, что снимки черно-белые, они имеют разную тоновую градацию и особые контрастные отношения, что свойственно старым фотографиям.
Толпа в целом выглядит живо и хаотично, на людях одежда из прошлого, а здания похожи на те, которые были в городах до небоскребов.
Пример тоновой градации из фотографий для обучения
Сгенерированные фото 02 и 03
Дополнительная серия
Решила дополнить проект ещё одной серией сгенерированных фотографий с разными сюжетами, которые подчеркнули бы атмосферу ушедшей эпохи.
В сочинении промптов использовала ChatGPT, но редактировала и видоизменяла их самостоятельно.
Сгенерированные фото 04 и 05
04 — A shot of the first electric tram line passing through a busy street with historical buildings.
05 — Photo of a bustling city market with women selling fresh produce and flowers. Stylish shop windows and trams in the background convey the spirit of the times.
Сгенерированные фото 06 и 07
06 — А photo of muscular workers standing near a huge steam engine in a factory in the early 20th century. They are dressed in work clothes and caps.
07 — A shot of a lavish ball in a Victorian mansion. Ladies in luxurious dresses with corsets and long gloves dance surrounded by colorful chandeliers and antique furniture.
Сгенерированное фото 08
08 — A scene with soldiers in World War I uniform discussing an operation plan in a field.
Анализ результата
Помимо положительных сторон, о которых я упомянула в разделе «Результат», в генерациях есть и некоторые недочеты.
На начальных фотографиях толпа выглядела слишком бесформенно и неразборчиво (первое фото ниже), более того, люди находились в непонятной среде, непохожей на город. Когда удалось проявить здания, сначала они тоже выглядели нечетко, со слишком частым дублированием вертикалей (второе фото ниже), но сама толпа на этом фото достаточно реалистичная.
Качество и разрешение сгенерированных изображений не высокое, что можно посчитать особенностью исторического стиля.
Самые первые генерации
И, конечно, при увеличении и разглядывании фотографий, можно заметить множество нейросетевых артефактов касаемо людей, в особенности их лиц. Но при всех недочетах можно различить конкретные силуэты, части тела и даже черты лица, возраст.
Увеличенный и улучшенный по качеству на сайте iloveimg.com фрагмент сгенерированной фотографии
Описание процесса обучения
Работа по обучению генеративной модели выполнена в Google Colab.
Первым шагом я загрузила все библиотеки и обучающий скрипт с GitHub.
Начало работы, загрузка библиотек. Скриншот из Google Colab
Скачивание модели с GitHub. Скриншот из Google Colab
Вторым шагом я загрузила найденный на Kaggle датасет с историческими фотографиями.
Выгрузка изображений для обучения. Скриншот из Google Colab
Далее нейросеть проанализировала фотографии из датасета.
Анализ исходных изображений. Скриншот из Google Colab
И за этим последовало обучение генеративной модели.
Обучение генеративной модели. Скриншот из Google Colab
После этого, чтобы записать обучающую модель, я ввела токен из Hugging Face.
Сохранение модели на Hugging Face. Скриншот из Google Colab
И последним шагом я генерировала новые изображения.
Генерация новых изображений. Скриншот из Google Colab
Вывод
Таким образом, итогом проекта стала серия генеративных фотографий в историческом стиле, что демонстрирует взаимодействие прошлого с новейшими технологиями.
Нейросеть успешно справилась с передачей атмосферы, цвета, стилистических контрастов и тоновых особенностей изображений данной тематики. Сюжеты получились реалистичными, несмотря на их сложность. Ощущение прошедшей эпохи передается не только за счет фотостиля, но и за счет внешнего вида людей и окружения .Основной недочет — недостаточная проработка лиц, что можно заметить при рассматривании фотографий. Тем не менее, визуальное впечатление передано правильно и походит на реальные старинные фотографии.