- Предупреждение: все изображения, представленные здесь, не являются реальными, а сгенерированы нейросетью.
Последнее время качество генерации нейросетей сильно повысилось, причем до такой степени, что неопытным глазом трудно определить, реальное это изображение, или нет.
Я сейчас размещу три "фотографии", которые сгенерированы нейросетью (взяты в свободном доступе в интернете), а вы постарайтесь сами определить места в изображениях, где сеть "накосячила".
Мои "заметки" по поводу вышеприведенных картинок.
Общие соображения
Нейросети могут прекрасно генерировать "яркостно-тональные пятна", выстраивая из них общее изображение, но при этом они часто не понимают сути вещей и назначения предметов, попавших в поле зрения.
Они более или менее натренированы на изображение человека, природы, предметов, общую композицию картинки, так сказать "заточены на общее впечатление от картинки", при этом "прокалываясь" в мелочах, которые человек не допустит в силу понимания назначения вещей.
Сеть понимает, что за предмет надо изобразить, но не понимает "для чего этот предмет нужен" и "как этим предметом пользоваться"!
Раньше много "обломов" было с изображением буквенно-текстовых объектов, которые она воспринимала как "графический узор", но не опускалась в рассуждении об объекте как "слово, состоящее из букв, которое надо сложить и посмотреть в словаре, что это слово означает". Она просто рассматривала это как "узор".
С появлением модели "Flux" картина немного изменилась, она стала более осознанно подходить к составлению "буквосочетаний", но, иногда все равно сваливается в "галлюцинации" в случае нехватки информации для генерации:
Разбор
Изображение 1 - мужчина
Общее впечатление:
- очень правдоподобная генерация.
- хороший цветовой баланс.
- правильная "портретная" резкость + правильное отображение "глубины резкости" (размытый фон).
Обломы:
(обведены красным)
1. "Кольцо на руке" - если это и кольцо, то вряд ли оно будет на фаланге мизинца. Ибо: два кольца на соседних пальцах ТАКОЙ толщины неизбежно будут мешаться на руке! Человек ТАК носить кольца не будет, ибо это просто неудобно!
2. "Текст на ленте" - полное отсутствие смысловой нагрузки сгенерированного "типа текста", очередное скатывание в "текст как узор". Это "что-то похожее на текст", но "это текстом не является".
3. "Микрофон" - сеть не поняла, что это именно "микрофон", ибо у микрофона отсутствует шнур подключения, отсутствует "прищепка" или любой другой механизм крепления микрофона к одежде. Ветрозащита микрофона перетянута какой-то "черной проволочкой"!
Вообще — понять что это именно "микрофон", можно только поразмыслив, и сделав вывод "Что там хотела изобразить сеть". То, что она изобразила "внешне напоминает микрофон", но "микрофоном не является" (просто "фигулька какая-то").
Изображение 2 - женщина
1. Невнятная конструкция - "каша, напоминающая крепеж". Логотип Гугла "насмотрен и натренирован", остальной текст даже не угадывается.
2. Тексты на ленте — полное отсутствие смысла текста, очередной "текст как узор".
3. Микрофон — судя по всему, изображен знаменитый и очень распространенный микрофон "SHURE-SM58", вот его оригинальное фото:
Оригинальный SHURE-SM58
Микрофон с генерации:
Микрофон "похож", но в области "текста" опять "каша", текст даже по форме не угадывается.
Низ микрофона:
Отсутствие шнура на разъеме XLR, а, если это "радиомикрофон", то у него не такой "низ", от конструктивно другой, поскольку там размещается еще и передатчик с аккумулятором.
Выводы: микрофон "похож", но то, что изображено, как микрофон работать не будет, либо это "китайская грубая реплика" чего-то, изображающая микрофон.
Как и с микрофоном на первом фото, сеть НЕ ПОНИМАЕТ назначение предмета, КАК и ДЛЯ ЧЕГО он используется.
Сеть просто изображает "Непонятный предмет, который выглядит примерно вот так, который человек непонятно зачем держит в руке (возможно что-то оттуда нюхает, я не знаю)".
Изображение 3 - причал
1. Вверху на крыше непонятно что - "фигулька".
2. Столики "кафе" - сеть не понимает, что человек ТАК столики не поставит, ибо за ними принято еще и "сидеть" на чем-то, а сидеть на камнях, чтобы край столика был на уровне шеи, как-то "не очень". 100% людей поставили бы эти столики рядом на самом каменном причале + были бы "сидушки" какие-нить.
3. Пальмы растут голой скалы (непонимание, что нужно хоть сколько-то земли).
4. На крыше дома справа вверху непонятная "фигулька".
5. Цветочные горшки просто "на голой стене", как их поливать — непонятно, наверно "из окна сверху целиться". Я уж не говорю про "сажать" и "порыхлить" (наверно в прыжке). Сеть не понимает, что цветы человек сажает в области "досягаемости рук".
6. Лестница по стене дома откуда идет — понятно, но вот КУДА она ведет... Наверно, лестница ведет на площадку выше, на которую человек вылезает погреться из маленьких окошек на уровне этой площадки (ведь двери там нет, зачем человеку дверь?). К тому же последняя ступенька - это "стена высотой около 1 метра", которую человек преодолевает "в прыжке", рискуя свалиться вниз на камни? Вы бы так построили? )
7. Так лодки не ставят вплотную у каменистого берега! При первом же более или менее слабом волнении их расхерачит об камни или друг об друга в щепки!
То есть все перечисленное является "абсолютной глупостью" с точки зрения человека, но допустимым с точки зрения сети.
Сеть НЕ ПОНИМАЕТ назначения изображенных предметов, как и где их расставил бы человек, И ПОЧЕМУ бы человек именно ТАК не сделал бы!
Так что пока определить генерацию нейросети не составляет особого труда, если сеть даже довольно достоверно изображает что-то, надо просто искать "несуразности" и "обломы" в картинке, которые человек, находясь в здравом уме, просто не сделал бы! )))
Как правило, сеть ошибается именно на мелких по отношению к общей площади изображения участках, уделяя основное время проработке центрального объекта отображения, а то, что занимает 3-5-8% площади изображения делает "тяп-ляп".
Удачи!
АВТОР: никнейм "NStor"
Свежие комментарии