На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Неспешный разговор

21 401 подписчик

Свежие комментарии

  • Аркадий Шацкий
    С СВО все наживаются, и Турция, Китай, Индия, США, в общем все друзья и враги. Кроме ЕС, наверно)Лавров предупреди...
  • Аркадий Шацкий
    Надеюсь в 90-е соответствующие конторы всех на карандаш поставили.Конституционный с...
  • Александр Симаков
    Бывть убеждённым в своей глупости - это здорово! Ни грамма нашего золота нет ни в Лондоне, ни в какой любой другой ст...Доллар изыди!

"Проколы" нейросети.

  • Предупреждение: все изображения, представленные здесь, не являются реальными, а сгенерированы нейросетью.

Последнее время качество генерации нейросетей сильно повысилось, причем до такой степени, что неопытным глазом трудно определить, реальное это изображение, или нет.

Я сейчас размещу три "фотографии", которые сгенерированы нейросетью (взяты в свободном доступе в интернете), а вы постарайтесь сами определить места в изображениях, где сеть "накосячила".

Изображение 1 - мужчина
Изображение 2 - женщина
Изображение 3 - причал

Мои "заметки" по поводу вышеприведенных картинок.

Общие соображения

Нейросети могут прекрасно генерировать "яркостно-тональные пятна", выстраивая из них общее изображение, но при этом они часто не понимают сути вещей и назначения предметов, попавших в поле зрения.

Они более или менее натренированы на изображение человека, природы, предметов, общую композицию картинки, так сказать "заточены на общее впечатление от картинки", при этом "прокалываясь" в мелочах, которые человек не допустит в силу понимания назначения вещей.

Сеть понимает, что за предмет надо изобразить, но не понимает "для чего этот предмет нужен" и "как этим предметом пользоваться"!

Раньше много "обломов" было с изображением буквенно-текстовых объектов, которые она воспринимала как "графический узор", но не опускалась в рассуждении об объекте как "слово, состоящее из букв, которое надо сложить и посмотреть в словаре, что это слово означает". Она просто рассматривала это как "узор".

С появлением модели "Flux" картина немного изменилась, она стала более осознанно подходить к составлению "буквосочетаний", но, иногда все равно сваливается в "галлюцинации" в случае нехватки информации для генерации:

Разбор

Изображение 1 - мужчина

Общее впечатление:

  • очень правдоподобная генерация.
  • хороший цветовой баланс.
  • правильная "портретная" резкость + правильное отображение "глубины резкости(размытый фон).

Обломы:

(обведены красным)

1. "Кольцо на руке" - если это и кольцо, то вряд ли оно будет на фаланге мизинца. Ибо: два кольца на соседних пальцах ТАКОЙ толщины неизбежно будут мешаться на руке! Человек ТАК носить кольца не будет, ибо это просто неудобно!

2. "Текст на ленте" - полное отсутствие смысловой нагрузки сгенерированного "типа текста", очередное скатывание в "текст как узор". Это "что-то похожее на текст", но "это текстом не является".

3. "Микрофон" - сеть не поняла, что это именно "микрофон", ибо у микрофона отсутствует шнур подключения, отсутствует "прищепка" или любой другой механизм крепления микрофона к одежде. Ветрозащита микрофона перетянута какой-то "черной проволочкой"!

Вообще — понять что это именно "микрофон", можно только поразмыслив, и сделав вывод "Что там хотела изобразить сеть". То, что она изобразила "внешне напоминает микрофон", но "микрофоном не является(просто "фигулька какая-то").

Изображение 2 - женщина

1. Невнятная конструкция - "каша, напоминающая крепеж". Логотип Гугла "насмотрен и натренирован", остальной текст даже не угадывается.

2. Тексты на ленте — полное отсутствие смысла текста, очередной "текст как узор".

3. Микрофон — судя по всему, изображен знаменитый и очень распространенный микрофон "SHURE-SM58", вот его оригинальное фото:

Оригинальный SHURE-SM58

Оригинальный микрофон SHURE-SM58

Микрофон с генерации:

Микрофон "похож", но в области "текста" опять "каша", текст даже по форме не угадывается.

Низ микрофона:

Отсутствие шнура на разъеме XLR, а, если это "радиомикрофон", то у него не такой "низ", от конструктивно другой, поскольку там размещается еще и передатчик с аккумулятором.

Выводы: микрофон "похож", но то, что изображено, как микрофон работать не будет, либо это "китайская грубая реплика" чего-то, изображающая микрофон.

Как и с микрофоном на первом фото, сеть НЕ ПОНИМАЕТ назначение предмета, КАК и ДЛЯ ЧЕГО он используется.

Сеть просто изображает "Непонятный предмет, который выглядит примерно вот так, который человек непонятно зачем держит в руке (возможно что-то оттуда нюхает, я не знаю)".

Изображение 3 - причал

1. Вверху на крыше непонятно что - "фигулька".

2. Столики "кафе" - сеть не понимает, что человек ТАК столики не поставит, ибо за ними принято еще и "сидеть" на чем-то, а сидеть на камнях, чтобы край столика был на уровне шеи, как-то "не очень". 100% людей поставили бы эти столики рядом на самом каменном причале + были бы "сидушки" какие-нить.

3. Пальмы растут голой скалы (непонимание, что нужно хоть сколько-то земли).

4. На крыше дома справа вверху непонятная "фигулька".

5. Цветочные горшки просто "на голой стене", как их поливать — непонятно, наверно "из окна сверху целиться". Я уж не говорю про "сажать" и "порыхлить(наверно в прыжке). Сеть не понимает, что цветы человек сажает в области "досягаемости рук".

6. Лестница по стене дома откуда идет — понятно, но вот КУДА она ведет... Наверно, лестница ведет на площадку выше, на которую человек вылезает погреться из маленьких окошек на уровне этой площадки (ведь двери там нет, зачем человеку дверь?). К тому же последняя ступенька - это "стена высотой около 1 метра", которую человек преодолевает "в прыжке", рискуя свалиться вниз на камни? Вы бы так построили? )

7. Так лодки не ставят вплотную у каменистого берега! При первом же более или менее слабом волнении их расхерачит об камни или друг об друга в щепки!

То есть все перечисленное является "абсолютной глупостью" с точки зрения человека, но допустимым с точки зрения сети.

Сеть НЕ ПОНИМАЕТ назначения изображенных предметов, как и где их расставил бы человек, И ПОЧЕМУ бы человек именно ТАК не сделал бы!

Так что пока определить генерацию нейросети не составляет особого труда, если сеть даже довольно достоверно изображает что-то, надо просто искать "несуразности" и "обломы" в картинке, которые человек, находясь в здравом уме, просто не сделал бы! )))

Как правило, сеть ошибается именно на мелких по отношению к общей площади изображения участках, уделяя основное время проработке центрального объекта отображения, а то, что занимает 3-5-8% площади изображения делает "тяп-ляп".

Удачи!

АВТОР: никнейм "NStor"

ИСТОЧНИК ИНФОРМАЦИИ

Картина дня

наверх