Может ли искусственный интеллект отличить белого медведя от консервного ножа?
Насколько умна форма искусственного интеллекта, известная как компьютерные сети глубокого обучения, и насколько близко эти машины имитируют человеческий мозг? За последние годы они значительно улучшились, но им еще предстоит пройти долгий путь, сообщает команда когнитивных психологов Калифорнийского университета в журнале PLOS Computational Biology.
Сторонники выразили энтузиазм по поводу использования этих сетей для выполнения множества индивидуальных задач и даже заданий, традиционно выполняемых людьми. Однако результаты пяти экспериментов в этом исследовании показали, что сети легко обмануть, а метод идентификации объектов с помощью компьютерного зрения сетей существенно отличается от человеческого зрения .
«У машин есть серьезные ограничения, которые мы должны понимать», — сказал Филипп Келлман, выдающийся профессор психологии из Калифорнийского университета в Лос-Анджелесе и старший автор исследования. «Мы говорим:« Подождите, не так быстро ».
У машинного зрения, по его словам, есть недостатки. В первом эксперименте психологи показали одну из лучших сетей глубокого обучения под названием VGG-19 — цветные изображения животных и объектов. Изображения были изменены. Например, поверхность мяча для гольфа была показана на чайнике; полоски зебры были размещены на верблюде; и узор из сине-красного носка с рисунком аргайла был показан на слоне. VGG-19 оценил свой лучший выбор и выбрал правильный пункт в качестве своего первого выбора только для пяти из 40 объектов.
«Мы можем легко обмануть эти искусственные системы», — сказал соавтор Хунцзин Лу, профессор психологии в Калифорнийском университете в Лос-Анджелесе. «Их механизмы обучения гораздо менее сложны, чем человеческий разум».
VGG-19 полагал, что вероятность того, что слон был слоном, равна 0%, и только 0,41% вероятность, что чайник был чайником. Его первый выбор для чайника — мяч для гольфа, который показывает, что сеть искусственного интеллекта смотрит на текстуру объекта больше, чем на его форму, говорит ведущий автор Николас Бейкер, аспирант психологии UCLA.
«Вполне разумно, чтобы мяч для гольфа подходил, но настораживает, что чайник нигде не подходит среди вариантов», — сказал Келлман. «Это не набирает форму».
По словам Келлмана, люди идентифицируют объекты в основном по их форме. Исследователи подозревали, что компьютерные сети используют другой метод.
Во втором эксперименте психологи показали изображения стеклянных статуэток VGG-19 и второй сети глубокого обучения под названием AlexNet. VGG-19 показал лучшие результаты во всех экспериментах, в которых тестировались обе сети. Обе сети были обучены распознавать объекты с использованием базы данных изображений под названием ImageNet.
Тем не менее, обе сети сделали плохо, не в состоянии идентифицировать стеклянные фигурки. Ни VGG-19, ни AlexNet правильно не определили статуэтки как первый выбор. Статуэтка слона была оценена с почти 0-процентным шансом быть слоном обеими сетями. Большинство топовых ответов озадачивали исследователей, например, выбор VGG-19 «веб-сайта» для «гуся» и «консервный нож» для «белого медведя». В среднем AlexNet оценил правильный ответ на 328-м месте из 1000 вариантов.
«Машины делают очень разные ошибки от людей», — сказал Лу.
В третьем эксперименте исследователи показали 40 рисунков, выделенных черным цветом, с изображениями белого цвета как для VGG-19, так и для AlexNet. Эти первые три эксперимента должны были определить, идентифицировали ли устройства объекты по их форме.
Сети снова проделали плохую работу по выявлению таких предметов, как бабочка, самолет и банан.
Цель экспериментов состояла не в том, чтобы обмануть сети, а в том, чтобы узнать, идентифицируют ли они объекты таким же образом, как люди, или иным образом, — сказал соавтор Геннадий Эрлихман, постдокторант UCLA по психологии.
В четвертом эксперименте исследователи показали обеим сетям по 40 изображений, на этот раз сплошным черным.
С черными изображениями сети работали лучше, создавая правильную метку объекта среди пяти лучших вариантов для примерно 50 процентов объектов. VGG-19, например, оценил счеты с вероятностью 99,99% быть счетом и пушкой с вероятностью 61% быть пушкой. Напротив, VGG-19 и AlexNet каждый считали, что вероятность того, что белый молоток (обведен черным) был молотом, составляла менее 1%.
Исследователи считают, что сети с черными объектами работали намного лучше, потому что в этих предметах отсутствует то, что Келлман называет «внутренними контурами» — ребрами, которые запутывают машины.
В пятом эксперименте исследователи скремблировали изображения, чтобы их было труднее распознать, но они сохранили куски объектов. Исследователи отобрали шесть изображений, которые сеть VGG-19 получила правильно, и зашифровали их. Людям было трудно их распознать. VGG-19 правильно получил пять из шести изображений и был близок к шестому.
В рамках пятого эксперимента исследователи проверили студентов бакалавриата UCLA, в дополнение к VGG-19. Десять студентов были показаны объекты в черных силуэтах — некоторые из них были трудно распознаваемыми, а некоторые — без расшифровки, некоторые объекты в течение одной секунды, а некоторые — до тех пор, пока студенты хотели их видеть. Студенты правильно определили 92 процента нешифрованных объектов и 23 процента зашифрованных с помощью одной секунды, чтобы просмотреть их. Когда студенты могли видеть силуэты так долго, как они хотели, они правильно определили 97 процентов не зашифрованных объектов и 37% зашифрованных объектов.
Какие выводы делают психологи?
Люди видят весь объект, в то время как сети искусственного интеллекта идентифицируют фрагменты объекта.
«Это исследование показывает, что эти системы получают правильный ответ на изображениях, на которых они были обучены, без учета формы», — сказал Келлман. «Для человека общая форма имеет первостепенное значение для распознавания объектов , а идентификация изображений по общей форме, по-видимому, вообще отсутствует в этих системах глубокого обучения».
Существуют десятки машин для глубокого обучения, и исследователи считают, что их выводы широко применимы к этим устройствам.