Шрифт:
На последнем слайде выступления организаторов ILSVRC в 2017 г. размещена цитата Уинстона Черчилля: «Это не конец. Это даже не начало конца. Но, возможно, это конец начала» [1883] .
Действительно, прогресс в точности распознавания образов не стоит на месте, а оценить его можно по результатам, приводимым в научных публикациях. Например, точность распознавания образов на массиве CIFAR-100 в 2019 г. выросла до 91,7% (модель EfficientNet) [1884] по сравнению с 89,3% (более ранняя модель от GoogleBrain на основе пирамидальных сетей (Feature Pyramid Networks, FPN) — специальной разновидности свёрточных сетей, в которой признаки, относящиеся к разным слоям свёртки, организованы в специальную пирамидальную иерархию, позволяющую более эффективно распознавать объекты разного масштаба [1885] ) [1886] , [1887] в 2018 г. В 2020 г. при помощи модели EfficientNet-L2 на CIFAR-100 удалось получить точность 96,1% (этот показатель по состоянию на сентябрь 2023 г. продолжает оставаться лучшим). Этот результат был достигнут благодаря технологии, получившей название «Минимизация с учётом резкости» (Sharpness-Aware Minimization). Идея этого подхода заключается в том, чтобы предпочитать такие параметры модели, в окрестностях которых функция потерь будет иметь значения, мало отличающиеся от минимума. Такая стратегия оптимизации позволяет достичь более хорошего обобщения в процессе обучения [1888] .
1883
Fei-Fei L., Deng J. (2017). ImageNet: Where have we been? Where are we going? // http://image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf
1884
Tan M., Le Q. V. (2019). EfficientNet: Improving Accuracy and Efficiency through AutoML and Model Scaling / Google AI Blog // https://ai.googleblog.com/2019/05/efficientnet-improving-accuracy-and.html
1885
Lin T.-Y., Dollar P., Girshick R., He K., Hariharan B., Belongie S. (2016). Feature Pyramid Networks for Object Detection // https://arxiv.org/abs/1612.03144
1886
Cubuk E. D., Zoph B., Mane D., Vasudevan V., Le Q. V. (2018). AutoAugment: Learning Augmentation Policies from Data // https://arxiv.org/abs/1805.09501
1887
Cubuk E. D., Zoph B. (2018). Improving Deep Learning Performance with AutoAugment / Google AI Blog // https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html
1888
Foret P., Kleiner A., Mobahi H., Neyshabur B. (2020). Sharpness-Aware Minimization for Efficiently Improving Generalization // https://arxiv.org/abs/2010.01412
Модели, побеждавшие на ILSVRC, стали основой систем, широко применяющихся для решения самых разных прикладных задач: жестового управления устройствами, распознавания лиц и дорожных объектов в автомобильных автопилотах, опухолей на медицинских снимках, текста, мимики, почерка, состава блюд и так далее — в наши дни под самые разные задачи распознавания опубликовано огромное количество публичных датасетов. Одна только моя команда за 2022-й и начало 2023 года разместила в открытом доступе два таких набора данных: HaGRID [1889] , предназначенный для распознавания 18 управляющих жестов для умных устройств, и Slovo [1890] — для распознавания слов русского жестового языка.
1889
Kapitanov A., Makhlyarchuk A., Kvanchiani K. (2022). HaGRID - HAnd Gesture Recognition Image Dataset // https://arxiv.org/abs/2206.08219
1890
Kapitanov A., Kvanchiani K., Nagaev A., Petrova E. (2023). Slovo: Russian Sign Language Dataset // https://arxiv.org/abs/2305.14527
Несколько модифицировав архитектуру нейронной сети, можно решать и более сложные задачи, чем просто классификация изображений. Мы уже упоминали некоторые из них при перечислении номинаций в рамках ILSVRC. Например, задача локализации объектов предполагает поиск минимальных по размеру прямоугольников, внутри которых находится интересующий нас объект. Сегодня нейронные сети успешно решают и более сложные варианты задачи распознавания образов, например задачу так называемой сегментации [segmentation], когда сеть должна найти точные контуры интересующих нас объектов. С этой задачей успешно справляются такие архитектуры, как, например, U-Net, разработанная на факультете информатики Фрайбургского университета (Albert-Ludwigs-Universitat Freiburg) для задач сегментации медицинских изображений ещё в 2015 г. [1891] С помощью такой сети можно успешно выявлять аномалии на рентгеновских снимках, находить определённые типы клеток на микрофотографиях тканей живых организмов… А можно, скажем, и удалять нежелательных персонажей с красивых коллективных фото.
1891
Ronneberger O., Fischer P., Brox T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation // https://arxiv.org/abs/1505.04597
Более сложный вариант этой задачи — семантическая сегментация [semantic segmentation], она предполагает выявление на изображениях контуров объектов с заданным названием. Модели, предназначенные для её решения, обычно являются гибридами моделей для решения задач обработки естественного языка и моделей для обработки изображений (обычно свёрточных сетей). К их числу относятся, например, сети, построенные из модулей CMPC (Cross-Modal Progressive Comprehension, Кросс-модальное прогрессивное понимание) и TGFE (Text-Guided Feature Exchange, Управляемое текстом извлечение признаков) [1892] .
1892
Huang S., Hui T., Liu S., Li G., Wei Y., Han J., Liu L., Li B. (2020). Referring Image Segmentation via Cross-Modal Progressive Comprehension // https://arxiv.org/abs/2010.00514
Революция в компьютерном зрении существенно трансформирует многие отрасли общественной жизни, но было бы ошибкой думать, что она уже свершилась или близка к завершению. По всей видимости, длиться, захватывая и коренным образом меняя всё новые и новые стороны труда и быта, она будет ещё довольно долго, потому что создание и внедрение на базе экспериментальных систем действительно массовых продуктов и сервисов зачастую требует немалого времени и серьёзных ресурсов. Причём когда речь идёт об ИИ-технологиях, одни из важнейших необходимых ресурсов — это квалифицированные специалисты и качественно размеченные данные в необходимых объёмах. И именно они зачастую — в дефиците.
6.2.2 Распознавание звука
Офицер: Так, полное имя, фамилия?
Франтишек: Гжегош Бженчишчикевич.
Офицер: Ага… Ммм?!
Франтишек: Бженчишчикевич.
Офицер: …
Франтишек: Гжегош.
Офицер: Гжеш… Гщетек… Аущ… пщ… пщ… Гдеащ…
Франтишек: Бженчишчикевич.
Офицер: Заткни глотку! Мммм… (комкает бумагу) Ганс!
Ганс: Так точно!
Офицер: Ганс, запроси и напечатай протокол на машинке.
Ганс: Имя, фамилия?
Франтишек: Гжегош Бженчишчикевич.
Ганс: Как?!
***
Ганс: И… ке… в… и… ч… Ихих! Место рождения?
Франтишек: Хжёншчижевошице возле Пшибышева.
Тадеуш Хмелевский. Приключения канонира Доласа, или Как я развязал Вторую мировую войнуРаспознавание речи, так же как и распознавание изображений, относится к числу классических задач ИИ. Эта область входила в сферу интересов Фрэнка Розенблатта, занимавшегося среди прочего работой над фоноперцептроном.6.2.2.1 «Тобермори» — фоноперцептрон Розенблатта
Схема устройства «Тобермори», разработанного Розенблаттом совместно с его аспирантом Джорджем Нэйджи, была готова к 1963 г. Технически «Тобермори» представлял собой перцептрон с двумя промежуточными A– слоями, на входе которого находился сенсорный анализатор. На вход анализатора могла подаваться произвольная смесь звуков из следующих источников: с магнитной ленты, от микрофона, от генератора шума, а также от двух аудиоосцилляторов. Пройдя через усилитель, звук попадал в устройство для измерения амплитуды сигнала (используемое для выявления пауз между словами) и в устройство для частотного анализа, представляющее собой набор из 45 аудиофильтров, способных работать на каком-либо из трёх диапазонов частот: 30–4700 Гц, 47–7000 Гц, 60–9400 Гц. Таким образом, на коммутационной панели было доступно два выхода от измерителя амплитуды сигнала (передающих значение амплитуды в моменте, поскольку эта информация в ходе частотного анализа утрачивается, и усреднённое значение амплитуды за некоторый промежуток времени) и 45 выходов от аудиофильтров.
При помощи коммутационной панели любая пара из этих выходов могла быть подключена к одному из 40 дифференциальных усилителей (устройств, выходной сигнал которых пропорционален разности входных напряжений). Поскольку на вход усилителей подавались логарифмические значения амплитуд сигналов, то выход усилителей соответствовал отношению величин сигналов. При этом каждый усилитель имел два выходных канала: первый из них передавал сигнал в случае, если разница входных сигналов усилителя была положительной, а второй — если отрицательной. Каждый из каналов был подключен к пороговому элементу с настраиваемым пороговым значением сигнала. Таким образом, выход сенсорного анализатора в моменте составлял 80 бит. Система объединяла выходы для 20 последовательных временных интервалов, и 1600 полученных двоичных значений поступали на вход искусственной нейронной сети — классического розенблаттовского перцептрона. В выходном слое перцептрона содержалось 12 нейронов, что позволяло различать 212 = 4096 звуковых образов (например, слов).