Патент № US 11636608 B2 датирован 25 апреля 2023 года.
Авторы изобретения предложили новую нейросетевую архитектуру, объединяющую блоки, используемые в современных нейросетях, с классическим инструментом анализа изображений реального мира – преобразованием Хафа. Изобретатели рассчитывают, что предложенная архитектура откроет новую страницу в истории успеха нейросетевых технологий в компьютерном зрении. Первые исследования Хафовских нейросетей, уже опубликованные в научной периодике, полностью подтверждают эту идею. Запатентованное решение уже используется в программных продуктах компании Smart Engines для автономного распознавания паспортов, ID-карт и других документов.
"Нейросети замечательно извлекают информацию из примеров, но их практически невозможно научить непреложным законам физики или математики. Показательны недавние упражнения сети ChatGPT в арифметике. При умножении больших чисел сеть правильно указывает первые и последнии цифры результата, и даже угадывает его длину, а вот центральные цифры ставит "от балды". Довольно забавный результат, ведь для правильного решения требуется в миллиарды раз меньше ресурсов, чем те, что есть в распоряжении у нейросети. Встает вопрос: а можно ли вообще изучать математику на примерах? Иммануил Кант считал, что человек в своем познании опирается в том числе на априорные формы, не зависящие от опыта. Мы считаем, что нам удалось встроить в нейросеть дополнительное априорное геометрическое представление, лежащее в основе законов перспективы. Это позволяет ей строить решения задач компьютерного зрения, таких как определение ориентации объектов в пространстве или определение собственного положения" – рассказал директор по науке Smart Engines д.т.н. Владимир Львович Арлазаров.
"Самое частое использование преобразования Хафа – это поиск и выделение прямых. Они в области обработки и анализа изображений играют важнейшую роль: это и дороги, и дома, и границы документа, и строки, и рентгеновские лучи, формирующие томограмму, и многое другое. Но эти отрезки почти всегда не совсем прямые, часто зашумлены или видны только частично, имеют разную длину. Поэтому проведение классического Хаф-анализа изображения представляет собой довольно сложную задачу, – отметил старший научный сотрудник-программист Smart Engines Александр Шешкус. – Между тем, как раз с теми проблемами, которые затрудняют Хаф-анализ изображения, прекрасно справляются нейросети и, более того, существуют систематические методы решения подобных проблем".
"Сейчас подавляющее большинство задач технического зрения решается с использованием нейросетей, в развитии которых много лет не ставился вопрос экономии. При этом именно для задач зрения характерны большие объемы входных данных даже в тривиальных приложениях. В результате проблема сокращения вычислительных затрат стоит крайне остро. Предложенная нами архитектура с использованием преобразования Хафа обеспечивает конкурентное качество при значительно меньшем количестве обучаемых параметров и при требовании меньшего количества вычислительных мощностей", – подчеркнул технический директор Smart Engines к.ф.-м.н. Дмитрий Николаев.
"Научные исследования для нашей компании играют роль стратегических инвестиций. Мы серьезно инвестируем в науку и развиваем научное направление в нашей фирме для того, чтобы не только выпускать продукты на злобу сегодняшнего дня, но чтобы и решать проблемы, которые еще не возникли. И быть готовыми к тем вызовам, которые нам несет завтра", – прокомментировал генеральный директор Smart Engines к.т.н. Владимир Арлазаров.
Это уже третий патент, зарегистрированный Smart Engines в США. В феврале 2023 года ученые Smart Engines запатентовали в Штатах систему эффективной локализации и идентификации документов на изображениях. В общей сложности Smart Engines зарегистрировала три патента в США, восемь – в России, а также создала 26 полезных моделей.