Нейросетевой поиск товаров в 1С-Битрикс, умный поиск по смыслам

Просмотров: 5

Модуль для 1С-Битрикс, который понимает запросы покупателей на естественном языке. Напишите "легкое летнее платье в горошеr" и получите именно то, что нужно - без возни с фильтрами и точными названиями.

Семантический поиск понимает смысл запроса, а не ищет точное совпадение слов. Покупатель пишет чем косить траву на даче - магазин показывает газонокосилки и триммеры, даже если в названии товара нет слова косить.

Пример работы и видео

Скоро добавлю

Штатный поиск 1С-Битрикс работает по прямому совпадению слов. Написал крем от морщин после 45 - получил пустую выдачу, потому что в названиях товаров нет слова морщин, а есть антивозрастной или anti-age. Нейросеть понимает, что это одно и то же.

Как устроен модуль

Под капотом - модель intfloat/multilingual-e5-base. Она превращает текст в вектор из 768 чисел (эмбеддинг). Чем ближе векторы двух текстов - тем они похожее по смыслу, даже если слова совершенно разные.

Модель работает через Python-сервис (server.py), который крутится на 127.0.0.1:9876. При поиске PHP отправляет запрос пользователя в Python, получает вектор и сравнивает его с заранее проиндексированными векторами товаров через косинусное сходство. Весь поиск - 60-80 миллисекунд.

Индексация товаров запускается по cron раз в сутки CLI-скриптом. Скрипт собирает тексты товаров из b_search_content, отправляет пачками по 3 товара в Python-сервис, получает эмбеддинги и сохраняет в таблицу mib_smartconsultant_embedding.

Структура модуля

local/modules/mibazarow.smartconsultant/
├── .settings.php          # Контроллеры
├── default_option.php     # Настройки по умолчанию
├── options.php            # Страница настроек в админке
├── include.php            # Автозагрузка классов
├── install/               # Установщик и SQL
├── bin/
│   └── reindex.php        # CLI-скрипт индексации (cron)
├── lib/
│   ├── Embedding/         # Векторизация: Engine, Repository, Math
│   ├── Index/             # Сбор текстов: SourceText, Pipeline
│   ├── Search/            # Поиск: Searcher, Result
│   └── Infrastructure/    # AJAX-контроллер SearchController
├── components/
│   └── mibazarow/smartconsultant.search/
└── python/
    ├── server.py          # HTTP-сервис (Flask + модель в памяти)
    ├── embed.py           # CLI-векторизация (устаревший)
    └── requirements.txt

Требования к серверу

Модель multilingual-e5-base весит ~1.1 GB и загружается в RAM при старте Python-сервиса. Плюс torch runtime (~400 MB). Итого модуль потребляет 1.5 GB RAM сверх того, что уже занято системой, MySQL и PHP.

Минимальные требования для сервера с 10 000 товаров: 4 GB RAM, 2 ядра CPU. Рекомендуемые для 100 000 товаров: 8 GB RAM, 4 ядра. И обязательно Linux - Python-часть не работает на macOS (MAMP).

Место в БД: один товар = 3072 байта (768 float32). 10 000 товаров = 30 MB, 100 000 = 300 MB.

Установка и настройка

Подробная инструкция - в README.md модуля. Коротко:

# 1. Python-окружение
cd local/modules/mibazarow.smartconsultant/python
python3 -m venv venv
venv/bin/pip install torch --index-url https://download.pytorch.org/whl/cpu
venv/bin/pip install -r requirements.txt

# 2. Прогрев модели (загружает ~1.1 GB из HuggingFace)
sudo -u bitrix venv/bin/python -c \
  "from sentence_transformers import SentenceTransformer; \
   SentenceTransformer('intfloat/multilingual-e5-base')"

# 3. Systemd-сервис
systemctl enable --now mib-smartconsultant

# 4. Установка модуля в админке Битрикс
# Marketplace → Установленные решения → AI Консультант → Установить

# 5. Настройка: выбрать инфоблок каталога, порог релевантности
# Админка → Настройки → Настройки модулей → AI Консультант

# 6. Первая индексация
php local/modules/mibazarow.smartconsultant/bin/reindex.php

# 7. Cron (каждый день в 3:00)
0 3 * * * php /var/www/site/local/modules/mibazarow.smartconsultant/bin/reindex.php

Как работает индексация

Первая индексация - самая долгая. Для 60 000 товаров на 4-ядерном CPU это ~2-3 часа: каждый товар проходит через нейросеть (по 3 товара за раз, чтобы не перегружать модель).

Последующие запуски - секунды. Скрипт проверяет MD5-хеш текста каждого товара. Если текст не изменился - товар пропускается. Обрабатываются только новые и изменившиеся товары.

Если 2-3 часа ждать не хочется, можно проиндексировать товары на мощном сервере с GPU (там 60К товаров - 5-10 минут), сделать mysqldump таблицы mib_smartconsultant_embedding и залить дамп на продакшен. Эмбеддинги - это просто числа, они не зависят от железа.

Поисковый компонент

Компонент mibazarow:smartconsultant.search размещается на любой странице через визуальный редактор. Все настройки (инфоблок, порог релевантности, количество результатов) задаются в модуле, а не в параметрах компонента - так проще управлять.

Покупатель вводит запрос → AJAX-запрос к SearchController → Python-сервис → косинусное сходство → топ-20 товаров → выпадающий список с процентом релевантности.

Примеры поиска

КаталогЗапрос покупателяЧто находит
Стройматериалыштукатурка для влажных помещенийВлагостойкие штукатурки, гидроизоляционные смеси
Автозапчастимасло в двигатель японского авто 5w30Моторные масла 5W-30 для азиатских двигателей
Зоотоварыкорм для пожилой кошки с чувствительным пищеварениемКорма для ageing cats, sensitive digestion
Электроникателефон с хорошей камерой до 40000Смартфоны с мощной камерой в бюджете до 40 000
Бытовая техникачем косить траву на дачеГазонокосилки, триммеры, сенокосилки
Косметикакрем от морщин после 45 летАнтивозрастные кремы 45+

Ограничения и планы

Модуль работает только на Linux. Модель загружается из HuggingFace при первом запуске - нужен доступ к huggingface.co. Python-сервис должен работать постоянно (systemd), иначе при каждом поисковом запросе модель будет загружаться заново (500-800ms вместо ~10ms).

В планах: поддержка множественных инфоблоков (сейчас один), GPU-ускорение из коробки, фильтрация по свойствам инфоблока прямо в поисковом запросе, поиск по составным текстам (название + описание + свойства).

Исходный код: github.com/camouf/mibazarow.smartconsultant

Стоимость разработки на 1С-Битрикс:

Индивидуальная разработка магазина

от 450 000 руб. от 5-ти недель

Разработка магазина на 1С-Битрикс с нуля. Дизайн, сборка и оптимизация производительности под конкретный проект и требования. Реализация любого функционала без ограничений готовых решений.

Интернет-магазин на готовом решении

от 100 000 руб. от 7-ми дней

Вариант для тех, кто не хочет тратить много средств на индивидуальный проект, и не имеет серьезных требований к сайту. Магазин, быстро запускается на базе одного из 200-та готовых решений.

Мобильное приложение

от 450 000 руб. от 5-ти недель

Разработка кроссплатформенного мобильного приложения, которое не уступает нативным решениям как в производительности, так и пользовательском опыте. Публикуется в AppStore, GooglePlay и RuStore

Сайт компании

от 250 000 руб. от 2-х недель

Корпоративный сайт с информационными разделами, каталогом товаров или услуг. Включает формы обратной связи карточек каталога, любое количество статичных и динамичных разделов.

Инфоресурс

от 250 000 руб. от 4-х недель

Информационный ресурс любой сложности. Сайт для СМИ, городской портал или многопользовательская доска объявлений. Внутренние форумы, блоги- по необходимости.

3D‑моделирование, визуализация

от 25 000 руб. от 3-х дней

По вашим фото, чертежам или описанию создадим 3D‑модели и отрендерим набор изображений для каталога товаров: общий вид, крупные планы и технические ракурсы или 360°‑обзор товара.