llama.cpp

Статус: draft

У системі два окремі інстанси llama.cpp із різними моделями, параметрами запуску та портами. Це головне джерело плутанини — не змішувати.

Інстанс	Модель	Режим	Призначення
embeddings	bge-m3-fp16	`--embedding`	Векторизація для пошуку
translation-moderation	(уточнити)	генеративний	Переклад новин + AI-модерація

Backend-бік цих інтеграцій описано в backend/docs/ai-integration.md.