Запускаем 8B LLM в браузере: AQLM.rs

Меня долгое время интересовал запуск больших языковых моделей на пользовательских устройствах: есть что‑то в том, чтобы запустить одну из лучших языковых моделей на обычном домашнем компьютере или на мобильном телефоне, помещающемся в карман. В этом посте я расскажу о своём пет‑проекте AQLM.rs . Я написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU, с помощью алгоритма сжатия, разработанного нашей лабораторией . Попробовать можно на сайте проекта , подробности под катом.

habr.com/ru/companies/yandex/a

#яндекс #machine_learning #rust #нейросети #llm