Запускаем 8B LLM в браузере: AQLM.rs
Меня долгое время интересовал запуск больших языковых моделей на пользовательских устройствах: есть что‑то в том, чтобы запустить одну из лучших языковых моделей на обычном домашнем компьютере или на мобильном телефоне, помещающемся в карман. В этом посте я расскажу о своём пет‑проекте AQLM.rs . Я написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU, с помощью алгоритма сжатия, разработанного нашей лабораторией . Попробовать можно на сайте проекта , подробности под катом.