Како преузети и инсталирати Ллама 2 локално

Компанија Мета је током лета 2023. године представила Llama 2, нову верзију језичког модела. Ова унапређена верзија тренирана је на 40% више токена у поређењу са оригиналним Llama моделом, што је резултирало двоструко дужим контекстом и значајним побољшањем у односу на друге моделе отвореног кода. Најједноставнији и најбржи начин приступа моделу Llama 2 је путем API-ја преко онлајн платформи. Међутим, за најбоље корисничко искуство, препоручује се инсталација и покретање Llama 2 директно на вашем рачунару.

Имајући ово у виду, припремили смо детаљан водич који објашњава како користити Text-Generation-WebUI за локално учитавање квантизованог језичког модела Llama 2 на вашем рачунару.

Зашто инсталирати Llama 2 локално

Постоји више разлога зашто корисници бирају директно покретање Llama 2 модела. Неки то чине због приватности, други због могућности прилагођавања, а трећи због рада ван мреже. Ако се бавите истраживањем, финим подешавањем или интеграцијом Llama 2 модела у ваше пројекте, приступ преко API-ја можда није најефикасније решење. Поента локалног покретања језичког модела на вашем рачунару је смањење зависности од спољних АИ алата и могућност коришћења вештачке интелигенције било када и било где, без бриге о могућем цурењу осетљивих података трећим лицима.

Сада, кренимо са детаљним упутством за локалну инсталацију модела Llama 2.

За потребе једноставности, користићемо инсталациони програм једним кликом за Text-Generation-WebUI, алатку која се користи за учитавање Llama 2 модела помоћу графичког корисничког интерфејса (GUI). Међутим, да би овај инсталациони програм функционисао, неопходно је преузети и инсталирати Visual Studio 2019 са потребним ресурсима.

Преузимање: Visual Studio 2019 (бесплатно)

  • Преузмите верзију заједнице.
  • Инсталирајте Visual Studio 2019, а затим отворите програм. Приликом отварања, означите опцију за развој радне површине са C++ и кликните на Install.
  • Сада када је развој радне површине са C++ инсталиран, следећи корак је преузимање инсталационог програма Text-Generation-WebUI једним кликом.

    Корак 2: Инсталирајте Text-Generation-WebUI

    Инсталациони програм Text-Generation-WebUI једним кликом је скрипта која аутоматски креира потребне фасцикле и подешава conda окружење, укључујући све неопходне захтеве за покретање AI модела.

    За инсталацију скрипте, преузмите програм једним кликом кликом на Code > Download ZIP.

    Преузимање: Text-Generation-WebUI Installer (бесплатно)

  • Након преузимања, распакујте ZIP датотеку на жељену локацију, а затим отворите распаковану фасциклу.
  • Унутар фасцикле, пронађите одговарајући програм за покретање за ваш оперативни систем. Покрените програм двоструким кликом на одговарајућу скрипту.
    • За Windows кориснике, одаберите start_windows batch file.
    • За macOS, одаберите start_macos shell script.
    • За Linux, start_linux shell script.
  • Ваш антивирусни програм може приказати упозорење; то је нормално. Упозорење је највероватније лажно позитивно због покретања batch датотеке или скрипте. Кликните на Run.
  • Отвориће се терминал и започети подешавање. Подешавање ће на почетку паузирати и тражити од вас да изаберете тип графичке процесорске јединице (GPU) коју користите. Изаберите одговарајући тип GPU-а инсталираног на вашем рачунару и притисните Enter. За оне који немају наменску графичку картицу, изаберите Nothing (I want to run models in CPU mode). Имајте на уму да је рад у CPU режиму знатно спорији у поређењу са покретањем модела са наменским GPU-ом.
  • Када се подешавање заврши, можете покренути Text-Generation-WebUI локално. То можете учинити отварањем жељеног веб прегледача и уносом наведене IP адресе у URL линију.
  • WebUI је спреман за употребу.
  • Међутим, програм је само учитавач модела. Преузмимо Llama 2 модел за коришћење у учитавачу.

    Корак 3: Преузмите Llama 2 модел

    Постоји неколико фактора које треба узети у обзир при одабиру одговарајуће итерације Llama 2 модела, укључујући параметре, квантизацију, хардверску оптимизацију, величину и намену. Сви ови подаци биће наведени у називу модела.

    • Параметри: Број параметара коришћених за тренирање модела. Већи број параметара омогућава моделу да буде способнији, али уз цену перформанси.
    • Намена: Може бити стандардна или за ћаскање. Модел за ћаскање је оптимизован за употребу као четбот, попут ChatGPT-а, док је стандардни модел основни модел.
    • Хардверска оптимизација: Односи се на хардвер на којем модел најбоље ради. GPTQ означава да је модел оптимизован за рад на наменском GPU-у, док је GGML оптимизован за рад на CPU-у.
    • Квантизација: Означава прецизност тежина и активација у моделу. За закључивање, прецизност k4 је оптимална.
    • Величина: Односи се на величину конкретног модела.

    Треба имати на уму да нека имена модела могу бити другачије структурирана и можда неће садржавати све исте информације. Међутим, ова конвенција именовања је прилично честа у библиотеци модела HuggingFace, па је вредно разумети.

    У овом примеру, модел се може идентификовати као Llama 2 модел средње величине, трениран на 13 милијарди параметара, оптимизован за закључивање ћаскања помоћу наменског CPU-а.

    За кориснике са наменским GPU-ом, одаберите GPTQ модел, док за кориснике са CPU-ом, одаберите GGML. Ако желите да комуницирате са моделом као са ChatGPT-ом, одаберите верзију за ћаскање, а ако желите да експериментишете са моделим у његовом пуном капацитету, користите стандардни модел. Што се тиче параметара, треба знати да већи модели пружају боље резултате, али уз слабије перформансе. Препоручљиво је почети са 7B моделом. Што се тиче квантизације, користите k4 јер је погодна за закључивање.

    Преузимање: GGML (бесплатно)

    Преузимање: GPTQ (бесплатно)

    Сада када знате која итерација Llama 2 вам је потребна, преузмите жељени модел.

    У овом случају, пошто се користи ултрабоок, користиће се GGML модел фино подешен за ћаскање, llama-2-7b-chat-ggmlv3.k4_K_S.bin.

    Када је преузимање завршено, преместите модел у фасциклу text-generation-webui-main > models.

    Сада када сте преузели модел и сместили га у фасциклу models, време је да конфигуришете учитавач модела.

    Корак 4: Конфигуришите Text-Generation-WebUI

    Сада, пређимо на фазу конфигурације.

  • Поново отворите Text-Generation-WebUI покретањем датотеке start_(вас ОС) (погледајте претходне кораке).
  • На картицама изнад графичког интерфејса, кликните на Model. Кликните на дугме Refresh у падајућем менију модела и изаберите свој модел.
  • Затим, кликните на падајући мени за учитавање модела и изаберите AutoGPTQ за оне који користе GTPQ модел, односно ctransformers за оне који користе GGML модел. На крају, кликните на Load да бисте учитали модел.
  • За коришћење модела, отворите картицу Chat и започните тестирање.
  • Честитамо, успешно сте учитали Llama 2 на свој локални рачунар!

    Испробајте и друге језичке моделе

    Сада када знате како да покренете Llama 2 директно на рачунару користећи Text-Generation-WebUI, требало би да можете покренути и друге језичке моделе осим Llama. Важно је запамтити конвенције именовања модела и да само квантизоване верзије (обично k4 прецизности) могу да се учитају на обичним рачунарима. Многи квантизовани језички модели доступни су на HuggingFace-у. Ако желите да истражите и друге моделе, потражите TheBloke у библиотеци модела HuggingFace-а и пронаћи ћете много доступних модела.