ISSAI осы жылдың желтоқсан айында қазақ тіліндегі алғашқы LLM-ды ұсынады

2024, 18 января

NU зерттеулері, NU іс-шаралары

NU-да Ақылды жүйелер мен жасанды интеллект институты (ISSAI) негізін қалаушы және бас директоры, профессор Атакан Варол, операциялық қызмет жөніндегі директор орынбасары Ербол Абсалямов және сыртқы байланыстар жөніндегі директор орынбасары Мәдина Әбдірахманованың қатысуымен брифинг өтті. Баяндамашылар қазақ тіліндегі алғашқы KazLLM әзірлеу үдерісіне тоқталды.

ISSAI осы жылдың сәуір айында деректерді жинауды бастап, қазір NVIDIA H100-дің аз мөлшердегі түйіндері бар бұлтты есептеу платформасын пайдала отырып, модельдерді оқыту ісін бастады.

«Қазір біз айтарлықтай жетістіктерге жеттік және меннен басқа бұл жобада жұмыс істейтін қызметкерлердің барлығы қазақстандықтар,NU немесе басқа университеттердің студенттері, мысалы, Астана IT университетінің студенттері, «Болашақ» бағдарламасының түлектері және жергілікті мамандар екенін атап өтуім керек. Жобаның нәтижесі KazLLM құру болады, бірақ ең бастысы жасанды интеллект саласындағы озық құралдар мен өнімдерді жасауға қабілетті мамандардың ғылыми тобын қалыптастыру. Ал осы нақты технология бойынша біз басқа елдерден қалыспаймыз. KazLLM және оның үлгілерін жасағаннан кейін – 18 ай болады, дауысты біріктірген кезде біз 12 айға артта қаламыз. Тілдік көзқарас үлгісін жасау арқылы біз басқа елдермен тең дәрежеге жетіп олар жасап жатқан жобаларды жасаймыз. Ең бастысы, біз мұны Қазақстан халқы үшін және мемлекеттік тілде жасаймыз», – деді Профессор Варол.

Жоба Уикипедиядағы мақалалар, жаңалықтар агенттіктері, мемлекеттік сайттар және жалпы қолданымдағы (Common Crawl сияқты) дереккөздерінен тұрады. Соңғы бес жылда ISSAI арнайы қазақ тілі үшін табиғи тілді өңдеуге арналған көптеген деректер жинақтарын әзірледі. Жоба ұлттық және ақпараттық қауіпсіздік мәселелерін қарастырады, өйткені шетелдік өнімдерді пайдалану деректердің ағып кетуіне және бұрмаланған ақпаратты ұсынуға толы. Соңғы бес жылда ISSAI қазақ тіліне арналған табиғи тілді өңдеуге арналған көптеген деректер жинақтарын әзірледі.

«Модельдік оқу корпусы қазақ, орыс, ағылшын және түрік тілдерін қоса алғанда, кем дегенде 100 миллиард токеннен тұратын болады, сондай-ақ әрбір тілде 25 миллиард токен көрсетіледі. Қазір бізде 30 миллиардтан астам токен бар. Токен – деректерді бағалау бірлігі, ол сөз немесе сөздің бөлігі болуы мүмкін. Деректерді ағылшын тілінен қазақ тіліне аудару үшін Tilmash аудармашысының көмегімен 26 миллиард токен жасалды. Біздің модель енді сауатты қазақ тілін шығара алады. Бұған қоса, біз қазір OpenAI жасағандай, пайдаланушы бара алатын интерактивті платформа жасаймыз», деп қосты аға деректер талдаушысы Мәдина Әбдірахманова.

Кең ауқымды пайдалануды қамтамасыз ету үшін ISSAI жалпы қолданушыларға платформаға жазылуды ұсынса, озық қолданушылар үшін үлгіні өз өнімдеріне енгізе алатындай етіп, арнайы қолданбалы бағдарламалау интерфейсін (API) ұсынады. Платформа модельдермен өзара әрекеттесуді, адамның кері байланысына негізделген оқытуды бекіту және әртүрлі сценарийлерде оңтайлы өнімділік үшін реттеуді қамтамасыз етіп отырады. API модельді веб-сайттарға, смартфон қолданбаларына, бағдарлама кодтарына және дербес компьютерлер бағдарламаларына қиындықсыз енгізуге мүмкіндік береді.

Қазақ тіліндегі алғашқы LLM іске қосылуы Қазақстан Республикасының Тәуелсіздік күніне – ағымдағы жылдың 16 желтоқсанына жоспарланған. Жоба ҚР ЦДИАӨМ, NU және NIS Эндаумент қоры, сондай-ақ NU Әлеуметтік даму қорының қаржылық қолдауымен жүзеге асырылуда.

Мақаланы бөлісу