12 желтоқсан 2024
Осы мақаламен бөлісіңізNazarbayev University-дің (NU) Ақылды жүйелер мен жасанды интеллект институтының (ISSAI) зерттеушілері Қазақстан Президенті Қ. Тоқаевқа нейрондық желі негізінде әзірленген ISSAI KAZ-LLM деген қазақ тілінің үлкен тілдік моделін таныстырды.
Бұл жоба – қазақстандық жасанды интеллекттің әлемдік аренаға интеграциялануындағы маңызды кезең. Бұл қазақ тіліндегі ChatGPT деуге келеді.
Елдің көптілділігі мен мәдени сан алуандығын ескере отырып бейімделген ISSAI KAZ-LLM моделі қазақ, орыс және ағылшын тілдеріне арналып жасалған, сондай-ақ түрік тілін қосымша қолдайды. Бұл тілдік алшақтықтарды жоюға және шектеулі ресурстарға ие тілдердегі генеративті жасанды интеллекттің дамуына мүмкіндік береді.
Модельдің берік жұмыс істеуін қамтамасыз ету үшін ISSAI командасы 150 миллиардтан астам токенді (яғни, сөздер немесе сөз бөлшектерін) жинады, өңдеді, синтездеді және аударды. ISSAI KAZ-LLM оқыту деңгейі өте жоғары және жасанды интеллект саласындағы әлемдік көшбасшылармен қазақ, орыс және ағылшын тілдеріндегі нәтижелер бойынша бәсекелеседі.
Сонымен қатар ISSAI KAZ-LLM жергілікті таланттарды тәжірибемен қамтамасыз етіп, ұлттық жасанды интеллект мүмкіндіктерін нығайтты. Жоба тек озық жасанды интеллект құралын құруға ғана емес, сондай-ақ қазақстандық жасанды интеллект мамандарының дамуына да ықпал етті. Қазақстандық зерттеушілер деректерді дайындаудан бастап модельдерді енгізуге дейінгі процестің барлық кезеңдерінде қатысып, тұрақты жасанды интеллект инновацияларының негізін құрды. ISSAI жетекші қазақстандық институттармен бірлесе отырып, лингвистер тобы көмегімен және машиналық аударманың озық әдістерін қолдана отырып, салыстыру құралдары мен деректер жиынтықтарын қазақ тіліне бейімдеп алды.
KAZ-LLM-ның қолданылуы қазақ тілінің аудармаларынан бастап, мәтін мазмұнын генерациялау мен үлкен мәтіндерді өңдеуді қамтиды. Жоба 2024 жылдың сәуірінде басталып, модельді оқыту процесі әзірлеушілердің шамамен 5 ай уақытын алды. Оқу деректері тек жалпыға қолжетімді дереккөздерден, соның ішінде қазақ веб-сайттарынан, жаңалықтар мақалаларынан және онлайн кітапханалардан жиналған. Сонымен қатар әртүрлі ұйымдар ұсынған деректер де пайдаланылды.
"Бұл модель Қазақстанның инновацияға, дербестікке және технологиялық экожүйесінің өсуіне деген ұмтылысын көрсетеді. Біздің командамыз Meta-ның Llama архитектурасына сүйене отырып жасалған және жоғары өнімді жүйелерге мен ресурстары шектеулі орталарға оңтайландырылған 8 миллиард және 70 миллиард параметрлі ISSAI KAZ-LLM-нің екі нұсқасын дайындады. CC-NC-BY лицензиясы бойынша шығарылған модельдер коммерциялық емес мақсатта Hugging Face платформасында қолжетімді болып, жаһандық академиялық және зерттеу ынтымақтастығына ықпал етеді. Осылайша, әзірлеушілер біздің моделімізді күрделі серверлерге де, ноутбуктерге де жүктеп алып, іске қоса алады", — деді NU ISSAI негізін қалаушы және директоры профессор Хусейн Атакан Варол.
ISSAI келесі буын жасанды интеллект жүйелерін, оның ішінде тілдік көру модельдерін дамытуды және осы модельдерді қосымша түркі және аймақтық тілдерді қолдау үшін кеңейтуді қарастырады. Бұл ұмтылыс аймақтық байланыстарды нығайту, тіл интеграциясын жеңілдету, Қазақстанда және одан тыс жерлерде елеулі экономикалық және технологиялық әсерді ынталандыруға мүмкіндік береді.
ISSAI KAZ-LLM жобасы NU және NIS Даму қорының, сондай-ақ Astana Hub және QazCode (Beeline) қолдауының арқасында мүмкін болды. Жобаны әзірлеу мемлекеттің қаражатынсыз жүргізілді. Ұлттық үлкен тілдік модельді әзірлеудегі негізгі серіктестер Beeline Kazakhstan және оның QazCode АТ компаниясы болды. 8 DGX H100 бұлттық сервері түріндегі қосымша есептеуіш қолдауының арқасында модельдерді оқытудың бір итерациясының уақытын А100 серверіндегі 3 жылдан бұлттық серверлердегі 50-ақ күнге дейін қысқартып, жобаны Қазақстан Республикасының Тәуелсіздік күніне орай уақтылы аяқтауға мүмкіндік берді.
"Біздің командамыз Kaz-LLM моделін әзірлеу мен оқытуға белсенді қатысты. Қазақ тілінің ерекшеліктерін ескеретін модельді әзірлеуді және 50 күндік есептеулерді қамтитын күрделі процесс контекстіні түсінуді жақсартуға және пайдаланушылармен сапалы өзара әрекеттесуді қамтамасыз етуге мүмкіндік берді. Тестілеу нәтижелері модельдің мәдени ерекшеліктерін ескере отырып, техникалық мәселелерді тиімді шешетінін көрсетті. Біз Kaz-LLM бүкіл Қазақстан үшін маңызды құралға айналатынына, тілдік цифрлық барьерді еңсеруге және өңірдегі цифрлық қызметтердің сапасын жақсартуға көмектесетініне сенімдіміз", — деп түсіндірді QazCode бас директоры Алексей Шаравар.
13 қаңтар 2025
Оқиғалар#NUgoesGLOBAL6 қаңтар 2025
27 желтоқсан 2024
#NUgoesGLOBAL#NUnews13 қаңтар 2025
Оқиғалар#NUgoesGLOBAL6 қаңтар 2025
27 желтоқсан 2024
#NUgoesGLOBAL#NUnews