ISSAI представит большую языковую модель KazLLM в декабре этого года

В NU состоялся брифинг с участием основателя и Генерального директора Института умных систем и искусственного интеллекта (ISSAI), профессора Атакана Варола, заместителя директора по операционной деятельности Ербола Абсалямова и заместителя директора по внешним связям Мадины Абдрахмановой. Спикеры рассказали о процессе разработки большой языковой модели казахского языка - KazLLM.

В NU состоялся брифинг с участием основателя и Генерального директора Института умных систем и искусственного интеллекта (ISSAI), профессора Атакана Варола, заместителя директора по операционной деятельности Ербола Абсалямова и заместителя директора по внешним связям Мадины Абдрахмановой. Спикеры рассказали о процессе разработки большой языковой модели казахского языка — KazLLM.

ISSAI приступил к сбору данных в апреле этого года и сейчас проводит обучение модели, используя облачную вычислительную платформу с небольшим количеством узлов NVIDIA H100.

“На данный момент мы достигли значительного прогресса, и я должен отметить, что все сотрудники, работающие в этом проекте, кроме меня, — казахстанцы, студенты NU или других университетов, например, Astana IT University, выпускники «Болашака» и местные специалисты. Итогом проекта станет создание KazLLM, но самые важное — это формирование научной группы специалистов, способной создавать передовые инструменты и продукты в сфере искусственного интеллекта. И в этой специфической технологии мы не отстаем от других стран. После создания KazLLM и его моделей — это будет 18 месяцев, когда мы интегрируем голос, мы будем отставать на 12 месяцев. Создав модель языкового зрения, мы окажемся наравне и будем делать то же, что и другие страны. Главное, что мы делаем это для народа Казахстана и на государственном языке”, — отметил профессор Варол.

Разнообразные источники данных для проекта включают статьи из Википедии, новостных агентств, государственных сайтов и открытые наборы данных (например, Common Crawl), находящиеся в общем доступе. Проект решает вопросы национальной и информационной безопасности, в то время как использование иностранных продуктов чревато утечкой данных и представлением искаженной информации. За последние пять лет ISSAI разработал многочисленные наборы данных для обработки естественного языка специально для казахского языка.

“Корпус для обучения моделей будет состоять из как минимум 100 миллиардов токенов, включающих казахский, русский, английский и турецкий языки, причем каждый язык будет представлен 25 миллиардами токенов. У нас сейчас более 30 млрд токенов. Токен — это единица оценки данных, это может быть слово или часть слова. 26 млрд токенов были созданы с помощью переводчика Tilmash для перевода данных с английского на казахский язык. Наша модель сейчас может выводить грамотный казахский язык. В дополнение мы будем создавать интерактивную площадку, куда может зайти пользователь, как это сделал OpenAI сейчас”, — добавила старший аналитик данных Мадина Абдрахманова.

Таким образом, для обеспечения широкого использования ISSAI разрабатывает платформу для общих пользователей и специализированный интерфейс прикладного программирования (API) для продвинутых пользователей, чтобы они могли интегрировать модели в свои продукты. Платформа будет поддерживать взаимодействие с моделями, обучение с подкреплением на основе отзывов людей и настройку для оптимальной производительности в различных сценариях. API позволит плавно интегрировать модель в веб-сайты, приложения для смартфонов, программные коды и программы для персональных компьютеров.

Запуск первой LLM казахского языка запланирован на День независимости Республики Казахстан — 16 декабря т.г. Проект реализуется при финансовой поддержке МЦРиАП, Эндаумент фонда NU и НИШ, а также Фонда социального развития NU.

Up

© Назарбаев Университет

Республика Казахстан, г. Астана, пр. Кабанбай батыра, 53