Сөзді автоматты түрде тану – бұл Siri және Alexa дауыстық көмекшілердің, виртуалды ассистенттердің және дауыс жүйелерінің үлгісі бойынша адамның сөйлеген сөздерін мәтінге айналдыру технологиясы. Назарбаев Университетінің ақылды жүйелер мен жасанды интеллект институтының (NU ISSAI) ғалымдары он түркі тілін — қазақ, әзірбайжан, башқұрт, өзбек, қырғыз, саха, татар, түрік, ұйғыр және чуваш тілдерін танитын жаңа модель әзірледі. Оларға қосымша технология ағылшын және орыс тілдерін таниды.
«Біздің мақсатымыз түркі тілдері үшін сөйлеуді тану моделін әзірлеу болды, олардың көпшілігі үшін интернетте ашық түрде қол жетімді сөйлеу деректер өте аз. Түркі тілдерінің жалпы ерекшеліктерін лексика, фонология және морфология тұрғысынан пайдалана отырып, біз он түркі тілі бір-бірін өзара толықтыратын, бірінші жалпы және сенімді көптілді модель жасағымыз келді», — деді NU ISSAI деректер талдаушысы Саида Мұсаходжаева.
Сөйлеген сөзді тану процесінде технология өте аз қате жібереді. «Башқұрт, қазақ, татар, түрік, ұйғыр және өзбек тілдері үшін символдардағы қателіктердің пайызы 5%-дан аз. Моделіміз түркі тілдерінің ұқсастығын пайдаланады. Егер әрбір тіл үшін жеке модель жасайтын болсақ, бұл нәтижелерге қол жеткізе алмас едік», — деп түсіндіреді NU 4 курс студенті Қайсар Дәулетбек.
NU ISSAI жасаған көптілді модельді Институттың сайтында еркін тестілеуге болады. Жобада пайдаланылған барлық әзірленген модельдерді, дерекқорларды және кодтарды еркін қолжетімді түрде табуға болады.
«Біз бұл жобалардың ең маңызды нәтижесі Қазақстанның технологиялық дамуына ықпал етіп қана қоймай, сонымен қатар болашақ ұрпақ үшін мүмкіндіктер туғыза отырып, басқа елдерде технологияларды ілгерілету үшін өздерінің кәсіби білімдерімен және тәжірибелерімен бөлісуге және қолдануға дайын болатын жоғары білікті техникалық сарапшыларды даярлау болып табылады деп санаймыз», — деп атап өтті ISSAI негізін қалаушы — директоры, NU профессоры Хусейн Атакан Варол.
Институт ғалымдары ашық бастапқы коды бар қазақ тілінің алғашқы корпустарын (KSC және KSC2), ашық бастапқы коды бар қазақ тіліндегі мәтінді сөйлеуге арналған корпустарды (KazakhTTS және kazakhtts2), сондай-ақ аталған объектілерді қазақ тілінде тануға арналған ең ірі ашық деректер жиынтығын (KazNERD) құруда табысқа жетті.
«Институт цифрлық әлемде қазақ тілін ілгерілетуге айтарлықтай күш салуда. Алайда тіл мен сөз технологияларына деген қызығушылық біздің тек институтқа ғана емес, басқа түркі тілдеріне де таралады. Біздің Институт түркі әлемі мен Еуразиядағы жасанды интеллект және деректер туралы ғылымның жетекші ғылыми орталықтарының біріне айналады», — деп ойлайды профессор Варол.








