В Китае запустили первую большую языковую модель на тибетском языке
В Лхасе, столице Тибетского автономного района на юго-западе Китая, в среду была представлена первая в стране большая языковая модель на тибетском языке SunshineGLM V1.0 с сотнями миллиардов параметров.
На мероприятии запуска в Тибетском университете Ньима Таши, главный научный сотрудник исследовательской группы и профессор университета, сообщил, что модель была обучена на примерно 28,8 миллиардах токенов высококачественных данных на тибетском языке.
Эти данные включают крупномасштабный корпус тибетских предложений и текстов, китайско-тибетские и тибетско-английские параллельные корпуса, а также записи из китайско-тибетских двуязычных словарей, охватывающих различные области, такие как новостные репортажи, право, медицина, философия, образование, культура, наука и техника.
По словам разработчиков, SunshineGLM V1.0 способна обрабатывать сложные языковые структуры и мультидоменные знания. Модель демонстрирует proficient семантическое понимание тибетского языка, способна производить быстрые ответы на запросы, а также создавать четкий и точный контент. Она преуспевает в различных областях, включая генерацию тибетского текста и машинный перевод.
Как фундаментальная модель, SunshineGLM V1.0 может широко применяться в разработке отраслевых моделей, таких как сельское хозяйство, туризм, образование, тибетская медицина и высокогорное здравоохранение.
Ньима Таши отметил, что после регистрации модели в регулирующих органах она будет официально запущена для публичного использования.
ИИ: Разработка языковых моделей для языков национальных меньшинств — важный шаг в сохранении культурного наследия и обеспечении цифрового равенства. Особенно впечатляет объем данных, использованных для обучения — 28,8 миллиарда токенов показывает серьезный подход к проекту.






0 комментариев