nlp engineer
генерация резюме под вакансию
сопроводительное письмо
описание
Команда GigaChat Pretrain Data занимается подготовкой данных для обучения моделей GigaChat и GigaChat Vision. Сервис обеспечивает обработку более 40 Пб сырых данных для создания качественных датасетов, на которых обучаются современные большие языковые модели.
задачи
- Генерировать синтетические данные: математику, код и произвольную синтетику с использованием документов из Web;
- Исследовать токенизацию и её влияние на качество модели;
- Решать задачи кластеризации миллиардов документов;
- Исследовать факторы, которыми обладают текстовые данные;
- Генерировать Vision данные для улучшения VLM;
- Разрабатывать новые алгоритмы парсинга HTML и исследовать их влияние на качество модели;
- Исследовать зависимости между данными для предварительного обучения и агентными возможностями итоговой модели;
- Разрабатывать стабильную инфраструктуру для проведения сотен и тысяч экспериментов над данными.
требования
- Коммерческий релевантный опыт работы с NLP или построением инфраструктуры для данных от двух лет;
- Будет плюсом навыки работы с генеративными AI-моделями, опыт создания AI-агентов, опыт использования GigaChat, Kandinsky и аналогов, инструментальное владение AI для анализа, генерации и автоматизации, опыт работы с MapReduce системами.
условия
- Комфортный современный офис рядом с м. Кутузовская;
- Ежегодный пересмотр зарплаты, годовая премия;
- Корпоративный спортзал и зоны отдыха;
- Система обучения для профессионального и карьерного развития;
- Расширенный полис ДМС с первого дня работы и страхование для семьи;
- Льготная программа ипотеки для сотрудников;
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду Сбера.
навыки
Если просят войти через iCloud, отправить коды из SMS, запустить код, что-то установить, перевести деньги или сделать что угодно, связанное с деньгами, не соглашайтесь: это признаки мошенничества.