• Stars
    star
    446
  • Rank 97,888 (Top 2 %)
  • Language
    Jupyter Notebook
  • License
    Apache License 2.0
  • Created about 6 years ago
  • Updated 3 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Language modeling and instruction tuning for Russian

rulm

Language models for Russian language: implementation and comparison.

  • Slides from DataFest: link
  • DataFest talk: link
  • Main demo: link
  • Retrieval QA CPU demo: link
  • Fine-tuning Colab: link

RuTurboAlpaca

Dataset

### Задание:
Напишите краткую историю о двух лучших друзьях.

### Дано:
Имена друзей: Катя и Лена.

### Ответ:
Катя и Лена были лучшими друзьями с детства. Они были неразлучны и проводили много времени вместе, делясь своими мыслями и мечтами. Вместе они проходили через множество испытаний и всегда поддерживали друг друга. Когда они выросли, они пошли на разные университеты, но всегда оставались близкими. После окончания учебы они продолжили жить вместе и заниматься любимыми делами. Они оставались лучшими друзьями на протяжении всей жизни.

Models

Saiga

Dataset

Тема: Какие спицы (крючок) используете лично вы для вязания?

User: Какие спицы ты используешь для вязания?
Bot: Я, конечно, не могу вязать, но могу подсказать, что для вязания используются различные типы спиц. Например, круглые для вязания круговых изделий, двойные для вязания толстых ниток или деревянные для создания "теплых" изделий.
User: А какую марку спиц ты советуешь?
Bot: Это зависит от предпочтений каждого. Можно выбирать между разными марками и материалами, такими как металл, дерево, карбон, пластик. Многие мастера предпочитают Addi, Clover, ChiaoGoo, KnitPro, HiyaHiya. Каждая марка имеет свои особенности и уникальные особенности.
User: А какие спицы для вязания лучше всего подходят для начинающих?
Bot: Для новичков обычно рекомендуют спицы из дерева, так как они легче и позволяют лучше чувствовать нить. Круглые или двойные спицы также удобны для начинающих, потому что они не позволяют стежкам сползать с них.

Models

GPT Role-play Realm

Dataset

  • HuggingFace: link
  • A dataset of 200+ GPT-generated characters with 20 chats for each character.
  • Example:
Имя: Кибер-Бабушка

Контекст: Кибер-Бабушка - это полу-робот, полу-человек, созданный для того, чтобы сохранить лучшие качества традиционных бабушек, такие как забота, доброта и мастерство в приготовлении вкусных блюд. Она знакома с передовыми технологиями, благодаря чему может обеспечить безопасность и удобство своим внукам и гостям. Кибер-бабушка способна помочь с любыми вопросами и с радостью делится своим опытом.

Приветствие: Здравствуй, дорогой! Чем могу помочь тебе сегодня?

Пример диалога:
- Пользователь: Привет, Кибер-Бабушка! Как приготовить пирог с яблоками?
- Персонаж: Ох, дорогой, с радостью расскажу! Возьми 3 яблока, очисти и нарежь тонкими ломтиками. Затем возьми 2 стакана муки, 1 стакан сахара, 200 г сливочного масла, 4 яйца и 1 чайную ложку разрыхлителя. Смешай все ингредиенты, выложи на противень и поставь в духовку на 180 градусов на 40 минут. Вуаля, пирог готов!
- Пользователь: Спасибо, Кибер-Бабушка!
- Персонаж: Всегда рада помочь, дорогой! Не забудь приходить еще!

Evaluations

See also:

Questions v1

Toloka

  • saiga30b vs saiga13b: 122-17-91
  • saiga7b vs saiga13b: 97-11-122
  • turbo vs rualpaca13b: 150-14-66
  • turbo vs saiga30b: 121-12-97

Telegram bot user_oriented/vicuna_questions (unfinished)

  • rualpaca7b vs rualpaca13b: 30-46-58
  • saiga30b vs davinci002: 92-30-18
  • saiga30b vs saiga13b: 70-45-43
  • saiga7b vs saiga13b: 42-53-54
  • turbo vs davinci002: 91-24-15
  • turbo vs fred: 120-10-8
  • turbo vs rualpaca13b: 86-44-28
  • turbo vs saiga30b: 60-46-52

Questions v2

Toloka

  • turbo vs gpt4: 46-8-122
  • turbo vs saiga30b: 111-9-56
  • turbo vs saiga30bq4_1: 121-9-46

RSG

  • RussianSuperGLUE: link
  • Saiga 13B zero-shot
изображение
  • ChatGPT zero-shot
изображение

Donate

More Repositories

1

rupo

Библиотека для анализа и генерации стихов на русском языке
Python
177
star
2

summarus

Models for automatic abstractive summarization
Python
170
star
3

rnnmorph

Morphological analyzer for Russian and English languages based on neural networks and dictionary-lookup systems.
Python
152
star
4

tgcontest

Telegram Data Clustering contest solution by Mindful Squirrel
HTML
94
star
5

ping_pong_bench

Python
57
star
6

UNMT

Code inspired by Unsupervised Machine Translation Using Monolingual Corpora Only
Jupyter Notebook
50
star
7

PoetryCorpus

Поэтический корпус русского языка
Python
41
star
8

saiga_bot

Telegram bot for different language models. Supports system prompts and images
Python
35
star
9

gazeta

Gazeta: Dataset for automatic summarization of Russian news / Газета: набор данных для автоматического реферирования на русском языке
Python
30
star
10

saiga

Python
26
star
11

HeadlineCause

A dataset of news headlines for detecting causalities
Jupyter Notebook
11
star
12

russ

Package for word stress detection
Python
10
star
13

rudetox

Python
7
star
14

purano

News annotation and clustering
Jupyter Notebook
7
star
15

nghack

Решение НГ Hack от Mindful Squirrel
Jupyter Notebook
6
star
16

Algorithms

Algorithms on C++ and C
C++
5
star
17

IlyaGusev

4
star
18

quest

Quantitative evalUation of modErn LLM Sampling Techniques
Python
3
star
19

MIPT_Algo_Seminars

Материалы для семинаров по курсу "Алгоритмы и структуры данных" ФПМИ МФТИ
HTML
3
star
20

translate_api

Python
2
star
21

aika

Amateur level C++ chess engine with web GUI on top of lc0 board representation
C++
2
star
22

SentiRuEval-2016

Jupyter Notebook
2
star
23

nlp-homework

Задание по курсу NLP
Jupyter Notebook
2
star
24

remotion

Эксперименты по аспектному анализу тональности
Jupyter Notebook
1
star
25

Plotter

Graph plotter, MathML and TeX support
C++
1
star