Материалы курса по компьютерной лингвистике (Natural Language Processing course materials)
Jupyter-ноутбуки курса
- Предобработка текста (Text preprocessing)
Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel. - Классификация текста (мешок слов) (Bag-of-words classification)
TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста - Поиск и исправление опечаток (Spellchecking)
Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell. - Базовое языковое моделирование (Basic Language Modelling)
Вероятность слова, Ngram language model, перплексия, генерация текста. - Тематическое моделирование (Topic modelling)
Матричные разложения (SVD, NMF), LDA, перплексия, когерентность. - Векторные представления слов (word2vec/fastext) (Word embeddings)
CBOW, Skip-gram, negative sampling, deep learning basics, sigmoid, softmax. - RNN и извлечение именованных сущностей (Named Entity Recognition)
LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling. - Трансформеры. Использование предобученных моделей (Transformers. Fine-tuning pretrained models)
Transformer, BERT, HuggingFace, fine-tuning. - Трансформеры. GPT. Генерация текста (Transformers. GPT. Text generation)
- Трансформеры. Seq2Seq. Машинный перевод (Transformers. Seq2Seq. Machine Translation)
- Трансформеры. Дообучение на инструкциях (Transformers. Instruct fine-tuning)
- Трансформеры. RLHF
- Трансформеры. PEFT
Архивные jupyter-ноутбуки
- WSD/WSI
- NER с помощью грамматик (yargy)
- Few-shot NER (deep pavlov)
- Деревья зависимостей (Dependency trees)
- Тематическое моделирование в BigARTM
- Keyword extraction
- Определение языка
- Коллокации
- CNN (tf), CNN (pytorch)
- RNN (pytorch)
- Deep learning intro (tf), Deep learning intro (pytorch)
- Кластеризация (Clustering)
- Морфологическая дизамбигуация
- Использование предобученных моделей (pytorch)
- Viterbi/MEMM
- Sentence tokenization
- Relation extraction
- Semantic Role Labelling