338.《SELF-QA: Unsupervised Knowledge Guided Language Model Alignment》
337.llm在推荐系统中的应用总结
336.《Outrageously Large Neural Networks_The Sparsily-Gated Mixture-of-Experts Layer》, ICLR 2017
335.《Inference with Reference_Lossless Acceleration of Large Language Models》
方法上虽然是lossless的,但是需要reference text的参与,还是存在很多挺tricky的方法。
334.《Contrastive Search Is What You Need For Neural Text Generation》
logit的艺术。
333.《XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters》
主要思路:基于BLOOM-175B,打散pre-train和instruction tuning两个阶段的数据。不仅能够一定程度上防止灾难性遗忘问题,同时能够实现模型的domain-specific.
332.《LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day》
医学多模态大模型
331.《Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models》
330.《Small Language Models Improve Giants by Rewriting Their Outputs》
329.《Is GPT-4 a Good Data Analyst?》
328.《Lawyer LLaMA Technical Report》
行业垂直大模型的工作:法律领域。这个工作特别谈到了领域知识融入的问题。同时针对中文词典扩充的问题,这里也有一个观点和实验结论:
截止目前比较有代表性的行业大模型工作:
- 金融领域大模型:bloomberge
- 法律领域大模型:lawyer LaMA
- 医疗领域大模型:我们在做的...
327.《InstructIE: A Chinese Instruction-based Information Extraction Dataset》
类似的工作已经有几篇了,这里可以重点看下prompt的构建方式
326.《DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining》
围绕大模型的训练,在数据侧关心的三大问题: (1)数量。质量比数量重要,甚至不需要很多。 (2)质量 (3)多样性。针对“多”,如何学习到一个有效的weight呢?等weight未必是一个最佳解决方案。
325.《Rething with Retrieval:Faithful Large Language Model Inference》
324.《Large Language Models Are Reasoning Teachers》
fine-tuning CoT:本质上是面向大模型的蒸馏。
323.《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》,chatglm的工作
322.《MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos》,CVPR2023
淘宝视频质量评价工作,针对淘系UGC的质量评价。很多年前做搜索的时候,做网页质量评价;近期看到一个很有意思的事情,是用CV的方法做前端页面的测试。在之前的工作中,接触到手术质量评价的工作。
321.《Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions》,漆桂林组的工作
系统评估ChatGPT在复杂QA中的应用效果。
320.《BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining》,MS的工作
319.《Zero-Shot Information Extraction via Chatting with ChatGPT》,DAMO
基于ChatGPT做Zero-Shot的信息抽取的工作(拼手速,预计近期类似的工作还会有很多)
相关工作:https://mp.weixin.qq.com/s/PM_xgHPLitBhh6Gd5DhU7w
318.《ChatAug: Leveraging ChatGPT for Text Data Augmentation》,使用ChatGPT进行数据增强。
相关文章: (1)https://mp.weixin.qq.com/s/AdcdIOEDniu-g3OigmnQ6g (2)《ChatGPT科普和应用初探》:https://redian.news/wxnews/289575,58AILab在一些具体的业务上的量化评测
317.《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,MS的工作
并不是训练了一个模型,而是多个foundation model的整合,构建了一个系统。这个系统能干啥?
(1)发送和接收文本+图片 (2)能够通过多个ai基础模型的多个步骤完成复杂的视觉问答和图片编辑指令 (3)providing feedback and asking for corrected results
这套系统尚存在的问题: (1)依赖ChatGPT和VFM (2)比较依赖prompt工程 (3)实时性差 (4)输入token限制(关于这点,印象中有一个相关工作能够一定程度上缓解) (5)安全和隐私
补充:在多模型整合上,除了各种vfms,用了langchain的工作。
316.《表格识别技术研究进展》,2022.06
三种主流技术方向:
(1)自底向上::先检测单元格,然后确定表格线
(2)自顶向下:先检测表格线,然后确定单元格之间的关系
(3)encoder-decoder:image->html/latex
相关资料:
医疗纸质文档电子档OCR识别:http://www.cips-chip.org.cn/2022/eval4
推荐个离线OCR工具bibiocr(上):https://mp.weixin.qq.com/s/yVnSa7m1BQ7HOHeVK3i3hA
好未来的比赛
315.federated learning的两篇文章:
《When Federated Learning Meets Blockchain:A New Distributed Learning Paradigm》,用区块链技术解决联邦学习的中心化结构问题。中心挂了,系统就会挂。
《Swarm Learning for decentralized and confidential clinical machine learning》,发表在nature上的文章。
314.《Unified Structure Generation for Universal Information Extraction》
整体上采用了encoder-decoder架构,基于transformer模型,实际中预训练模型采用了ernie3.0。用一个统一的架构实现了实体识别,关系抽取,属性抽取,观点提取,事件抽取等各个理解任务。 生成的范式具有极大的灵活性,类似的思想也有很多工作。比如《A Unified Generative Framework for Various NER Subtasks》,该工作用一个生成模型解决NER的各个子任务,在此之前需要单独建模。在中文纠错方向上,由于错误类型较多,比如包含拼写纠错,语法错误等,理论上,一个生成模型可以解决各种设定下的具体任务,而不需要多个模型设计。大概两年前,复现Magi的时候,同组同学基于预训练模型,采用生成的思路做SPO抽取,取得了比理解范式下的模型更好的结果。
313.《Clinical Prompt Learning with Frozen Language Models》
Prompt Learning 在医疗文本分类中的应用。
312.《Context Enhanced Short Text Matching using Clickthrough Data》,利用点击数据做短文本匹配的上下文增强。
311.《PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction》
主要的亮点有三处:
(1)预训练拼写纠错语言模型
(2)多特征融合:character(字形)+position(位置)+phonic(拼音,也许可以进一步考虑发音特征)+shape(笔画)
(3)预训练任务设计:不同于传统的mlm,只预测单个字;该工作中同时预测单字+拼音
310.《Corpora Generation for Grammatical Error Correction》
(1)通过找到维基百科的编辑历史来解决
(2)通过back translation的方式来解决
309.《Towards Unsupervised Dense Information Retrieval With Contrastive Learning》
结论:具体对比学习方法在NLP具体任务上实践,没有显著创新贡献。
数据增强方法:
(1)inverse cloze task
(2)independent cropping
(3)additional data augmentation
负例构建方法:
(1)negative pairs within a batch
(2)negative pairs across batches
308.《Improving language models by retrieving from trillions of tokens》,DeepMind
基于特殊设计的交互组件,通过检索式的方法强化PLM的训练。
307.《Document-level Relation Extraction as Semantic Segmentation》,陈华钧老师组的工作
引用前一段时间的个人微信:
大家都在聊《Pix2seq: A Language Modeling Framework for Object Detection》,发一篇多年前第一次做NER时的一个想法,刚查了下,今年1月的文章,《Named Entity Recognition in the Style of Object Detection》。
在解决问题的范式上,CV和NLP是相通的。
306.《Med-BERT: pretrained contextualized embeddings on large- scale structured electronic health records for disease prediction》
相比其他医学预训练模型,该模型的特色是对ICD编码进行表征。
305.《Named Entity Recognition for Entity Linking》,EMNLP2021
打通NER和EL的关系,核心想法是:如何利用NER得到的Type信息?
304.《Few-Shot Named Entity Recognition_A Comprehensive Study》
文章总结了三种做few-shot ner的方式,并提出了第四种self-training的方式。
具体self-training的思路如下:
303.《Learning Rule Embeddings over Knowledge Graphs: A Case Study from E-Commerce Entity Alignment》, WWW2020
相关工作:AMIE
自动化Rule Learning。
302.《Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models》
301.ML中的数据验证想法:https://github.com/zhpmatrix/PaperReading/edit/master/README.md
300.《RadGraph: Extracting Clinical Entities and Relations from Radiology Reports》, 放射报告的结构化能力抽取
299.对比学习在NLP中的应用:
相关参考:
2.利用Contrastive Learning对抗数据噪声:对比学习在微博场景的实践
3.对比学习(Contrastive Learning):研究进展精要
298.《DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction》,CCKS2021
糖尿病知识图谱的构建。这篇文章的主要亮点:
(1)糖尿病知识图谱schema的设计:实体和关系
(2)标注流程设计。
297.《Pre-trained Language Model for Web-scale Retrieval in Baidu Search》,预训练模型在百度搜索的应用,印象中Google Blog也有一篇工作是讲述BERT在Google Search中的应用。
向量压缩和量化是工程实践中很关键的技术点。
296.《Wordcraft: a Human-AI Collaborative Editor for Story Writing》,Google Research
人机协作的Editor,一个完整的事情。
295.《A Data-driven Approach for Noise Reduction in Distantly Supervised Biomedical Relation Extraction》
multi-instance learning to noise reduction.
294.《CLINE:Contrastive Learning with Semantic Negative Examples for Natural Language Understanding》
利用对抗样本和对比样本提升PLM的鲁棒性。基于MLM,构建额外两个损失函数,预训练一个语言模型。整体上,个人收获不是很大的一个工作。
293.《AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba》
阿里概念图谱的工作,利用search log构建一个concept graph(基于UC Browser的log),可以用在多个应用场景中,如:
(1)text rewriting
(2)concept embedding
(3)conceptualized pretraining
在之前,阿里图谱相关的工作包括但不限于:AliCoCo(认知图谱), AliMe等。
292.《ABCD:A Graph Framework to Convert Complex Sentences to a Covering Set of Simple Sentences》
解决问题:将一个复杂的句子拆分成多个简单的句子。
方法:传统的方法是将问题建模为一个seq2seq的问题,但是在该工作中,借助graph的方式,取得不错的效果。
评价:problem setting有意思。
291.《COVID-19 Imaging Data Privacy By Federated Learning Design: A Threoretical Framework》, 联邦学习在cv领域的一个工作
290.《Large-Scale Network Embedding in Apache Spark》,KDD2021,在腾讯的两款游戏中有上线哦
289.《AliCoCo_Alibaba E-commerce Cognitive Concept Net》,短文本相关的技术
288.《A Neural Multi-Task Learning Framework to Jointly Model Medical Named Entity Recognition and Normalization》
同样的思想,基于multi-task的方式建模ner和norm两个任务。
287.《A transition-based joint model for disease named entity recognition and normalization》
老文章了。讨论的想法是医疗领域针对疾病,做实体识别和norm的联合建模。作为医疗NLP领域的三大基础任务:ner/nre/norm,采用jointly的方式,one model to rule all of them,也许是一个想法。
286.《A Survey on Complex Knowledge Base Question Answering》
主要综述两种KBQA的解决方案:分别是semantic-parsing based methods和information-retrieval based methods。
future中提到的一个有意思的观点是:要做Evolutionary KBQA,简而言之,要将用户的feedback带入到系统的优化中。
285.病历相似性(基于电子病历数据)
目前看到的主流思路是:梳理出EMR的各个维度,然后按照维度计算每个维度的相似性,每个维度都有自己的相似度计算方式,之后按照加权的方式求解。
个人想法:
(1)纯文本的方式。计算tf-idf(ES based solution)
(2)计算表征。但是由于EMR文本较多,医学文本对于精确性要求比较高,因此需要hierarchical representation fusion的思想。(不管怎样,首先需要一个好的encoder)
《Measurement and application of patient similarity in personalized predictive modeling based on electronic medical records》
284.《A Unified Generative Framework for Various NER Subtasks》,邱锡鹏老师组的工作
主要内容:用seq2seq(bart)解决三种常见ner的case(flat ner + nested ner + discontinuous ner)
想法:
(1)在之前的工作中,围绕这三种情况,有很多的paper。但是这篇文章采用seq2seq来解决,思路上之前也已经有相关工作了,但是这篇文章主要采用bart作为plm。毕竟seq2seq是万能的,哈哈。
(2)围绕bert做的中文nlp比较多,为啥?原因之一是因为bert有中文版,但是想用一下bart,就需要自己训练一个中文的bart了。每当这个时候,就不禁想到英文世界的话语权是怎么来的,到底意味着啥?
(3)技术创新个人认为谈不上:seq2seq(plm:bart)+ner(是一个体力活儿,不过还是要做很多工作的)
283.《SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining》,丁香园的预训练语言模型
知识增强预训练语言模型。研究了丁香园,联合阿里和东南大学做的工作,丁香园利用5G的医疗领域中文文本+内部的知识图谱,通过巧妙的模型设计,得到的模型能够显著提升NER/NRE等上游任务的指标。我们可以利用开源爬取的数据(目前量<5G),同时结合OMAHA,做类似的工作以支持上游模型。
282.《Modeling Joint Entity and Relation Extraction with Table Representation》,EMNLP2014
人傻就要多读书,比如,在2014年的工作中,已经用table的方式解决joint问题了,如下:
四篇information extraction相关的工作:
281.《Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking》
280.《Integrating Graph Contextualized Knowledge into Pre-trained Language Models》,小样本信息抽取相关的工作
279.《A novel cascade binary tagging framework for relational triple extraction》
278.《Entity-Relation Extraction as Multi-Turn Question Answering》
277.《Lifelong Learning based Disease Diagnosis on Clinical Notes》,腾讯天衍实验室的工作,TODO
276.《PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction》,腾讯天衍实验室的工作,TODO
275.《MIE: A Medical Information Extractor towards Medical Dialogues》
annotate online medical consultation dialogues in a window-sliding style.
274.《A Survey of Data Augmentation Approaches for NLP》
比较新的NLP数据增强文章,按照任务类型划分增强的方式。
273.《HyperCore: Hyperbolic and Co-graph Representation for Automatic ICD Coding》, ACL2021
ICD编码映射,医疗NLP的特色任务。
ICD的特点:
(1)层次
(2)共现(因果)
主要方法:GCN的应用
272.《Few-Shot Named Entity Recognition: A Comprehensive Study》,Jiawei Han组的工作
NER中的少样本问题,三种解决方案:
(1)基于proto的few-shot learning方法(此前在研究文本分类的few-shot问题时,该方向上的工作也一直比较受欢迎)
(2)带噪音,有监督预训练
(3)伪标签,自训练
271.《Summarizing Medical Conversations via Identifying Important Utterances》,COLING2020
主要内容:从医疗问答中抽取摘要。
数据:从春雨医生爬取
方法:抽取式摘要
270.《Enquire One’s Parent and Child Before Decision_ Fully Exploit Hierarchical Structure for Self-Supervised Taxonomy Expansion》,腾讯,刘邦
分类树扩展的工作,用于腾讯的疫情问答场景。刘邦的博士论文可以一读。
269.Federated Learning
《Privacy-Preserving Technology to Help Millioins of People_Federated Prediction Model for Stroke Prevention》
FL使用传统模型,也是目前主要做的工作
《Empirical Studies of Institutional Federated Learning For Natural Language Processing》
FL使用TextCNN的经验性工作
《FedED: Federated Learning via Ensemble Distillation for Medical Relation Extraction》
内容:FL应用于医疗关系抽取
结果:实现了隐私保护,但是指标下降
核心:在通信,不在计算
科普:《Introduction to FL》,本质上还是分布式学习的一种。
结论:除非必要,否则目前在工业界推进的ROI应该不算高。不单纯是一个算法问题,还是一个架构问题。但是在医疗行业目前现状下(数据孤岛现象),仍有必要关注
268.《MedDG: A Large-scale Medical Consultation Dataset for Building Medical Dialogue System》,Xiaodan Liang等
构建了一个中文医学对话数据集,特点是:标注了每个对话可能涉及的实体。
基于该数据集,定义了两个任务:
(1)next entity prediction。文章中用multi-label classification的方式实现
(2)doctor response generation。标准的文本生成类任务+融合任务(1)中的实体信息(最简单的方式:直接concat实体)
其他:ICLR2021要基于该数据集举办一个比赛,可以关注。
想法:其实是对生成领域强化对实体信息的利用。传统做生成的同学有一些对应的方式强化对实体信息的利用。不过,文章中的建模方式更偏intent识别。
《MedDialog: Large-scale Medical Dialogue Datasets》,EMNLP2020,这篇工作也是构建了一个中文医疗对话数据集,不过没有实体信息。
267.《BioBERT:a pre-trained biomedical language representation model for biomedical text mining》
预训练任务没有做任何改进,但是在下游的三个理解任务上均取得了提升,比较适合工业界操作的工作。
补充:《Conceptualized Representation Learning for Chinese Biomedical Text Mining》,阿里巴巴,张宁豫
266.《Building Watson:An Overview of the DeepQA Project》,2011年,IBM Watson的DeepQA项目,具体实现细节
讨论了架构和工程实现的问题,其中的特色在于对证据的重视。
265.《Strategies For Pre-training Graph Neural Networks》,ICLR2020
主要内容:预训练图的工作
motivation:node的pretrain和graph的pretrain都要;之前的一些工作只考虑node或者graph的单个类型的pretrain
训练任务:
(1)node:context graph的定义,学习context;attribute mask任务 (2)graph:supervised graph-level properties prediction + structural graph similarity prediction
基础模型: GIN
直观感受:中规中矩;目前还没看到预训练图的工作应用于电商领域等
264.《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》,KDD2019
腾讯刘邦的工作,刘邦的博士论文也有share,主要做概念挖掘,偏向于工程系统的工作。相关文章
263.《Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking》
和《AutoRegressive Entity Retrieval》,ICLR2021一块儿读。
262.《CRSLab:An Open-Source Toolkit for Building Conversational Recommender System》
CRS系统的设定:
261.《Open Domain Event Extraction Using Neural Latent Variable Models》
开放域的事件抽取。(个人对隐变量模型不是很了解)
260.《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》,KDD2018
259.《AutoRegressive Entity Retrieval》,ICLR2021
用生成的方式(seq2seq)做el,entity disambiguation, page retrieval任务。将传统分类任务转化为一个生成任务是问题解决范式的转变,很有意思的工作。在自己的博客,MRC is all you need?中讨论了将很多经典NLP任务用MRC的方式来做。
258.《Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation》,KDD2019
基于user-item-query构建的图,三种类型的边:search,click, guide,用于淘宝意图检测。
257.《Heterogeneous Graph Attention Network》,WWW2019
异构图+gat,文章写作思路很赞。目前,我们正尝试将该工作用于销量预测与归因分析。
256.《POG:Personalized Outfit Generation for Fashion Recommendation ai Alibaba iFashion》,KDD2019
阿里dida平台建设,compatibility+personality都要考察。
相关PR稿(dida也是从luban演化而来):https://hackernoon.com/finding-the-perfect-outfit-with-alibabas-dida-ai-assistant-71ba7c9e8cfa
255.《Spam Review Detection with Graph Convolutional Networks》,CIKM2018 Best Paper
重新翻开这篇文章,方法如下:
文章要解决的问题是垃圾评论检测,构建了两个图。第一个图:用户-评论-商品图,是异构图;第二个图:评论-评论图,是同构图。分别用异构GCN和GCN学到各自的表征,做节点分类工作。
整体上,文章的思路和这篇《Abusive Language Detection with Graph Convolutional Networks》非常相似,但是二者都没有互相引用。这篇文章做的是Tweet分类(三分类),分别构建两个图。第一个图:用户-用户的同构图;第二个图:用户-Tweet的异构图。针对同构图,用node2vec去学到表征(node2vec不是仅仅适用于同构图,不过效果需要考察);针对异构图,用gcn去学到表征。表征组合(embedding+n-gram)+分类器做节点分类。
对比二者,整体上的技术思路相似,不过显然后者在图构建上更加的自然。
254.《Graph Neural Networks:Taxonomy, Advances and Trends》,最新的GNN相关的综述文章
253.《Understanding Image Retrieval Re-Ranking:A Graph Neural Network Persperctive》
有意思的工作,作者提到:
(1)Re-ranking can be reformulated as a high-parallelism Graph Neural Network (GNN) function.
(2)On the Market-1501 dataset, we accelerate the re-ranking processing from 89.2s to 9.4ms with one K40m GPU.
252.《Why Are Deep Learning Models Not Consistently Winning Recommender Systems Competitions Yet?》,RecSys2020
非常棒的文章,多年以前自己就很好奇了。
251.《Enriching Pre-trained Language Model with Entity Information for Relation Classification》
250.《Diverse, Controllable, and Keyphrase-Aware: A Corpus and Method for News Multi-Headline Generation》
新闻标题生成
249.《CharBERT: Character-aware Pre-trained Language Model》
248.《