Discover zhpmatrix/PaperReading Open Source project

338.《SELF-QA: Unsupervised Knowledge Guided Language Model Alignment》

337.llm在推荐系统中的应用总结

336.《Outrageously Large Neural Networks_The Sparsily-Gated Mixture-of-Experts Layer》, ICLR 2017

335.《Inference with Reference_Lossless Acceleration of Large Language Models》

这篇文章的方法有具体的适用场景，比如：

方法上虽然是lossless的，但是需要reference text的参与，还是存在很多挺tricky的方法。

334.《Contrastive Search Is What You Need For Neural Text Generation》

logit的艺术。

333.《XuanYuan 2.0: A Large Chinese Financial Chat Model with Hundreds of Billions Parameters》

主要思路：基于BLOOM-175B，打散pre-train和instruction tuning两个阶段的数据。不仅能够一定程度上防止灾难性遗忘问题，同时能够实现模型的domain-specific.

332.《LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day》

医学多模态大模型

331.《Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models》

330.《Small Language Models Improve Giants by Rewriting Their Outputs》

329.《Is GPT-4 a Good Data Analyst?》

328.《Lawyer LLaMA Technical Report》

行业垂直大模型的工作：法律领域。这个工作特别谈到了领域知识融入的问题。同时针对中文词典扩充的问题，这里也有一个观点和实验结论：

截止目前比较有代表性的行业大模型工作：

金融领域大模型：bloomberge
法律领域大模型：lawyer LaMA
医疗领域大模型：我们在做的...

327.《InstructIE: A Chinese Instruction-based Information Extraction Dataset》

类似的工作已经有几篇了，这里可以重点看下prompt的构建方式

326.《DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining》

围绕大模型的训练，在数据侧关心的三大问题：（1）数量。质量比数量重要，甚至不需要很多。（2）质量（3）多样性。针对“多”，如何学习到一个有效的weight呢？等weight未必是一个最佳解决方案。

325.《Rething with Retrieval：Faithful Large Language Model Inference》

利用知识库，在cot阶段提升模型的推理能力。

324.《Large Language Models Are Reasoning Teachers》

fine-tuning CoT:本质上是面向大模型的蒸馏。

323.《GLM: General Language Model Pretraining with Autoregressive Blank Inﬁlling》,chatglm的工作

322.《MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos》，CVPR2023

淘宝视频质量评价工作，针对淘系UGC的质量评价。很多年前做搜索的时候，做网页质量评价；近期看到一个很有意思的事情，是用CV的方法做前端页面的测试。在之前的工作中，接触到手术质量评价的工作。

321.《Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions》,漆桂林组的工作

系统评估ChatGPT在复杂QA中的应用效果。

320.《BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining》,MS的工作

319.《Zero-Shot Information Extraction via Chatting with ChatGPT》，DAMO

基于ChatGPT做Zero-Shot的信息抽取的工作（拼手速，预计近期类似的工作还会有很多）

318.《ChatAug: Leveraging ChatGPT for Text Data Augmentation》，使用ChatGPT进行数据增强。

相关文章：（1）https://mp.weixin.qq.com/s/AdcdIOEDniu-g3OigmnQ6g （2）《ChatGPT科普和应用初探》：https://redian.news/wxnews/289575，58AILab在一些具体的业务上的量化评测

317.《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》，MS的工作

并不是训练了一个模型，而是多个foundation model的整合，构建了一个系统。这个系统能干啥？

（1）发送和接收文本+图片（2）能够通过多个ai基础模型的多个步骤完成复杂的视觉问答和图片编辑指令（3）providing feedback and asking for corrected results

这套系统尚存在的问题：（1）依赖ChatGPT和VFM （2）比较依赖prompt工程（3）实时性差（4）输入token限制（关于这点，印象中有一个相关工作能够一定程度上缓解）（5）安全和隐私

补充：在多模型整合上，除了各种vfms，用了langchain的工作。

316.《表格识别技术研究进展》，2022.06

三种主流技术方向：

（1）自底向上：：先检测单元格，然后确定表格线

（2）自顶向下：先检测表格线，然后确定单元格之间的关系

（3）encoder-decoder：image->html/latex

相关参考：

1.对比学习的浅显总结及其在NLP下的应用

2.利用Contrastive Learning对抗数据噪声：对比学习在微博场景的实践

3.对比学习（Contrastive Learning）:研究进展精要

4.Bert向量表示不能直接用于相似度问题的分析

5.对比学习横扫文本聚类任务

6.美团提出基于对比学习的文本表示模型，效果提升8%

7.聊一聊大火的对比学习

298.《DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction》，CCKS2021

糖尿病知识图谱的构建。这篇文章的主要亮点：

（1）糖尿病知识图谱schema的设计：实体和关系

（2）标注流程设计。

297.《Pre-trained Language Model for Web-scale Retrieval in Baidu Search》，预训练模型在百度搜索的应用，印象中Google Blog也有一篇工作是讲述BERT在Google Search中的应用。

向量压缩和量化是工程实践中很关键的技术点。

296.《Wordcraft: a Human-AI Collaborative Editor for Story Writing》，Google Research

人机协作的Editor，一个完整的事情。

295.《A Data-driven Approach for Noise Reduction in Distantly Supervised Biomedical Relation Extraction》

multi-instance learning to noise reduction.

294.《CLINE：Contrastive Learning with Semantic Negative Examples for Natural Language Understanding》

利用对抗样本和对比样本提升PLM的鲁棒性。基于MLM，构建额外两个损失函数，预训练一个语言模型。整体上，个人收获不是很大的一个工作。

293.《AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba》

阿里概念图谱的工作，利用search log构建一个concept graph（基于UC Browser的log），可以用在多个应用场景中，如：

（1）text rewriting

（2）concept embedding

（3）conceptualized pretraining

在之前，阿里图谱相关的工作包括但不限于：AliCoCo（认知图谱）, AliMe等。

292.《ABCD：A Graph Framework to Convert Complex Sentences to a Covering Set of Simple Sentences》

解决问题：将一个复杂的句子拆分成多个简单的句子。

方法：传统的方法是将问题建模为一个seq2seq的问题，但是在该工作中，借助graph的方式，取得不错的效果。

评价：problem setting有意思。

291.《COVID-19 Imaging Data Privacy By Federated Learning Design: A Threoretical Framework》, 联邦学习在cv领域的一个工作

290.《Large-Scale Network Embedding in Apache Spark》，KDD2021，在腾讯的两款游戏中有上线哦

289.《AliCoCo_Alibaba E-commerce Cognitive Concept Net》，短文本相关的技术

288.《A Neural Multi-Task Learning Framework to Jointly Model Medical Named Entity Recognition and Normalization》

同样的思想，基于multi-task的方式建模ner和norm两个任务。

287.《A transition-based joint model for disease named entity recognition and normalization》

老文章了。讨论的想法是医疗领域针对疾病，做实体识别和norm的联合建模。作为医疗NLP领域的三大基础任务：ner/nre/norm，采用jointly的方式，one model to rule all of them，也许是一个想法。

286.《A Survey on Complex Knowledge Base Question Answering》

主要综述两种KBQA的解决方案：分别是semantic-parsing based methods和information-retrieval based methods。

future中提到的一个有意思的观点是：要做Evolutionary KBQA，简而言之，要将用户的feedback带入到系统的优化中。

285.病历相似性（基于电子病历数据）

目前看到的主流思路是：梳理出EMR的各个维度，然后按照维度计算每个维度的相似性，每个维度都有自己的相似度计算方式，之后按照加权的方式求解。

个人想法：

（1）纯文本的方式。计算tf-idf（ES based solution）

（2）计算表征。但是由于EMR文本较多，医学文本对于精确性要求比较高，因此需要hierarchical representation fusion的思想。（不管怎样，首先需要一个好的encoder）

《Measurement and application of patient similarity in personalized predictive modeling based on electronic medical records》

284.《A Uniﬁed Generative Framework for Various NER Subtasks》，邱锡鹏老师组的工作

主要内容：用seq2seq(bart)解决三种常见ner的case（flat ner + nested ner + discontinuous ner）

想法：

（1）在之前的工作中，围绕这三种情况，有很多的paper。但是这篇文章采用seq2seq来解决，思路上之前也已经有相关工作了，但是这篇文章主要采用bart作为plm。毕竟seq2seq是万能的，哈哈。

（2）围绕bert做的中文nlp比较多，为啥？原因之一是因为bert有中文版，但是想用一下bart，就需要自己训练一个中文的bart了。每当这个时候，就不禁想到英文世界的话语权是怎么来的，到底意味着啥？

（3）技术创新个人认为谈不上：seq2seq(plm:bart)+ner(是一个体力活儿，不过还是要做很多工作的)

283.《SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining》,丁香园的预训练语言模型

参考文章

知识增强预训练语言模型。研究了丁香园，联合阿里和东南大学做的工作，丁香园利用5G的医疗领域中文文本+内部的知识图谱，通过巧妙的模型设计，得到的模型能够显著提升NER/NRE等上游任务的指标。我们可以利用开源爬取的数据(目前量<5G)，同时结合OMAHA，做类似的工作以支持上游模型。

282.《Modeling Joint Entity and Relation Extraction with Table Representation》,EMNLP2014

人傻就要多读书，比如，在2014年的工作中，已经用table的方式解决joint问题了，如下：

四篇information extraction相关的工作：

281.《Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking》

280.《Integrating Graph Contextualized Knowledge into Pre-trained Language Models》，小样本信息抽取相关的工作

279.《A novel cascade binary tagging framework for relational triple extraction》

278.《Entity-Relation Extraction as Multi-Turn Question Answering》

277.《Lifelong Learning based Disease Diagnosis on Clinical Notes》，腾讯天衍实验室的工作，TODO

276.《PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction》，腾讯天衍实验室的工作，TODO

275.《MIE: A Medical Information Extractor towards Medical Dialogues》

annotate online medical consultation dialogues in a window-sliding style.

274.《A Survey of Data Augmentation Approaches for NLP》

比较新的NLP数据增强文章，按照任务类型划分增强的方式。

273.《HyperCore: Hyperbolic and Co-graph Representation for Automatic ICD Coding》， ACL2021

ICD编码映射，医疗NLP的特色任务。

ICD的特点：

（1）层次

（2）共现(因果)

主要方法：GCN的应用

272.《Few-Shot Named Entity Recognition: A Comprehensive Study》，Jiawei Han组的工作

NER中的少样本问题，三种解决方案：

（1）基于proto的few-shot learning方法（此前在研究文本分类的few-shot问题时，该方向上的工作也一直比较受欢迎）

（2）带噪音，有监督预训练

（3）伪标签，自训练

271.《Summarizing Medical Conversations via Identifying Important Utterances》，COLING2020

主要内容：从医疗问答中抽取摘要。

数据：从春雨医生爬取

方法：抽取式摘要

270.《Enquire One’s Parent and Child Before Decision_ Fully Exploit Hierarchical Structure for Self-Supervised Taxonomy Expansion》，腾讯，刘邦

分类树扩展的工作，用于腾讯的疫情问答场景。刘邦的博士论文可以一读。

269.Federated Learning

《Privacy-Preserving Technology to Help Millioins of People_Federated Prediction Model for Stroke Prevention》

FL使用传统模型，也是目前主要做的工作

《Empirical Studies of Institutional Federated Learning For Natural Language Processing》

FL使用TextCNN的经验性工作

《FedED: Federated Learning via Ensemble Distillation for Medical Relation Extraction》

内容：FL应用于医疗关系抽取

结果：实现了隐私保护，但是指标下降

核心：在通信，不在计算

科普：《Introduction to FL》，本质上还是分布式学习的一种。

结论：除非必要，否则目前在工业界推进的ROI应该不算高。不单纯是一个算法问题，还是一个架构问题。但是在医疗行业目前现状下（数据孤岛现象），仍有必要关注

268.《MedDG: A Large-scale Medical Consultation Dataset for Building Medical Dialogue System》，Xiaodan Liang等

构建了一个中文医学对话数据集，特点是：标注了每个对话可能涉及的实体。

基于该数据集，定义了两个任务：

（1）next entity prediction。文章中用multi-label classification的方式实现

（2）doctor response generation。标准的文本生成类任务+融合任务（1）中的实体信息（最简单的方式：直接concat实体）

其他：ICLR2021要基于该数据集举办一个比赛，可以关注。

想法：其实是对生成领域强化对实体信息的利用。传统做生成的同学有一些对应的方式强化对实体信息的利用。不过，文章中的建模方式更偏intent识别。

《MedDialog: Large-scale Medical Dialogue Datasets》，EMNLP2020，这篇工作也是构建了一个中文医疗对话数据集，不过没有实体信息。

267.《BioBERT：a pre-trained biomedical language representation model for biomedical text mining》

预训练任务没有做任何改进，但是在下游的三个理解任务上均取得了提升，比较适合工业界操作的工作。

补充：《Conceptualized Representation Learning for Chinese Biomedical Text Mining》，阿里巴巴，张宁豫

266.《Building Watson：An Overview of the DeepQA Project》，2011年，IBM Watson的DeepQA项目，具体实现细节

讨论了架构和工程实现的问题，其中的特色在于对证据的重视。

265.《Strategies For Pre-training Graph Neural Networks》，ICLR2020

主要内容：预训练图的工作

motivation：node的pretrain和graph的pretrain都要；之前的一些工作只考虑node或者graph的单个类型的pretrain

训练任务：

（1）node：context graph的定义，学习context；attribute mask任务（2）graph：supervised graph-level properties prediction + structural graph similarity prediction

基础模型： GIN

直观感受：中规中矩；目前还没看到预训练图的工作应用于电商领域等

264.《A User-Centered Concept Mining System for Query and Document Understanding at Tencent》，KDD2019

腾讯刘邦的工作，刘邦的博士论文也有share，主要做概念挖掘，偏向于工程系统的工作。相关文章

263.《Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking》

和《AutoRegressive Entity Retrieval》，ICLR2021一块儿读。

262.《CRSLab：An Open-Source Toolkit for Building Conversational Recommender System》

CRS系统的设定：

261.《Open Domain Event Extraction Using Neural Latent Variable Models》

开放域的事件抽取。（个人对隐变量模型不是很了解）

260.《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》，KDD2018

259.《AutoRegressive Entity Retrieval》，ICLR2021

用生成的方式（seq2seq）做el，entity disambiguation， page retrieval任务。将传统分类任务转化为一个生成任务是问题解决范式的转变，很有意思的工作。在自己的博客，MRC is all you need?中讨论了将很多经典NLP任务用MRC的方式来做。

258.《Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation》，KDD2019

基于user-item-query构建的图，三种类型的边：search,click, guide，用于淘宝意图检测。

257.《Heterogeneous Graph Attention Network》，WWW2019

异构图+gat，文章写作思路很赞。目前，我们正尝试将该工作用于销量预测与归因分析。

256.《POG：Personalized Outfit Generation for Fashion Recommendation ai Alibaba iFashion》，KDD2019

阿里dida平台建设，compatibility+personality都要考察。

相关PR稿(dida也是从luban演化而来)：https://hackernoon.com/finding-the-perfect-outfit-with-alibabas-dida-ai-assistant-71ba7c9e8cfa

255.《Spam Review Detection with Graph Convolutional Networks》,CIKM2018 Best Paper

重新翻开这篇文章，方法如下：

文章要解决的问题是垃圾评论检测，构建了两个图。第一个图：用户-评论-商品图，是异构图；第二个图：评论-评论图，是同构图。分别用异构GCN和GCN学到各自的表征，做节点分类工作。

整体上，文章的思路和这篇《Abusive Language Detection with Graph Convolutional Networks》非常相似，但是二者都没有互相引用。这篇文章做的是Tweet分类（三分类），分别构建两个图。第一个图：用户-用户的同构图；第二个图：用户-Tweet的异构图。针对同构图，用node2vec去学到表征（node2vec不是仅仅适用于同构图，不过效果需要考察）；针对异构图，用gcn去学到表征。表征组合（embedding+n-gram）+分类器做节点分类。

对比二者，整体上的技术思路相似，不过显然后者在图构建上更加的自然。

254.《Graph Neural Networks：Taxonomy, Advances and Trends》，最新的GNN相关的综述文章

253.《Understanding Image Retrieval Re-Ranking：A Graph Neural Network Persperctive》

有意思的工作，作者提到：

（1）Re-ranking can be reformulated as a high-parallelism Graph Neural Network (GNN) function.

（2）On the Market-1501 dataset, we accelerate the re-ranking processing from 89.2s to 9.4ms with one K40m GPU.

252.《Why Are Deep Learning Models Not Consistently Winning Recommender Systems Competitions Yet?》，RecSys2020

非常棒的文章，多年以前自己就很好奇了。

251.《Enriching Pre-trained Language Model with Entity Information for Relation Classiﬁcation》

250.《Diverse, Controllable, and Keyphrase-Aware: A Corpus and Method for News Multi-Headline Generation》

新闻标题生成

249.《CharBERT: Character-aware Pre-trained Language Model》

248.《

zhpmatrix/PaperReading

zhpmatrix

Reviews

Repository Details

More Repositories