There are no reviews yet. Be the first to send feedback to the community and the maintainers!
Customer_Satisfaction_Analysis
基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。目的是克服用户打分和评论不一致,实时对在线民宿的满意度评测,包含在线评论采集和情感可视化分析。搭建了百度地图POI查询入口,可以进行自动化的批量查询 POI 信息的功能;构建了基于在线民宿语料的 LDA 自动主题聚类模型,利用主题中心词能找出对应的主题属性字典;以用户打分作为标注,然后 litNlp 自带的字符级 TextCNN 进行情感分析,将情感分类概率分布作为情感趋势,最后通过 POI 热力图的方式对不同地域的民宿满意度进行展示。软件版本请见链接。Real_Time_DataMining_Software
携程/榛果民宿实时评论挖掘软件,包含数据的实时采集/数据清洗/结构化保存/ UGC 数据主题提取/情感分析/后结构化可视化等技术的综合性演示 Demo。基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和 NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线 UGC 进行数据挖掘并可视化,demo 视频演示见链接。C-CNN-for-Chinese-Sentiment-Analysis
基于字符级卷积神经网络的细粒度的中文情感分析以及具体的应用,将顾客打分和评论情感进行两极映射,使用数据自动标注和基于弱监督预训练的数据增强方式自动扩充和优化数据集,实验证实了在情感分类中,使用本文的字符级卷积神经网络(C-CNN-SA)可以在不依赖分词的情况下,达到的精度和 F 值均高于词级粒度。并将模型上线使用,利用tensoflow+flask restful做出的后端服务化,具体的项目细节和讲解看右面的pptUGC-Analysis
本软件包括对于百度外卖平台的原始评论采集、评论情感计算并分类展示、以及对于用户打分、服务评分等结构化数据进行可视化三个主要功能模块。本软件的主要技术特征在于改造和使用了网络爬虫,来为本软件提供实时数据采集的能力,并将评论情感极性分析和用户打分相结合,在首先考虑用户打分的情况下,再对用户评论进行情感极性分析,通过两者综合考虑,即可解决由于部分用户打分和具体评论情感不一致的问题,增加了平台对于 UGC(User Generated Content)展示的质量,最后对用户打分的结构化数据进行统计和可视化分析,对用户评论信息和售卖情况更加直观的展示。Bert_BaseLine
一个BERT+BiLSTM的情感分析 BaseLineCQNU-TED
这是参加学校研究生院举行的“华为杯”计算机网页设计大赛做的作品,获得了第三名,技术栈为:Django+Mysql+Xadmin,制作在线学习平台的目的是要打造校园内部的学习共享平台,缓解老师压力,通过教学数字化的方式,使得知识共享并能收到相应的奖励,后续加入学分制,使得学生可以获得课外学习的分数,平台搭建的初期就是起到数据的收集平台,为加入学业分析和智能推荐做准备,详情点击2019-nCoV-Vis
参与针对于2019-nCoV数据可视化预测项目,后端完全使用ElasticSearch集群/Redis缓存,利用Flask提供API Server,利用前端/中后/前台的接口配合完成新型冠状病毒的疫情发展的相关信息可视化以及预测,方便观察疫情发展情况,并结合机器学习模型对疫情进行预测。Video-Assistance
自己使用Request+PyQT编写可视化视频解析工具,主要借用全民解析API的进行的各源头VIP视频解析,软件主要有各大厂的视频VIP解析功能,主要通过网络爬虫解析视频源,实现点击线路即可自动加载浏览器播放视频的功能,还有在加载视频的同时也生成对应的链接二维码,微信扫一扫也可直接观看,另外集成了邮件发送二维码的功能,直接填写即可(新浪邮箱)即可发送对应邮箱,由于使用PyInstaller-3.2.1合成后的文件大于25m,无法上传,各位可以自行合成exe文件直接使用zhilian-51job-analysis
智联_51job招聘需求挖掘采集和分析,数据采集时间截止到2018年12月28日,数据条数为15万条,平台为智联和51_job,具体的流程可以参考右边的PPTEasyUse_FastApi
快速使用FastAPI部署机器学习模型Movie_Robot
使用网络爬虫搜索视频源,支持关键字和链接搜索,主要的解析源来自全民解析,通过网络爬虫对播放页面进行解析,找出最原始的播放网页,然后拿出最原始的播放链接(无广告效果)对URL进行显示在Django网页上,通过Django桥接的方式进行VIP视频观看,利用js+css制作搜索页面,最后通过Pythonanythere进行Django托管,欢迎体验Word-Extractor
对比TextRank和TF-IDF在关键词抽取上的不同,在数据量上,TextRank更适合单篇文本的关键词生成,TF-IDF则适合大语料下的关键词生成,在原理上不相同,TF-IDF为统计模型强调词权重,TextRank是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,排序靠前的则适合做关键字Paper_share
使用Jupyter+github page组合的在线SVM分类PPT,主要是SVM分类原理,后面还有一个具体的SVM新闻分类的实验,包括文本分词、去停用词、向量化、使用Tf-IDF抽取特征、SVM分类器训练以及校验,整整一套流程。详细参考链接Tetx-CNN-BaseLine
Tetx-CNN BaseLine在2000条人工选取的正负语料上,在二分类上准确度以%94.1上超过了SnowNLP的%93.75情感分析准确度,还可以继续微调模型的参数。添加flask后端推理API,修改了全局model load的方式,增加了模型推理的速度,使用nginx搭配Gunicorn启动Flask,使用虚拟环境搭配sh的启动方式,可以直接对model进行一键重启,并有错误日志监控sentence_vec_service
搭建快速的向量检索Flask-Keras-Restful-Api
一个简单的搭建图像识别imagenet的flask后端API的方式,修改了全局model load的方式,使用nginx搭配Gunicorn启动Flask增加了模型推理的速度,使用虚拟环境搭配sh的启动方式,可以直接对model进行一键重启,并有错误日志监控。有问题,欢迎联系我。RS_APP
推荐系统在不同场景下的应用Python-Spider
使用了Selenium和Request的组合,既满足了不被封ip的目的,又满足了采集的要求,总结自己的一些经验和各类网站的采集democarrychang.github.io
发现的最好看的Hexo Blog ,感谢 GoFisher大神,Thx manCarryChang
M CarryChangNLP-Pretrain
NLP-Pretrain是自己在NLP学习上的一些经验Turing-Robot
使用Django调用图灵机器人API实现一个网页版版的对话机器人Zhihuer
一个只需要输入知乎热点的ID或者名字即可得到最近热点的动向的一个网站,欢迎测试DouBan_Spider
采集豆瓣影评的任务和一些遇到的坑,使用F12进行抓包就能找到豆瓣的数据接口,注意在使用的时候一定要在header上加上cookie,要不然会被限制采集,然后尽量先存储json,然后在对json的数据进行提取,更加省时间和安全RPC
使用远程通讯接口做的远程PPT遥控器,界面使用js+boostrap搭建,手机端使用。欢迎体验Love Open Source and this site? Check out how you can help us