• Stars
    star
    121
  • Rank 292,253 (Top 6 %)
  • Language
    Python
  • License
    MIT License
  • Created over 8 years ago
  • Updated about 8 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

新闻检索:爬虫定向采集3-4个网页,实现网页信息的抽取、检索和索引。网页个数不少于10个,能按时间、相关度、热度等属性进行排序,并实现相似主题的自动聚类。可以实现:有相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果, 能预览)功能

Information_retrieva_Projectl-

新闻检索:定向采集3-4个网页,实现网页信息的抽取、检索和索引。网页个数不少于10个,能按时间、相关度、热度等属性进行排序,并实现相似主题的自动聚类。要求有:有相关搜索推荐、snippet生成、结果预览(鼠标移到相关结果, 能预览)功能 #依赖项 scrapy 安装方法:pip install Scrapy webpy 安装方法:sudo easy_install web.py 官方网站:http://webpy.org/ jieba 安装方法:pip install jieba 官方网站:https://pypi.python.org/pypi/jieba

数据10万条网易新闻网页、倒排索引等数据 baidu网盘http://pan.baidu.com/s/1gfkDb4B 
    下载后,将data文件夹放在Information_retrieva_Projectl-目录下即可

#使用方法: 交互式查询:linux下cd 至web/ 文件夹下 终端下键入python main.py 浏览器中打开:http://0.0.0.0:8080/ #参考文献: 1.scrapy手册 http://scrapy-chs.readthedocs.org/zh_CN/1.0/intro/tutorial.html 2.webpy 手册 http://webpy.org/ #运行效果

image

image

image

image

image !!!更多技术细节、学习资料请查看report文件。