卷积神经网络&&爬虫实现网易新闻自动爬取并分类
文章目录
[toc]
比赛做的一个小项目,很遗憾,比赛结果不理想,现在将它开源,希望有小伙伴可以继续完善。
卷积神经网络&&爬虫实现网易新闻自动爬取并分类
采用THUCnews全部数据集进行训练,效果如下。 详细实现见./text_classification
部署步骤如下:
运行环境
服务器:Ubuntu 16.04 数据库:Mysql 5.6 python:Anaconda 5.1 Tensorflow-CPU:1.7 额外的包:参考requirements.txt,有则忽略,无则安装。
|
|
- 首先安装mysql到数据库,执行text_classification.sql创建数据库。更改数据库配置./text_classification/connect_mysql.py
- 服务器安装Anaconda(清华大学镜像站自行下载安装),安装TensorFlow-CPU版
- 将本项目部署至/home/www目录下
- 安装其他依赖包 >pip install -r requirements.txt
- 服务器部署Django环境(apache2.4) 参考:https://code.ziqiangxuetang.com/django/django-deploy.html
- 关于本项目部署中的Django配置请看以下操作 安装 apache2 和 mod_wsgi sudo apt-get install apache2 sudo apt-get install libapache2-mod-wsgi-py3 新建网站配置文件 >vim /etc/apache2/sites-available/text_classification.conf 输入以下内容
|
|
激活新网站
sudo a2ensite sitename.conf 7. 启动项目 cd /home/www/text_classification/text_classification && sh startproject.sh 项目运行日志在./log下
最后本项目使用的THUCNews中文新闻数据集,可以去官网下载。我对数据集进行了整合处理,下载地址见./text_classification/data/cnews/README.md 关于本项目中模型和爬虫部分,详见./text_classification/README.md
代码有问题请直接提issues。
部署有疑问请直接联系:
QQ:447600334 Email:dandanv5@hotmail.com