如何配置一个从网页爬去数据的java项目
用工具如myeclipse,可以新建项目,然后把java代码放在src目录下,把 html或者jsp页面放到webroot目录下,当然可以自己新建目录,js放的位置要看你html中自己引用的相对目录是什么,jat包需要放在lib目录下,如果开发环境没有部署tomcat,还得自己部署。
如果只是一个单纯的java项目,只想让java程序运行,那就只需要安装好jdk,就可以执行java程序了。否则那就需要安装tomcat或者其他的网络应用服务器,也就是jsp页面。
如果不想借助myeclipse等集成环境,那可以在tomcat中自己建立项目目录,一定放在root文件夹下,然后是web-inf,实在不会的话可以把你要部署的项目代码什么的都粘贴上来,会有人手把手教你如何部署。
sql文件是以字符串形式存在的,一般是用于生成初始化数据库。如果是扩展性好的程序,一般都有一个配置文件,说明sql文件的路径。然后在java代码中,根据配置文件找到sql文件,以字符串形式打开,然后读取字符串,作为sql语句执行。这个过程不需要考虑会不会出错,因为完整的项目都已经做好了处理。
所以,sql文件应该放到最初的位置不要动它,或者安装说明把它挪到应该在的地方。
爬取指定网站的数据de的java代码
Package zy.crawl.hupu;
Import java.io.IOException;
Import zy.crawl.common.*;
Import java.util.ArrayList;
Import java.util.List;
Import org.apache.http.HttpEntity;
Import org.apache.http.HttpHost;
Import org.apache.http.HttpResponse;
Import org.apache.http.HttpStatus;
Import org.apache.http.client.HttpClient;
Import org.apache.http.client.methods.HttpGet;
Import org.apache.http.conn.params.ConnRoutePNames;
Import org.apache.http.impl.client.DefaultHttpClient;
Import org.apache.http.params.CoreConnectionPNames;
Import org.apache.http.util.EntityUtils;
Import org.jsoup.Jsoup;
Import org.jsoup.nodes.Document;
Import org.jsoup.nodes.Element;
Import org.jsoup.select.Elements;
Publicclass rawlHupu
{
Private List<NewsInfo>newsList=newArrayList<>();//用来存储爬取的信息对象
Public StringGetHtml(Stringurl)//还方法是设置网络链接,是固定的用法
{
Stringhtml=null;
HttpClient httpClient=new DefaultHttpClient();