您的位置:贵州11选5 > 关于本站
CDSoSo是一个集合多种下载方式为一体的多维资源展示站,致力于无极限的分享互联网上的优质资源,集全、新、快于一身的新型站点。

本站全部采用开源技术构建,操作系统为Linux,http服务器为nginx,数据库为当前最为流行的NoSQL数据库MongoDB,网站程序为JAVA技术实现并采用Tomcat作为服务器,全文检索采用了Lucene。以上这些仅仅是实现主体框架的开源软件,而至于一些细小的功能采用开源工具包则就不胜枚举了。

虽然这是一篇说明性文档,但是同时也是当我本人的一个学习笔记。的承认的是,从开始筹备要建立这样一个网站到最终上线(当然上线了也仅仅是能用,离好用还差很远),用了我大概半年的时间。当时我对这方面的技术一点都不了解,几乎可以说是从零开始。因为本人以前比较擅长的语言是C/C++,JAVA虽然很久以前学过一小段时间,不得不承认,那时的我对JAVA存在一些偏见,因为它给我的第一感觉就是,慢。后来就没有再学习这门语言,所以水平只是停留在了能看懂这个层次上。当时想筹建这么一个网站的时候第一想到的就是使用开源程序,于是乎就Google..baidu....折腾了有一段时间,发现在这个领域使用C/C++困难重重啊,所以就又回到了JAVA的怀抱。 有了想法就开始行动,既然想做网站就必须要有信息,那么到哪里去弄这些信息呢,因此我就很自然的想到了网络爬虫。一开始我是用了一些现成的开源爬虫,因为我需要的是垂直爬取,所以使用的效果很不理想。万般无奈之下我选择了自己开发一个爬虫程序,非常简陋,还时不时的有很多莫名其妙的错误和异常,不过好在在我的修修补补之下也算运行的良好,除了内存占用有点大,其他都还好。因为我把很多的注意力放在多线程上,所以CPU和宽带利用率都还不错。于是乎我就使用着这个"夏利牌"的小爬虫爬下了40多万张网页,300多万个ed2k链接,150多万张图片,也算是立下了汗马功劳。后来我发现了一个刚出的开源的爬虫框架(webmagic),就不再使用我自己的那个小爬虫了。

其实在写爬虫的时候,我也同时在研究Lucene,从3.5版本一直到现在我使用的4.2版本。必须得说,《Lucene实战》这本说给了我极大的帮助,所以强烈推荐想学习Lucene的童鞋们,去看看这本书,真的很有用。

至于网站程序,可以看出,也是非常简单,其实就是个页面展示。采用了struts2框架,写了几个不同频道和搜索的action,总之就是很简单。

还有就是数据库了,使用的是MongoDB。性能确实非常不错,使用也很简单。

非?;队拖M攵哉夥矫婕际醺行巳さ呐笥压餐教?,共同进步。
  • 人力资源和社会保障部人事考试中心简介 2019-05-20
  • 宝沃推全新纯电动SUV最高时速150km 2019-05-20
  • 南通如皋为应对督察“回头看”违法掩埋危险废物 2019-05-16
  • 网售私房粽游走法律边缘 监管需与时俱进 2019-05-11
  • 张德江:着力深化和拓展代表工作,充分发挥代表作用 2019-05-11
  • 兰州大雨!消防出动疏散被困群众  一名孕妇被救出 2019-05-08
  • 【十九大·理论新视野】为什么说中国特色社会主义进入“新时代”? 2019-04-21
  • 2018CPCC中国版权服务年会(定版) 2019-04-19
  • 网约车陷阱多 谨防四类风险 2019-04-05
  • 【专题】节能降耗 保卫蓝天——浙江省暨杭州市2018年节能宣传周 2019-03-30
  • 自治区党委召开常委(扩大)会议 陈全国主持 2019-03-30
  • 自主创新确保北斗系统稳定运行 2019-03-21
  • 我们说国企产权不明晰就是公有制搞市场经济才会出现不明晰产权,这就说明我们还没有明晰产权建立市场经济就在搞市场经济,才会出现产权不明晰这个问题,才会导致公有制变成 2019-03-21
  • 回复@笑傲江湖V:咱还有几个帖子点赞量接近400呢,小撸又怎么说? 2019-03-07
  • 建德网—致力打造建德第一视听门户网站 2019-03-07
  • 258| 300| 546| 832| 905| 824| 584| 241| 562| 153|