您的位置:贵州11选5 > 关于本站
CDSoSo是一个集合多种下载方式为一体的多维资源展示站,致力于无极限的分享互联网上的优质资源,集全、新、快于一身的新型站点。

本站全部采用开源技术构建,操作系统为Linux,http服务器为nginx,数据库为当前最为流行的NoSQL数据库MongoDB,网站程序为JAVA技术实现并采用Tomcat作为服务器,全文检索采用了Lucene。以上这些仅仅是实现主体框架的开源软件,而至于一些细小的功能采用开源工具包则就不胜枚举了。

虽然这是一篇说明性文档,但是同时也是当我本人的一个学习笔记。的承认的是,从开始筹备要建立这样一个网站到最终上线(当然上线了也仅仅是能用,离好用还差很远),用了我大概半年的时间。当时我对这方面的技术一点都不了解,几乎可以说是从零开始。因为本人以前比较擅长的语言是C/C++,JAVA虽然很久以前学过一小段时间,不得不承认,那时的我对JAVA存在一些偏见,因为它给我的第一感觉就是,慢。后来就没有再学习这门语言,所以水平只是停留在了能看懂这个层次上。当时想筹建这么一个网站的时候第一想到的就是使用开源程序,于是乎就Google..baidu....折腾了有一段时间,发现在这个领域使用C/C++困难重重啊,所以就又回到了JAVA的怀抱。 有了想法就开始行动,既然想做网站就必须要有信息,那么到哪里去弄这些信息呢,因此我就很自然的想到了网络爬虫。一开始我是用了一些现成的开源爬虫,因为我需要的是垂直爬取,所以使用的效果很不理想。万般无奈之下我选择了自己开发一个爬虫程序,非常简陋,还时不时的有很多莫名其妙的错误和异常,不过好在在我的修修补补之下也算运行的良好,除了内存占用有点大,其他都还好。因为我把很多的注意力放在多线程上,所以CPU和宽带利用率都还不错。于是乎我就使用着这个"夏利牌"的小爬虫爬下了40多万张网页,300多万个ed2k链接,150多万张图片,也算是立下了汗马功劳。后来我发现了一个刚出的开源的爬虫框架(webmagic),就不再使用我自己的那个小爬虫了。

其实在写爬虫的时候,我也同时在研究Lucene,从3.5版本一直到现在我使用的4.2版本。必须得说,《Lucene实战》这本说给了我极大的帮助,所以强烈推荐想学习Lucene的童鞋们,去看看这本书,真的很有用。

至于网站程序,可以看出,也是非常简单,其实就是个页面展示。采用了struts2框架,写了几个不同频道和搜索的action,总之就是很简单。

还有就是数据库了,使用的是MongoDB。性能确实非常不错,使用也很简单。

非?;队拖M攵哉夥矫婕际醺行巳さ呐笥压餐教?,共同进步。
  • 《迷失地铁》 王真儿为角色克服恐水症 2018-12-09
  • 彭清华赴南充达州调研,对川东北经济区提出哪些要求? 2018-12-09
  • 十九大精神进机关:原原本本吃透精神 学懂弄通昂扬斗志 2018-11-01
  • 你总是不怕风大扇了舌头。另外,你的帖子我仍然是根本就没看,我对你的这类帖子不感兴趣,因为这没有什么用处,只会挑起无谓的争论。因为你是在预测遥远的未来,遥远的未来 2018-11-01
  • 受日本大阪地震影响 多家航企客票可免费退改签 2018-10-23
  • 溜溜溜!10位外国驻华大使中文拜年视频合集来啦 2018-10-23
  • 党风廉政微视频之端午节 2018-10-21
  • 习近平:建设海洋强国,我一直有这样一个信念 2018-10-21
  • 惊坛一周汇总:稳定农产品价格,政府和市场谁都不能“旷课” 2018-10-13
  • 艾叶泡水喝有哪些食用禁忌? 有哪些食用方式呢 2018-09-28
  • 4G换机潮红利已过、硬件成本上升,手机厂商们打算靠AI赚钱 2018-09-23
  • 猪的逻辑是没问题的,鉴定完毕 2018-09-23
  • 数十年月球温度上升谜团解开:都是美国惹的祸 2018-09-05
  • 新华社受权播发《中华人民共和国监察法》 2018-09-04
  • “汉语热”不断升温:海外汉语教学从大学向中小学延伸 2018-08-18
  • 156| 190| 497| 694| 251| 962| 850| 45| 405| 521|