随着王老师领着众人从机房回来,屋内顿时一阵寒暄。

  喻林却似乎没有听见,对着大家的招呼,她只是挥了挥手,表示自己已经打过招呼,便继续低头编写规则。

  她必须承认,余江给的方案很简单,而且似乎一听就很有效!

  没多久,她便迅速优化完规则,开始上传代码。

  随後,她打开tianwang,随便输入了几个之前一直困扰她多时的歧义词进行搜索。

  「余神!」

  她转身大喊,却发现所有人都一脸惊诧地盯着她看。

  「人呢?」

  「走了。」

  「我靠————大哥们,你们怎麽能让他走的!」

  几个男生互相对视,无比惊讶:「难道留人家吃饭?聚餐你买单啊?」

  「我买啊!」

  喻林猛地拍着办公桌:「闫哥,这家夥是个宝藏!」

  余江顺路在雁南食堂吃过晚饭,随後赶往公司。

  虽然沈予慧再有「成长」的愿望,累计上线突破十五万,他也理应到场。

  一个月不见,慧江科技已经大变样。

  前台已经有人,还是个漂亮小妹,工位区扩充了一倍有余,最左边被隔出来的客服区更是坐满了人。

  余江心中乐了一个。

  看来一切都好,就是加班有点严重。

  一路安静地穿过工位区,余江走到沈予慧办公室的门前。

  刚准备敲门,他就听到虚掩的房门内传来王小川的声音:「那我要不要给老板说一下?」

  「这肯定要说的。」

  余江微微一愣,也不管时机恰当不恰当,叩了两下後直接推开房门。

  只见王小川坐在长沙发上,沈予慧则坐在另一边,见他进门,同时朝他望来。

  「刚听到一句,川哥说要跟我说什麽?」

  余江走到王小川身边坐下,问了一句後又望向沈予慧。

  沈予慧冲他笑了一笑。

  「小川说,新学期开学,他们那边兼职的可能强度就没办法像之前那麽大了。」

  余江偏头看着王小川,後者无奈一笑:「你应该能理解吧?」

  「倒是能理解,但怎麽我有种感觉是打一枪就跑呢?」余江瞥着他,语气有些不爽:「特别是钱文杰那家夥————」

  「哈哈哈,你知道他和许一城是要留学的,下半年就大四,也该做准备了啊。」

  余江就皱了皱眉。

  但他能说什麽?

  就算是後世,对有留学经历的技术人才都高看一眼,别说现在了。

  只能说人各有志。

  「没事,只要你不走就行。」

  「那你也不能把我当全职使唤啊!」王小川哭笑不得:

  :「我这才研二,还稍微可以轻松点,到了研二研三还得忙课题。」

  余江点了点头。

  搞游戏不比搞网站,是需要高度交流的,找一帮全兼职的,在需求明确的情况下没问题。但如果要推进一个新项目,那交流成本就有点过高了。

  「这样,传奇项目因为你们熟悉,後续就还是让他们先接手搞起走,文档写好,注释写好就行。」

  王小川一口答应:「这没问题。」

  「那就OK。」

  余江把王小川送到走廊,这才转身走进办公室。

  随後,他关上房门。

  沈予慧坐在沙发上,认真地看着他。

  余江道:「等到收费,我们就应该是一家正规的集游戏开发和运营於一体的公司,确实不能指望兼职学生来攻城略地了。」

  沈予慧便叹了口气。

  「别叹,公测一周就突破15万在线,然後还有地推陆续发力,到年底你说干到50万都相信——你知道那是什麽概念吧?」

  沈予慧笑了一笑—一她早就想过这个数字意味着什麽。

  「所以,我有个想法。」余江望着沈予慧:「我今天被系主任拉进了天网课题组,简单了解了一下,课题组穷得要命,而且技术上完全无法和商业公司抗衡。」

  沈予慧一怔:「然後呢?」

  「过几个月,你看能不能和课题组联系,搞产学研合作。」

  余江微眯着眼,轻声道:「现在百度还在襁褓中,谷歌虽然强,但谷歌不懂中文——中文的精髓在於分词技术,这是老外没有的麻烦。」

  「你懂?」

  「我可太懂了!」余江轻轻呼气:「现在搞搜寻引擎最大的难点是人才奇缺,只要和天网勾搭上,我们再依靠Lai123的流量,未必不能压谷歌和百度一头!」

  「更重要的,是今後AI训练要很多语料,不搞搜寻引擎不行的。」

  听到余江又提到AI训练,沈予慧就知道他这是要做长远打算了。

  於是她慢慢点头。

  「搞!多少钱都搞!」

  第二天,正式上课。

  昨晚他就接到了导员的通知,说系里决定以研代考,让他直接去实验室即可。

  於是第二天,余江悠哉地骑着自行车,早上九点半才晃悠悠地来到实验室。

  他可太懂工科实验室了。

  一晚上随便熬,上午能十点到那都算早的!

  不出他所料,只有闫师兄一人在场。

  「早。」

  闫师兄二十七八岁的模样,头发稀少,见到余江先打招呼。

  「师兄早。」

  余江坐到老爷机前,按下电源,风扇便疯狂转动。

  这十年老拖拉机的动静,他敢打赌,那块赛扬566都应该属於「升级」。

  「师兄啊————你们是用的什麽电脑呢?」

  「奔I1I800。」

  见余江一副生无可恋的表情,闫师兄呵呵笑道:「你来晚了一点,本来有多的,後面老板感觉集群太吃力,就把那台奔3的放机房去了。」

  「你们机房没用专门的伺服器啊?」

  「是啊,全用的台式做集群————所以你知道我们条件多艰苦了吧?」闫师兄摇了摇头:「去年有人毕业证都不要就直接跑路了,实在受不了这玩意。」

  余江:「————是够艰苦的。」

  这会电脑已经打开,余江迅速输入密码,打开arXiv。

  现在arXiv上占位性质的论文很多,但也能看到高质量、高数量且最新的论文。

  这边,闫宏飞见他快速地用滑鼠划拉着篇幅,几乎几分钟就把一篇全英文的论文看完,随後又打开另外一篇後,眼中惊讶顿升。

  他这是读论文,还是在看网文?

  怀着疑惑,闫宏飞起身,慢慢走到余江身後。

  只见余江正在阅读一篇关於玻尔兹曼机的论文。

  看得出来,余江看得很认真,但他翻页的速度依旧极快!

  甚至闫宏飞都只来得及看清楚一个公式,余江就又翻页了!

  闫宏飞只感觉头皮一阵发麻:「你看完了?」

  「嗯。」余江回头,见闫宏飞满脸惊恐,马上意识到对方可能被自己看论文的速度吓到了,连忙解释道:「就随便翻了一下。」

  闫宏飞却只是摇了摇头。

  他当然愿意相信余江只是随便翻了一下。

  但随便翻的状态,和认真的、快速看的状态,又怎会一样?

  他又联想到这家夥恐怖的分数————

  沉默了几秒,他又想到昨天喻林的话。

  「师弟,你对爬虫了解多少?」

  余江回头:「了解了一点点,怎麽?」

  「就是即便加了节点,并行抓取也是重复,而且很慢。」闫宏飞望着余江:「有思路没?」

  余江微微皱眉。

  这位师兄好像是博一————

  「嗯————师兄肯定去重没问题————」余江一边说着一边观察闫宏飞的表情,「要不我看看日志?」

  闫宏飞点头,随即打开日志。

  余江从旁边拉过凳子,迅速查看日志。

  爬虫这玩意谁没玩过啊—一他当初写的验证lai123连结网站的小工具,如果加一道分析,就可以算爬虫了。

  「师兄用的文件列表?」

  「也试过HashSet去重,但很快就爆内存。」

  「URL队列问题确实难搞。」余江点头,安静地思索了片刻。

  闫宏飞也耐心地等待,只是眼神略有闪烁。

  「HashSet在URL总量过高的时候确实会占用大量内存,文件列表吃I/0。

  "1

  闫宏飞就叹了口气,他的办法是平均负载,但终归治标不治本。

  余江转头望着闫宏飞。

  「要不试试全局去重?」

  闫宏飞一怔:「怎麽全局,什麽架构?」

  「引入一个轻量Master节点,专门维护一个全局BloomFilter做去重。」

  「位数组大小按我们当前几千万网页规模留足余量,用几个独立哈希函数,误判率控制在千分之五以内就够用。Worker节点本地先快速过滤,新提取的URL再批量通过TCP发给Master确认。」

  「关键是per—hostbackqueues:Master按主机名hash分桶,每个主机维护一个FIFO队列和一个下次可抓时间————」

  「————Master本身用轻量内存结构,也没什麽瓶颈。」

  余江一边思索,一边慢慢地给出方案。

  他同时也感慨。

  这些在後世几乎算是搜寻引擎入门教科书一般的解决方案,在现在却是拦路虎一般的存在。

  闫宏飞认真地听着,最後猛地望向余江。

  「你之前干过?」

  闫宏飞死死地盯着余江。

  他完全不信,一个没有干过搜寻引擎的人,会在这麽短时间内就给出近乎完整的解决方案!

  余江轻轻咳了咳:「玩过爬虫,也玩过分布式————但分布式爬虫没玩过。」

  「我晕!你上哪里玩的?」

  余江一阵无语。

  知道不把这帮师兄们震住,怕是每天都要问个不休了。

  「师兄,非得要我说,我有个非常有钱的姐,她手底下有上百台P川志强伺服器吗?」

  「靠!」

  闫宏飞猛地起身。

  这时,徐飞和彭波也正好进门。

  「你俩来得正好!赶紧把他按住!」

  二人同时一惊。

  「闫哥你要干啥?」

  闫宏飞是一愣,似乎也不知道自己起身干啥。

  但他很快转头望向余江。

  「师弟,能把你姐介绍给师兄吗?」
为更好的阅读体验,本站章节内容基于百度转码进行转码展示,如有问题请您到源站阅读, 转码声明
圣墟小说网邀请您进入最专业的小说搜索网站阅读重生99,从给学霸当老师开始,重生99,从给学霸当老师开始最新章节,重生99,从给学霸当老师开始 圣墟小说网
可以使用回车、←→快捷键阅读
开启瀑布流阅读