帮助

内容读取中…

内容读取中…

首页  |  相册  |  共享  |  群组
搜索

正文

百度笔试题(感谢网友lihan提供) (2005-12-05 17:05)

  1)此题10分  
  对任意输入的正整数N,编写C程序求N!的尾部连续0的个数,并指出计算复杂度。如:18!=6402373705728000,尾部连续0的个数是3。  
  (不用考虑数值超出计算机整数界限的问题)  
   
  2)此题10分  
  编写一个C语言函数,要求输入一个url,输出该url是首页、目录页或者其他url  
  如下形式叫做首页:  
  militia.info/  
  www.apcnc.com.cn/  
  http://www.cyjzs.comwww.greena888.com/  
  www.800cool.net/  
  http://hgh-products.my-age.net/  
  如下形式叫做目录页:  
  thursdaythree.net/greenhouses--gas-global-green-house-warming/  
  http://www.mw.net.tw/user/tgk5ar1r/profile/  
  http://www.szeasy.com/food/yszt/chunjie/  
  www.fuckingjapanese.com/Reality/  
   
  请注意:  
  a) url有可能带http头也有可能不带  
  b)动态url(即含有"?"的url)的一律不算目录页,如:  
  www.buddhismcity.net/utility/mailit.php?l=/activity/details/3135/  
  www.buddhismcity.net/utility/mailit.php?l=/activity/details/2449/  
   
  另:如果你会linux,请用linux下的grep命令实现第2题的功能(附加5分)。  
   
  3)此题40分  
  如果必须从网页中区分出一部分"重要网页"(例如在10亿中选8亿),比其他网页更值得展现给用户,请提出一种方案。  
   
  4)此题40分  
  假设有10亿网页已经被我们存下来,并提供如下信息:网页全文(即网页的源码)、全文长度、网页正文(即网页中提取的主体文字)、  
  正文长度,以及其他网页提取物等,现在希望去掉其中的重复网页,请提出可行的方案,计算出每个网页对应的重复度,你可以自己  
  对网页重复下定义,也可以提出需要哪些更多的网页提取物来实现更好的去重复方案  

评论 (13) | 阅读 (8931)

评论
    内容读取中…
发表评论

你还没有登录,现在登录

个人档案

内容读取中…

博客公告

内容读取中…

博客日历

内容读取中…

文章分类

内容读取中…

文章存档

    内容读取中…

最新发表

    内容读取中…

最新评论

内容读取中…

给博主留言

内容读取中…

博主好友

内容读取中…

最新访客

内容读取中…

博客统计

    内容读取中…

友情链接

新闻订阅