URL短地址压缩算法-短网址映射

URL短地址压缩算法-短网址映射

微博短地址原理解析 (Java实现)

一种方法是调用第三方提供短址服务的接口来生成即可。一般他们提供接口或调用包。

如:

http://www.baidu.com/search/dwz.html (无需授权即可调用)


新浪更新后的长网址转短网址官方API文档:

调用地址:

请求方式:GET

请求参数:

  1. access_token:  授权后获得
  2. url_long:  待转换的长地址

返回结果:     { "urls": [ { "url_short": "http://t.cn/h4DwT1", "url_long": "http://finance.sina.com.cn/", "type": 0, "result": "true" } ] }

注意:每次使用时都需要access_token,而access_token是需要登录后授权才能得到的。如果你想做一个短网址转换的应用,肯定不能要求用户先登录微博、授权、然后才能使用你的功能,这样用户体验太差。你可以在服务器端用个测试帐号定期授权来获取access_token,这样就不需要用户登录微博授权了,用户可以直接输入长网址,获取转换后的短网址。

关于如何授权获取access token,请参考这篇博文:


第二种方法是自己实现,可以单独搭建服务器提供短网址映射服务。

(

有个关键点 ..短网址 是否可以直接通过算法还原..如果不能直接通过算法还原..

需要借助存储(无论是db,缓存,nosql或者别的什么),那么其实采用什么样的算法都不是重点. )

最近,项目中需要用到短网址(ShortUrl)的算法,于是在网上搜索一番,发现有C#的算法,有.Net的算法,有PHP的算法,就是没有找到Java版的短网址(ShortUrl)的算法,很是郁闷。同时还发现有不少网友在发帖求助,怎么实现Java版的短网址(ShortUrl)的算法。干脆一不做,二不休,参考了一下网上比较流行的PHP版短网址(ShortUrl)算法:

再根据自己的理解,用Java实现了该短网址(ShortUrl)的算法。(\(^o^)/YES!我还真厉害!)

先来废话一下,是在别人的帖子上看到的,主要是让大家了解一下短网址(ShortUrl)。

时下,短网址应用已经在全国各大微博上开始流行了起来。例如QQ微博的url.cn,新郎的t.cn等。

我们在新浪微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://t.cn/hrYnr0。为什么要这样做的,原因我想有这样几点:

1、微博限制字数为140字一条,那么如果我们需要发一些连接上去,但是这个连接非常的长,以至于将近要占用我们内容的一半篇幅,这肯定是不能被允许的,所以短网址应运而生了。

2、短网址可以在我们项目里可以很好的对开放级URL进行管理。有一部分网址可以会涵盖性、暴力、广告等信息,这样我们可以通过用户的举报,完全管理这个连接将不出现在我们的应用中,应为同样的URL通过加密算法之后,得到的地址是一样的。

3、我们可以对一系列的网址进行流量,点击等统计,挖掘出大多数用户的关注点,这样有利于我们对项目的后续工作更好的作出决策。

其实以上三点纯属个人观点,因为在我接下来的部分项目中会应用到,所以就了解了一下,下面先来看看短网址映射算法的理论(网上找到的资料):

① 将长网址用md5算法生成32位签名串,分为4段,,每段8个字符;

② 对这4段循环处理,取每段的8个字符, 将他看成16进制字符串与0x3fffffff(30位1)的位与操作,超过30位的忽略处理;

③ 将每段得到的这30位又分成6段,每5位的数字作为字母表的索引取得特定字符,依次进行获得6位字符串;

④ 这样一个md5字符串可以获得4个6位串,取里面的任意一个就可作为这个长url的短url地址。

很简单的理论,我们并不一定说得到的URL是唯一的,但是我们能够取出4组URL,这样几乎不会出现太大的重复。

首先,请大家了解在Java中如何用MD5来加密字符串得到32位的加密后的字符串,下面是我已经封装好的Java MD5算法:    [java]

  1. private final static String[] hexDigits = {
  2. "0", "1", "2", "3", "4", "5", "6", "7",
  3. "8", "9", "a", "b", "c", "d", "e", "f"};
  4. public static String byteArrayToHexString(byte[] b){
  5. StringBuffer resultSb = new StringBuffer();
  6. for (int i = 0; i < b.length; i++){
  7. resultSb.append(byteToHexString(b[i]));
  8. }
  9. return resultSb.toString();
  10. }
  11. private static String byteToHexString(byte b){
  12. int n = b;
  13. if (n < 0)
  14. n = 256 + n;
  15. int d1 = n / 16;
  16. int d2 = n % 16;
  17. return hexDigits[d1] + hexDigits[d2];
  18. }
  19. public static String MD5Encode(String origin){
  20. String resultString = null;
  21. try {
  22. resultString=new String(origin);
  23. MessageDigest md = MessageDigest.getInstance("MD5");
  24. resultString.trim();
  25. resultString=byteArrayToHexString(md.digest(resultString.getBytes("UTF-8")));
  26. }catch (Exception ex){}
  27. return resultString;
  28. }
  29. public static void main(String[] args)
  30. {
  31. String data = "189022881112011111118:09sz0000123456789987654321";
  32. System.out.println(MD5Encode(data));
  33. }


     [java]

  1. public class ShortUrl {
  2. public static void main(String[] args) {
  3. String url = "http://www.sunchis.com";
  4. for (String string : ShortText(url)) {
  5. print(string);
  6. }
  7. }
  8. public static String[] ShortText(String string){
  9. String key = "XuLiang";                 //自定义生成MD5加密字符串前的混合KEY
  10. String[] chars = new String[]{          //要使用生成URL的字符
  11. "a","b","c","d","e","f","g","h",
  12. "i","j","k","l","m","n","o","p",
  13. "q","r","s","t","u","v","w","x",
  14. "y","z","0","1","2","3","4","5",
  15. "6","7","8","9","A","B","C","D",
  16. "E","F","G","H","I","J","K","L",
  17. "M","N","O","P","Q","R","S","T",
  18. "U","V","W","X","Y","Z"
  19. };
  20. String hex = MD5Encode(key + string);
  21. int hexLen = hex.length();
  22. int subHexLen = hexLen / 8;
  23. String[] ShortStr = new String[4];
  24. for (int i = 0; i < subHexLen; i++) {
  25. String outChars = "";
  26. int j = i + 1;
  27. String subHex = hex.substring(i * 8, j * 8);
  28. long idx = Long.valueOf("3FFFFFFF", 16) & Long.valueOf(subHex, 16);
  29. for (int k = 0; k < 6; k++) {
  30. int index = (int) (Long.valueOf("0000003D", 16) & idx);
  31. outChars += chars[index];
  32. idx = idx >> 5;
  33. }
  34. ShortStr[i] = outChars;
  35. }
  36. return ShortStr;
  37. }
  38. private static void print(Object messagr){
  39. System.out.println(messagr);
  40. }
  41. }


下面来看看程序部分:现在可以直接使用ShortText(url)方法,可以等到下面四组值:

[java]

  1. ShortText("http://www.sunchis.com")[0];  //得到值:Jzyqma
  2. ShortText("http://www.sunchis.com")[1];  //得到值:QBrMzm
  3. ShortText("http://www.sunchis.com")[2];  //得到值:bQreM3
  4. ShortText("http://www.sunchis.com")[3];  //得到值:VNBRna


选取结果中四个值的任何一个值即可作为URL对应生成的短网址了。

Read more

开发必学的验证码,教你用Python从零写一个验证码

开发必学的验证码,教你用Python从零写一个验证码

点击“简说Python”,选择“星标公众号”      福利干货,第一时间送达!     本文授权转载自Python专栏,禁二次转载    阅读文本大概需要 10 分钟。       验证码是web开发中不可缺少的元素,而python又提供了非常多的验证码模块帮助大家快速生成各种验证码。   那你知道验证码生成的原理吗?所谓知其然,还要知其所以然。面试中,面试官不会因为你对框架很熟悉就夸赞你。   那今天小胖就带大家一层一层拨开验证码的衣服,看看其中的小奥秘 -<-  演示环境   - 操作系统: windows10   - python版本: python 3.7   - 代码编辑器: pycharm 2018.2   - 使用第三方模块: pillow       验证码的必须元素     1. 一张图片   2. 文本   3. 干扰元素   - 线条干扰   -

By Ne0inhk
【文末赠书】受用一生的高效 PyCharm 使用技巧(四)

【文末赠书】受用一生的高效 PyCharm 使用技巧(四)

点击“简说Python”,选择“星标公众号” 福利干货,第一时间送达! 本文授权转载自Python编程时光,禁二次转载 作者:Python编程时光 阅读文本大概需要 8 分钟。 大家好,这是本系列 PyCharm 的高效使用技巧的第四篇。按照惯例,本次还是分享 5 个。 如果你还没看过本系列第一篇,可以点击下面的传送门直接访达 16. 快速定位到错误行 前几天打开 PyCharm,发现在导航栏这里出现了很多红色波浪线,有过 PyCharm 使用经验的同学,这是代码出现了错误。 顺着波浪线,我一层一层地展开目录树,终于找到了那个包含错误的文件。由于是手误,我也不知道我改动了哪一行,看了下这个文件,有将近8000行的代码,难道一行一行地去找? 不,这绝对不是使用 IDE 正确的方式。 遇到问题,就应该尝试去寻找快捷方法,有没有办法,可以一下子定位到错误代码呢? 这时候,我想起了PyCharm

By Ne0inhk
10个数据结构高频知识点(建议收藏)

10个数据结构高频知识点(建议收藏)

点击“简说Python”,选择“星标公众号” 福利干货,第一时间送达! 图片by@unsplash 本文授权转载自大数据肌肉猿,禁二次转载 作者:无精疯 阅读文本大概需要 9 分钟。 1、数组和链表的区别 从逻辑结构上来看,数组必须实现定于固定的长度,不能适应数据动态增减的情况,即数组的大小一旦定义就不能改变。当数据增加是,可能超过原先定义的元素的个数;当数据减少时,造成内存浪费;链表动态进行存储分配,可以适应数据动态地增减的情况,且可以方便地插入、删除数据项。 从内存存储的角度看;数组从栈中分配空间(用new则在堆上创建),对程序员方便快速,但是自由度小;链表从堆中分配空间,自由度大但是申请管理比较麻烦。 从访问方式类看,数组在内存中是连续的存储,因此可以利用下标索引进行访问;链表是链式存储结构,在访问元素时候只能够通过线性方式由前到后顺序的访问,所以访问效率比数组要低。 2、简述快速排序过程 1)选择一个基准元素,通常选择第一个元素或者最后一个元素, 2)通过一趟排序将待排序的记录分割成独立的两部分,其中一部分记录的元素值均比

By Ne0inhk
受用一生的高效 PyCharm 使用技巧(五)

受用一生的高效 PyCharm 使用技巧(五)

点击“简说Python”,选择“星标公众号” 福利干货,第一时间送达! 本文授权转载自Python编程时光,禁二次转载 作者:Python编程时光 阅读文本大概需要 6 分钟。 大家好,这是本系列 PyCharm 的高效使用技巧的第五篇。按照惯例,本次还是分享 5 个。 如果你还没看过本系列第一篇,可以点击下面的传送门直接访达 21. 随处折叠,实现代码自由 PyCharm 里代码块的折叠功能,相当的显眼,在代码编辑框的左侧,你可以发现有 + 也有 -,很容易理解 + 代表代码块被折叠了可以点此展开,而 - 代表这个代码块处于展开状态可以点此折叠。 如果你和我一样是个键盘党,你可以使用快捷(Mac:按住Command键,再按+或者- )进行快速反折叠/折叠。 代码块的折叠和反折叠,应该是一个代码编辑器的基本功能。在这一点上, PyCharm

By Ne0inhk