前几天在某平台看到一个技术问题,很有意思啊。涉及到的两个技术点,大家平时开发使用的也比较多,但是属于一个小细节,深挖下去,还是有点意思的。

来,先带你看一下问题是什么,同时给你解读一下这个问题,首先,这位同学给出了一个代码片段:

1.webp.jpg

他说他有一个 func 方法,这个方法里面干了两件事:

  • 1.先查询数据库里面的商品库存。
  • 2.如果还有库存,那么对库存进行减一操作,模拟商品卖出。

对于第二件事,提问的同学其实写了两个操作在里面,所以我再细分一下:

  • 2.1 对库存进行减一操作。
  • 2.2 在订单表插入订单数据。

很显然,这两个操作都会对数据库进行操作,且应该是原子性的操作。所以,在方法上加了一个@Transactional注解。

接着,为了解决并发访问的问题,他用 lock 把整个代码包裹了起来,保证在单体结构下,同一时刻只有一个请求能去执行减少库存,生成订单的操作。非常的完美。

首先,先把大前提申明一下:MySQL数据库的隔离机制使用的是可重复读级别

2.webp.jpg

这个时候,问题就来了。

如果是高并发的情况下,假设真的就有多个线程同时调用func方法。要保证一定不能出现超卖的情况,那么就需要事务的开启与提交能完整的包裹在 lock 与 unlock之间

显然事务的开启一定是在 lock 之后的。故关键在于事务的提交是否一定在 unlock 之前?

如果事务的提交在unlock之前,没有问题。因为事务已经提交了,代表库存一定减下来了,而这个时候锁还没释放,所以,其他线程也进不来。

画个简单的示意图如下:

3.webp.jpg

等 unlock 之后,再进来一个线程,执行查询数据库的操作,那么查询到的值一定是减去库存之后的值。但是,如果事务的提交是在 unlock 之后,那么有意思的事情就出现了,你很有可能发生超卖的情况。

上面的图就变成了这样的了,注意最后两个步骤调换了:

4.webp.jpg

举个例子。

假设现在库存就只有一个了。这个时候 A,B 两个线程来请求下单。
A 请求先拿到锁,然后查询出库存为一,可以下单,走了下单流程,把库存减为 0 了。但是由于 A 先执行了 unlock 操作,释放了锁。
B 线程看到后马上就冲过来拿到了锁,并执行了查询库存的操作。
注意了,这个时候 A 线程还没来得及提交事务,所以 B 读取到的库存还是 1,如果程序没有做好控制,也走了下单流程。

哦豁,超卖了。所以,再次重申问题:

在上面的示例代码的情况下,如果事务的提交在 unlock 之前,是没有问题的。但是如果在 unlock 之后是会有问题的。

那么事务的提交到底是在 unlock 之前还是之后呢?

这个事情,先把问题听懂了。你可以简单的思考一下。我想先聊聊这句被我轻描淡写,一笔带过,你大概率没有注意到的话:

显然事务的开启一定是在 lock 之后的。

这句话,不是我说的,是提问的同学说的:

5.webp.jpg

你有没有一丝丝疑问?怎么就显然了?哪里就显然了?为什么不是一进入方法就开启事务了?请给我证据。来吧,瞅一眼证据。

事务开启时机

证据,我们需要去源码里面找。

另外,我不得不多说一句 Spring 在事务这块的源码写的非常的清晰易懂,看起来基本上没有什么障碍。所以如果你不知道怎么去啃源码,那么事务这块源码,也许是你撕开源码的一个口子。

好了,不多说了,去找答案。答案就藏在这个方法里面的:

org.springframework.jdbc.datasource.DataSourceTransactionManager#doBegin

6.webp.jpg

先看我下面框起来的那一行日志:

Switching JDBC Connection [HikariProxyConnection@946359486 wrapping com.mysql.jdbc.JDBC4Connection@7a24806] to manual commit

你知道的,我是个技术博主,偶尔教点单词。

Switching,转换。
Connection,链接。
manual commit,手动提交。
Switching … to …,把什么转换为什么。

没想到吧,这次学技术的同时不仅学了几个单词,还会了一个语法。所以,上面那句话翻译过来就非常简单了:

把数据库连接切换为手动提交。

然后,我们看一下打印这行日志的代码逻辑,也就是被框起来的代码部分。我单独拿出来:

7.webp.jpg

逻辑非常清晰,就是把连接的 AutoCommit 参数从 ture 修改为 false

那么现在问题就来了,这个时候,事务启动了吗?

我觉得没启动,只是就绪了而已。启动和就绪还是有一点点差异的,就绪是启动之前的步骤。

那么事务的启动有哪些方式呢?

  • 第一种:使用启动事务的语句,这种是显式的启动事务。比如 begin 或 start transaction 语句。与之配套的提交语句是 commit,回滚语句是 rollback。

  • 第二种:autocommit 的值默认是 1,含义是事务的自动提交是开启的。如果我们执行 set autocommit=0,这个命令会将这个线程的自动提交关掉。意味着如果你只执行一个 select 语句,这个事务就启动了,而且并不会自动提交。这个事务持续存在直到你主动执行 commit 或 rollback 语句,或者断开连接。

很显然,在 Spring 里面采用的是第二种方式。而上面的代码 con.setAutoCommit(false) 只是把这个链接的自动提交关掉。

事务真正启动的时机是什么时候呢?

**前面说的 begin/start transaction 命令并不是一个事务的起点,在执行到它们之后的第一个操作 InnoDB 表的语句,事务才算是真正启动。**

如果你想要马上启动一个事务,可以使用start transaction with consistent snapshot 这个命令。需要注意的是这个命令在读已提交的隔离级别(RC)下是没意义的,和直接使用 start transaction 一个效果

什么时候才会执行第一个 SQL 语句?

就是在 lock 代码之后。所以,显然事务的开启一定是在 lock 之后的。

这一个简单的“显然”,先给大家铺垫一下。接下来,给大家上个动图看一眼,更加直观。首先说一下这个 SQL:

select * from information_schema.innodb_trx;

不多解释,你只要知道这是查询当前数据库有哪些事务正在执行的语句就行。

你就注意看下面的动图,是不是第 27 行查询语句执行完成之后,查询事务的语句才能查出数据,说明事务这才真正的开启:

8.gif

最后,我们把目光转移到这个方法的注释上:

9.webp.jpg

写这么长一段注释,意思就是给你说,这个参数我们默认是 ture,原因就是在某些 JDBC 的驱动中,切换为自动提交是一个很重的操作

那么在哪设置的为 true 呢?

没看到代码,我一般是不死心的。所以,一起去看一眼。

setAutoCommit 这个方法有好几个实现类,我也不知道具体会走哪一个:

10.webp.jpg

所以,我们可以在下面这个接口打上一个断点:

java.sql.Connection#setAutoCommit

11.webp.jpg

然后重启程序,IDE 会自动帮你判断走那个实现类的:

12.webp.jpg

可以看到,默认确实是 true。

等等,你不会真的以为我是想让你看这个 true 吧?我是想让你知道这个调试技巧啊。

再说一个小细节,这一小节就收尾。

你再去看这小节的开头,我直接说答案藏在这个方法里面:

org.springframework.jdbc.datasource.DataSourceTransactionManager#doBegin

所以,我是怎么知道在这个地方打断点的呢?答案就是调用栈

先给大家看一下我的代码:

13.webp.jpg

啥也先不管,上来就先在 26 行,方法入口处打上断点,跑起来:

14.webp.jpg

诶,你看这个调用栈,我框起来的这个地方:

15.webp.jpg

看这个名字,你就不好奇吗?就这样轻轻的一点,就到了这里:

org.springframework.transaction.interceptor.TransactionAspectSupport#invokeWithinTransaction

这里有个切面,可以理解为 try 里面就是在执行我们的业务代码逻辑:

16.webp.jpg

而在 try 代码块,执行我们的业务代码之前,有这样的一行代码:

17.webp.jpg

找到这里了,你就在这一行代码之前,再轻轻的打个断点,然后调试进去,就能找到这一小节开始的时候,说的这个方法:

org.springframework.jdbc.datasource.DataSourceTransactionManager#doBegin

它们之间只隔了三个调用:

19.webp.jpg

这样就找到答案了。调用栈,另一个调试源码小技巧,屡试不爽,送给你。

之前还是之后

还是拿前面的这份代码来说事,流程就是这样的:

20.webp.jpg

1.先拿锁。
2.查询库存。
3.判断是否还有库存。
4.有库存则执行减库存,创建订单的逻辑。
5.没有库存则返回。
6.释放锁。

所以代码是这样的:

22.png

完全符合我们之前的那份代码片段,有事务,也有锁:

1.webp.jpg

回到我们最开始抛出来的问题:

在上面的示例代码的情况下那么事务的提交到底是在 unlock 之前还是之后呢?

我们可以带入一个具体的场景。比如我数据库里面有 10 个顶配版的 iPad,原价 1.6w 元一台,现在单价 1w 一个,这个价格够秒杀吧?

23.webp.jpg

反正一共就 10 台,所以,我的数据库里面是这样的,

24.webp.jpg

然后我搞 100 个人来抢东西,不过分吧?我这里用 CountDownLatch 来模拟一下并发:

25.webp.jpg

执行一下,先看结果,立马就见分晓:

26.gif

动图右边的部分:

上面是浏览器请求,触发 Controller 的代码。

然后中间是产品表,有 10 个库存。

最下面是订单表,没有一条数据。

触发了代码之后,库存为 0 了,没有问题。

但是,订单居然有 20 笔!

也就是说超卖了 10 个ipad pro 顶配版!

超卖的,可不在活动预算范围内啊!

那可就是一个 1.6w 啊,10 个就是 16w 啊。

就这么其貌不扬,人畜无害,甚至看起来猥猥琐琐的代码,居然让我亏了整整 16w 。

其实,结果出现了,答案也就随之而来了。

在上面的示例代码的情况下,事务的提交在 unlock 之后

4.webp.jpg

其实你仔细分析后,猜也能猜出来,肯定是在 unlock 之后的。

而且上面的描述“unlock之后”其实是有一定的迷惑性的,因为释放锁是一个比较特别的操作。

换一个描述,就比较好理解了:

在上面的示例代码的情况下,事务的提交在方法运行结束之后。

你细品,这个描述是不是迷惑性就没有那么强了,甚至你还会恍然大悟:这不是常识吗?

为什么是方法结束之后,分析具体原因之前,我想先简单分析一下这样的代码写出来的原因。

我猜可能是这样的。最开始的代码结构是这样:

27.webp.jpg

然后,写着写着发现不对,并发的场景下,库存是一个共享的资源,这玩意得加锁啊。于是搞了这出:

28.webp.jpg

后面再次审查代码的时候,发现:哟,这个第三步得是一个事务操作才行呀。于是代码就成了这样:

29.webp.jpg

演进路线非常合理,最终的代码看起来也简直毫无破绽。但是问题到底出在哪里了呢?

找答案

答案还是在这个类里面:

org.springframework.transaction.interceptor.TransactionAspectSupport#invokeWithinTransaction

30.webp.jpg

前面我们聊事务开启的时候,说的是第 382 行代码。然后 try 代码块里面执行的是我们的业务代码。

现在,我们要研究事务的提交了,所以主要看我框起来的地方。首先 catch 代码块里面,392 行,看方法名称已经非常的见名知意了:completeTransactionAfterThrowing 在抛出异常之后完成事务的提交。

你看我的代码,只是用到了@Transactional注解,并没有指定异常。那么问题就来了:

Spring 管理的事务,默认回滚的异常是什么呢?

如果你不知道答案,就可以带着问题去看源码。如果你知道答案,但是没有亲眼看到对应的代码,那么也可以去寻找源码。如果你知道答案,也看过这部分源码,温故而知新。

先说答案:默认回滚的异常是 RuntimeException 或者 Error。我只需要在业务代码里面抛出一个 RuntimeException 的子类,比如这样的:

31.webp.jpg

然后在 392 行打上断点,开始调试就完事了:

32.webp.jpg

只需要往下调试几步,你就能走到这个方法来:

org.springframework.transaction.interceptor.RuleBasedTransactionAttribute#rollbackOn

33.webp.jpg

发现这个 winner 对象为空,接着走了这个逻辑:

return super.rollbackOn(ex);

答案就藏着这行代码的背后:

34.webp.jpg

如果异常类型是 RuntimeException 或者 Error 的子类,那么就返回 true,即需要回滚,调用 rollback 方法:

36.webp.jpg

如果返回为 false,则表示不需要回滚,调用 commit 方法:

37.webp.jpg

那么怎么让它返回 false 呢?很简单嘛,这样一搞就好了:

39.webp.jpg

框架给你留了口子,你就把它用起来。当我把代码改成上面那样,然后重新启动项目,再次访问代码。我们去寻找出现指定异常不回滚的具体的实现逻辑在哪。其实也在我们刚刚看到的方法里面:

40.webp.jpg

你看,这个时候 winner 不为 null 了。它是一个 NoRollbackRuleAttribute 对象了。所以就走入这行代码,返回 false 了:

return !(winner instanceof NoRollbackRuleAttribute);

于是,就成功走到了 else 分支里面,出了异常也 commit 了,你说神奇不神奇:

41.webp.jpg

写到这里的时候,我突然想到了一个骚操作,甚至有可能变成一道沙雕面试题:

42.webp.jpg

这个操作骚不骚,到底会回滚呢还是不回滚呢?如果你在项目里看到这样的代码肯定是要骂一句傻逼的。但是面试官就喜欢搞这些阴间的题目。

我想到这个问题的时候,我也不知道答案是什么,但是我知道答案还是在源码里面:

首先,从结果上可以直观的看到,经过 for 循环之后, winner RollbackRuleAttribute 对象,所以下面的代码返回 true,需要回滚:

return !(winner instanceof NoRollbackRuleAttribute);

问题就变成了 winner 为什么经过 for 循环之后是 RollbackRuleAttribute?

简单一句话:导致 winner 是 RollbackRuleAttribute 的原因,就是因为被循环的这个 list 是先把 RollbackRuleAttribute 对象 add 了进去。

那么为什么 RollbackRuleAttribute 对象先加入到集合呢?

org.springframework.transaction.annotation.SpringTransactionAnnotationParser#parseTransactionAnnotation(org.springframework.core.annotation.AnnotationAttributes)

44.webp.jpg

别问,问就是因为代码是这样写的。为什么代码要这样写呢?我想可能设计这块代码的开发人员觉得 rollbackFor 的优先级比 noRollbackFor 高吧。

再来一个问题:

Spring 源码怎么匹配当前这个异常是需要回滚的?

别想那么复杂,大道至简,直接递归,然后一层层的找父类,对比名称就完事了。

45.webp.jpg

你注意截图里面的注释:

一个是 Found it!

表示找到了,匹配上了,用了感叹号表示很开心。

一个是 If we've gone as far as we can go and haven't found it...

啥意思呢,这个 as far as 在英语里面是一个连词,表示“直到..为止..”的意思。引导的是状语从句,强调的是程度或范围。所以,上面这句话的意思就是:如果我们已经走到我们能走的最远的地方,还没匹配上,代码就只能这样写了

46.webp.jpg

异常类,最远的地方就是 Throwable.class。没匹配上,就返回 -1。

还是建议大家亲自去 Debug 一下,可太有意思了。然后我们接着聊正常场景下的提交。

48.webp.jpg

这个代码块里面,try 我们也聊了,catch 我们也聊了。就差个 finally 了。

我看网上有的文章说 finally 里面就是 commit 的地方。错了啊,老弟。这里只是把数据库连接给重置一下。方法上已经给你说的很清楚了:

Spring 的事务是基于 ThreadLocal 来做的。在当前的这个事务里面,可能有一些隔离级别、回滚类型、超时时间等等的个性化配置。

不管是这个事务正常返回还是出现异常,只要它完事了,就得给把这些个性化的配置全部恢复到默认配置。所以,放到了 finally 代码块里面去执行了。真正的 commit 的地方是这行代码:

50.webp.jpg

那么问题又来了:

走到这里来了,事务一定会提交吗?

话可别说的那么绝对,兄弟,看代码:

org.springframework.transaction.support.AbstractPlatformTransactionManager#commit

51.webp.jpg

在 commit 之前还有两个判断,如果事务被标记为 rollback-only 了,还是得回滚。而且,你看日志。我这事务还没提交呢,锁就被释放了?

52.webp.jpg

接着往下看 commit 相关的逻辑,我们就会遇到老朋友:

53.webp.jpg

HikariCP,SpringBoot 2.0 之后的默认连接池,强得一比。关于事务的提交,就不大篇幅的介绍了。给大家指个路:

com.mysql.cj.protocol.a.NativeProtocol#sendQueryString

在这个方法的入口处打上断点:

55.webp.jpg

然后你会发现很多的 SQL 都会经过这个地方。所以,为了你顺利调试,你需要在断点上设置一下:

56.webp.jpg

这样只有 SQL 语句是 commit 的时候才会停下来。又一个调试小细节,送给你,不客气。现在,我们知道原因了,那我现在把代码稍微变一下:

57.webp.jpg

ReentrantLock 换成了 synchronized。

那你说这个代码还会不会有问题?

说没有问题的同学请好好反思一下。这个地方的原理和前面讲的东西是一模一样的呀,肯定也是有问题的。

这个加锁方式就是错误的。所以你记住了,以后面试官问你 @Transactional 的时候,你把标准答案先背一遍之后,如果你对锁这块的知识点非常的熟悉,就可以在不经意间说一下结合锁用的时候的异常场景。别说你写的,就说你 review 代码的时候发现的,深藏功与名。

另外记得扩展一下,现在都是集群服务了,加锁得上分布式锁。但是原理还这个原理。既然都聊到分布式锁了,这和面试官又得大战几个回合。是你主动提起的,把面试官引到了你的主战场,拿几分,不过分吧。

一个面试小技巧,送给你,不客气。

解决方案

事务在锁工作范围内

现在我们知道问题的原因了。解决方案其实都呼之欲出了嘛。正确的使用锁,把整个事务放在锁的工作范围之内:

58.webp.jpg

这样,就可以保证事务的提交一定是在 unlock 之前了。对不对?

说对的同学,今天就先到这里,请回去等通知啊。别被带到沟里去了呀,朋友。

你仔细想想这个事务会生效吗?

提示到这里还没想明白的同学,赶紧去搜一下事务失效的几种场景。我这里说一个能正常使用的场景:

59.webp.jpg

  • 只是这种自己注入自己的方式,我觉得很恶心。如果项目里面出现了这样的代码,一定是代码分层没有做好,项目结构极其混乱。不推荐。
  • 还可以使用编程式事务的方式去写,自己去控制事务的开启、提交、回滚。比直接使用 @Transactional 靠谱。
  • 除此之外,还有一个骚一点的解决方案。其他地方都不动,就只改一下 @Transactional 这个地方.

60.webp.jpg

把隔离级别串行化,再次跑测试用例,绝对不会出现超卖的情况。甚至都不需要加锁的逻辑。你觉得好吗?

好啥啊?串行化性能跟不上啊!

这玩意太悲观了,对于同一行的数据,读和写的时候都会进行加锁操作。当读写锁出现冲突的时候,后面来的事务就排队等着。这个骚操作,知道就行了,别用。你就当是一个没啥卵用的知识点就行了。

但是,如果你们是一个不追求性能的场景,这个没有卵用的知识点就变成骚操作了。

rollback-only

前面提到了这个 rollback-only,为了更好的行文,所以我一句话就带过了,其实它也是很有故事的,单独拿一节出来简单说一下,给大家模拟一下这个场景。以后你见到这个异常就会感觉很亲切。

Spring 的事务传播级别默认是 REQUIRED,含义是如果当前没有事务,就新建一个事务,如果上下文中已经有一个事务,则共享这个事务

直接上代码:

62.webp.jpg

这里有 sellProduct、sellProductBiz 两个事务,sellProductBiz 是内层事务,它会抛出了异常。当执行整个逻辑的时候,会抛出这个异常:

Transaction rolled back because it has been marked as rollback-only

62.webp (1).jpg

根据这个异常的堆栈,可以找到这个地方,在前面出现过:

63.webp.jpg

所以,我们只需要分析这个 if 条件为什么满足了,就大概摸清楚脉络了。

if (!shouldCommitOnGlobalRollbackOnly() && defStatus.isGlobalRollbackOnly())

前面的 shouldCommitOnGlobalRollbackOnly 默认为 false

67.webp.jpg

问题就精简为了:defStatus.isGlobalRollbackOnly() 为什么是true?

为什么?因为 sellProductBiz 抛出异常后,会调用 completeTransactionAfterThrowing 方法执行回滚逻辑。肯定是这个方法里面搞事情了啊。

org.springframework.transaction.support.AbstractPlatformTransactionManager#processRollback

68.webp.jpg

在这里,把链接的 rollbackOnly 置为了 true。所以,后面的事务想要 commit 的时候,一检查这个参数,哦豁,回滚吧。大概就是这样的:

69.webp.jpg

如果这不是你期望的异常,怎么解决呢?

理解了事务的传播机制就简单的一比:

70.webp.jpg

就这样,跑起来没毛病,互不干扰。

71.webp.jpg

完结撒花~!!!