laike9m's blog

JUL 12TH, 2015

Useful Hack：Lazy module attribute

昨天晚上师兄在 qq 上和我诉苦，说我们的代码测试起来太不方便了。问题大概出在这段代码：

# motorclient.py
import motor
from settings import mongo_machines, REPLICASET_NAME
from pymongo import ReadPreference

_motorclient = motor.MotorReplicaSetClient(
    ','.join(mongo_machines),
    replicaSet=REPLICASET_NAME,
    readPreference=ReadPreference.NEAREST)

fbt = _motorclient.fbt
reward = _motorclient.fbt_reward
fbt_log = _motorclient.fbt_log

这是我之前写的对 motor 的简单封装，无关代码已经去掉。目的很简单，他们每次要访问数据库只要先 import motorclient，然后用 motorclient.dbname 操作各个数据库就行了。问题在哪里呢？

发现 motorclient 好蛋疼，只要一 import 就必须连接数据库，本地测试每次都要打 mock

这是他的原话，他想在没有配置副本集的本机进行测试，然而 motorclient 只要一 import 就会初始化一个 MotorReplicaSetClient，于是只能 Mock。于是现在有如下需求：

希望保证现有接口不变
不要一 import 就初始化
能非常容易地变成只连接本地数据库而不是副本集

怎么做呢？

我突然想到，David Beazley 的演讲里好像提到了这个概念（关于他的演讲请参考 PyCon2015 笔记）。在 slide 的 150-152 页，他当时想实现的是，import 某个 package 的时候，不直接把 submodules/subpackage 都给 import 进来（因为很耗时间，相当于把所有文件执行一次），而是按需 import，他把这个技巧叫 "Lazy Module Assembly"。我面临的需求和他类似，也要用 "lazy" 的方式加载，只不过针对的是一个 module 里的变量。

上网搜了搜，参考了 SO 上的某答案，完成了 lazy 版，我把它叫做 lazy module attribute。

# motorclient.py
mode = None
def set_mode(m):
    global mode
    mode = m

class Wrapper:

    localhost = '127.0.0.1'
    port = 27017
    dbs = {
        'fbt': None,
        'reward': None,
        'fbt_log': None
    }

    def __init__(self, module):
        self.module = module
        self._motorclient = None

    def __getattr__(self, item):
        if item in self.dbs and self._motorclient is None:
            if mode == 'test':
                self._motorclient = motor.MotorClient(host=self.localhost,
                                                      port=self.port)
            else:
                self._motorclient = motor.MotorReplicaSetClient(
                    ','.join(mongo_machines),
                    replicaSet=REPLICASET_NAME,
                    readPreference=ReadPreference.NEAREST)

            self.dbs['fbt'] = self._motorclient.fbt
            self.dbs['reward'] = self._motorclient.fbt_reward
            self.dbs['fbt_log'] = self._motorclient.fbt_log
            self.module.__dict__.update(self.dbs)

        return getattr(self.module, item)

sys.modules[__name__] = Wrapper(sys.modules[__name__])

它的工作流程是这样：
1. 在 import motorclient，会创建一个 Wrapper 类的实例替换掉这个 module 本身，并且把原来的 module object 赋给 self.module，别的什么都不做。
2. 然后我们在别的文件中访问 motorclient.fbt，进入 Wrapper 实例的 __getattr__ 方法，item='fbt'。因为是初次访问，self._motorclient is None 的条件满足，这时开始初始化变量。
3. 根据全局变量 mode 的值，我们会创建 MotorClient 或是 MotorReplicaSetClient，然后把那几个数据库变量也赋值，并且更新 self.module.__dict__.update(self.dbs)。这个效果就和我们的老版本初始化完全一样了，相当于直接把变量定义写在文件里。
4. 然后调用 getattr(self.module, item)，因为我们已经更新过 self.module 的 __dict__，所以能够正常返回属性值。第一次访问至此结束
5. OK，下一次再访问 motorclient.fbt，因为 self._motorclient 已经有值了，所以我们就不再初始化，直接把活交给 self.module 就好了。

下面的内容比较 internal，看不下去的同学就不要看了。。。

本来说到这里就差不多了，不过对 Python import 机制比较了解的同学可能会看出代码中的一个潜在问题。就是这句话： python sys.modules[__name__] = Wrapper(sys.modules[__name__])

为什么 sys.modules 的 key 一定就是 __name__ 呢？下面将追根溯源，证明这一点。

据 Brett Cannon 在《How Import Works》演讲的 slide 第 27 页对 load_module 函数的描述，sys.modules 所用的 key 是 fullname：

如果标准库中有类似 module.__name__ = fullname 这种东西，那么我们可以断定 __name__ 就是 fullname。于是苦逼地翻了半天源码，好在终于找到了，有这么一句话： python module.__name__ = spec.name

那么这个 Spec 又是什么呢？它实际上是 Python3.4 里才引入的一个类，官方的描述是 "A specification for a module's import-system-related state"。好，就差最后一步了！我又找到了一句代码：

spec = spec_from_loader(fullname, self)

没错，Spec 初始化的第一个参数，传入的是 fullname，而它恰恰被赋给了 spec.name。至此，我们的推理终于完成，现在可以肯定地说，sys.modules 的 key 就是这个 module 的 __name__。（实际上这个证明针对的是 Python3.4，不过这种接口肯定是向前兼容的，对于所有版本都成立）

Q.E.D.

当初写 ezcf 的时候其实就遇到过这个问题，只不过没深究。我的代码中有这么一段：

class BaseLoader(_BaseClass):

    def __init__(self, *args, **kwargs):
        pass

    def load_module(self, fullname):
        if fullname in sys.modules:
            mod = sys.modules[fullname]
        else:
            mod = sys.modules.setdefault(fullname, imp.new_module(fullname))

        mod.__file__ = self.cfg_file
        mod.__name__ = fullname  # notice this !!
        mod.__loader__ = self
        mod.__package__ = '.'.join(fullname.split('.')[:-1])

        return mod

当时看到别人都写 self.__name__ = fullname，于是就跟着这么写了，并不明白其中原理。现在终于弄清了，这是 convention，必须得这么写。

不是后记：
感觉好久都没有写文章了啊。。空余时间基本都去刷题了啊。。。跪求 Offer
以及如果读者中有能内推的请联系我（然而并没有什么读者(╥﹏╥)

JUN 15TH, 2015

更好地 partition array

很多算法或者题目里面都有 partition array 这步。所谓 partition array，指的就是把元素按某种条件分开，一部分放前面，另一部分放后面。

比如快速排序，这个条件就是“元素是否小于 pivot”，小于放前面，大于放后面。

大部分人写快排，其中 partition 的一步都喜欢这么写：

def partition(alist, first, last):
    pivot = alist[first]

    left = first + 1
    right = last

    while left <= right:
        while left <= right and alist[left] <= pivote:
            left += 1

        while left <= right and alist[right] >= pivot:
            right += 1

        if left <= right:
            alist[left], alist[right] = alist[right], alist[left]
            left += 1
            right -= 1

    alist[first], alist[right] = alist[right], alist[first]
    return right

弄两根指针 left, right 分别放在 array 的左端和右端，然后 left 右移，right 左移，如果能交换就交换元素，直到 left > right。

上面是一个比较标准的 partition 实现，也有一些变体，不过凡是使用 left/right 指针的都是一类。这类实现当然没有问题，但是不优雅，而且难记。

哪里不优雅？仔细看就会发现，代码里有 4 次 left <= right 的判断！而且这 4 次都是必要的。

为什么难记？因为代码多，所以难记！而且稍不注意，最后一步就会写成 alist[first], alist[left] = alist[left], alist[first]。

优雅的写法是什么呢？

def partition(alist, first, last):
    pivot = alist[first]        
    i = first

    for j in range(first + 1, last):
        if alist[j] <= pivot:
            i += 1
            alist[i], alist[j] = alist[j], alist[i]

    alist[first], alist[i] = alist[i], alist[first]
    return i

短了这么多，更重要的是再也没有重复的 left <= right 判断了！这段代码也很好理解，j 指针把 array 扫一遍，把 <= pivot 的放到前面，i 用来记录放的地方。停止的时候，i 的位置是 <= pivot 部分的最后一个元素的 index。当然，不要忘记把 pivot 和这个元素交换。

需要注意的地方有两个，首先是初始化：i = first, j = first + 1。还有，每次是先 i += 1，然后再交换i, j元素。

其实这种区别不仅仅在于快排，所有 partition array 都是一样。比如这题：

给出一个整数数组nums和一个整数k。划分数组（即移动数组nums中的元素），使得：

所有小于k的元素移到左边
所有大于等于k的元素移到右边

不优雅的写法这么写：

int partitionArray(vector<int> &nums, int k) {
    int i = 0, j = nums.size() - 1;
    while (i <= j) {
        while (i <= j && nums[i] < k) i++;
        while (i <= j && nums[j] >= k) j--;
        if (i <= j) {
            int temp = nums[i];
            nums[i] = nums[j];
            nums[j] = temp;
            i++;
            j--;
        }
    }
}

还是 4 次比较╮(╯▽╰)╭

优雅的写法：

def partitionArray(nums):        
    i = -1

    for j in range(len(nums)):
        if nums[j] < k:
            i = i + 1
            nums[i], nums[j] = nums[j], nums[i]

当然拿Py和C++比是不合适的，但关键是少了 4 次比较，代码就好看多了。
这一题不存在真实的 pivot，所以我们对快排做了改进，初始化时 i 不再是 0，而是 -1。快排的时候，因为第一次交换时 i = first + 1，所以初始化 i=first 实际上跳过了 pivot 也就是 array[first]。这里因为没有需要跳过的元素，所以 i=-1，然后 j 还是等于 i + 1 也就是 0。其它的没有区别。

熟悉没有真实 pivot 的写法之后，不论按何种规则划分，都只改一行就可以。
比如按照奇偶划分：

def partitionArray(self, nums):
    n = len(nums)
    i = -1

    for j in range(n):
        if nums[j] % 2 == 1:  # changed this line
            i = i + 1
            nums[i], nums[j] = nums[j], nums[i]

其实到这里本来是写完了，但是那天和同学吃饭的时候聊天，又让我意识到优雅写法不光只是优雅而已，有时候只能用它。同学出这题考我：

单链表排序能不能用快排？

我想了想，没有不能用的理由吧，就说能用。他说，不行，因为是单链表，所以不能用快排。我没反应过来，就问为什么单链表不能用快排？他很不解我居然提出这个问题，说你要移动左右两个指针啊，但是单链表你没法把右边的指针往左移动，所以没法用快排。

于是我瞬间懂了，他只知道快排可以用左右指针来写，却不知道另一种写法。原本我只是觉得第二种写法更优雅，没想到在不知道的情况下，居然会误认为单链表没法用快排。

不只是更优雅，而是更好。

MAY 16TH, 2015

PyCon2015 笔记

原本是知乎上的一个答案，现在挪到博客里来。

1. Type Hints - Guido van Rossum

视频：https://www.youtube.com/watch?v=2wDvzy6Hgxg
主要就是讲 PEP 484 - Type Hints，通过 typing 这个模块，从 3.5 版本开始，Python 也可以做静态检查了！（更新：实际上 3.5 里还不能做静态检查，只是加入了类型标记，参见What's New In Python 3.5）

2. Raymond Hettinger - Beyond PEP 8 -- Best practices for beautiful intelligible code

视频：https://www.youtube.com/watch?v=wf-BqAjZb8M
强烈推荐！Raymond Hettinger 的演讲适合所有层次的程序员看。这个演讲说的是，我们都知道用 PEP8 来规范 Python 代码，但是这样是否就够了呢？我们可能忽视了一件更重要的事：Pythonic！这个演讲举了几个例子，怎么 make code more pythonic，比如使用 context manager，使用 @property，使用 Adapter 包装已有代码让 import 更简洁。不过其中最神的我觉得还是通过定义 __len__ 和 __getitem__ 来构造一个 sequence，然后这个 sequence 自动就是 iterable 的，之前我一直以为必须通过定义 __iter__ 和 __next__ 方法构造 iterator 才能达到让类支持 for in 的效果。
这个演讲没有 slide，不过代码不多。

3. David Beazley - Modules and Packages: Live and Let Die!

视频：https://www.youtube.com/watch?v=0oTh1CXRaQ0
Slide: http://www.dabeaz.com/modulepackage/ModulePackage.pdf
代码：https://github.com/dabeaz/modulepackage
David Beazley 以前的视频我也看过几个，他的演讲最大特点就是 mind-blowing，会在短时间内让你意识到你根本就不会 Python！如果有人能在不查资料的情况下理解他的演讲的 50% 内容，那这个人绝对是 Python 高手。这次的视频也是一如既往得烧脑，讲的是和 import 相关的各种知识，因为之前写 ezcf 的缘故这次终于能看懂稍微多一点。。。实在不想介绍了，各位可以自己去看。
之前有人问 Python 里有哪些黑魔法。那个问题我没有答，我只想说 David Beazley 的每一个演讲都充斥着黑魔法。。。

4. Dan Crosta - Good Test, Bad Test

视频：https://www.youtube.com/watch?v=RfR_QRoNZxo
Slide：https://speakerdeck.com/dcrosta/good-test-bad-test
文章：http://late.am/post/2015/04/20/good-test-bad-test.html
关于测试质量的演讲，重点讲述了三个测试的误区：
(1) 过分追求 100% 覆盖率。他认为有些代码反而应该尽量避免去测试，比如依赖于网络上某个服务的代码。
(2) 使用过多 assert。他的建议是一个 test function 里面最好只有一个 assert。
(3) Mock 一定会让测试更好。在测试中用到了数据库，与其直接 mock 一个返回值，不如用简单的代码模拟数据库的工作流程。
第二条我觉得像只用一个 assert 在很多情况下并不方便，但是把 dict 的 assert 拆分成多个键值 assert 还是可以借鉴的。关于数据库的 mock，其实有很多工具可以使用，比如见过一个专门用来为单元测试生成假数据的第三方库，还有 Django 的测试自带测试数据库。

5. Raymond Hettinger - Super considered super!

视频：https://www.youtube.com/watch?v=EiOglTERPEo
Reddit 讨论：http://dwz.cn/1ns168
Raymond Hettinger 2 Hit！然而这不是最主要的，最重要的是 Raymond 去讲 super 了。没错，在写出著名的《Python’s super() considered super!》四年之后，Raymond 终于在 PyCon 上讲了这个主题。这个迟到了四年的演讲的内容除了文章里的那些，就是在逐条批驳《Python's Super Considered Harmful》里的观点，不过我之前并没有读过 Harmful 一文，等读了再来补充。

6. Ned Batchelder - Facts and Myths about Python names and values

视频：https://www.youtube.com/watch?v=_AEJHKGk9ns
Slide：http://nedbatchelder.com/text/names1.html
比较初学者向的 talk，解释了 Python 的 name 到底是什么。比较经典的几句话是：
Assignment never copies data
Mutable and immutable are assigned the same
Function arguments are assignments
前两句话的意思是，Python 的 assignment 做的事仅仅是把左边的 name refer 到右边的值，而右边给的值是什么，其实和这个 assignment 操作是没有关系的。
还有一个最佳实践，就是最好不要在函数中原地 modify 作为参数的 list，最好返回一个 new list 并在外面接收。
一个测试对 Python 了解程度的问题：a = []，a += [1] 是否等价于 a = a + [1]。答案是否。

7. Brett Slatkin - How to Be More Effective with Functions

视频：https://www.youtube.com/watch?v=WjJUPxKB164
Slide：http://www.onebigfluke.com/2015/04/how-to-be-more-effective-with-functions.html
虽然题目是讲 Function，不过核心内容却是在说 iterator 和 generator，以及卖书。。。 Brett 提倡尽可能不 return list，而是 return generator。说到 iter(iter(some_list)) 其实和 iter(some_list) 返回一样的结果，也就是同一个 iterator。
然后就是讲了一个使用 iterator 时经常会碰到的问题：一个 iterator 被 exhaust 之后，再遍历就没东西了。他提出的解决方案是：
1. 如果要多次遍历一个 iterator，假定叫 it，使用 if iter(it) is iter(it): raise xxx 来防止问题发生；
2. 当然光有1还不行，他提出使用“generator container”，说白了就是自定义 __iter__，比如

class LoadCities(object):

    def __init__(self, path):
        self.path = path

    def __iter__(self):
        with open(self.path) as handle:
            for line in handle:
                city, count = line.split('\t')
                yield city, int(count)

然后用 for x in LoadCities('pop.tsv') 来遍历。因为每次是返回一个新的 iterator，所以不会出现之前的问题。不过其实吧，用 itertools.tee 可能更简单点。

← Newer Blog Archives Older →