备注

本文为作者对在先发表的论文进行通俗化和趣味化改写而成,原文可见杨敏锋:《论作品独创性的数学计算模型》,《知识产权》2018年第8期。修改版首发于“知产力”微信公众号,2018年9月14日。

摘要:作品可看作由多个独立的意思表达单元“元素”组成的集合,其独创性等于该集合中元素排列组合数()与各元素的表达方式连续相乘()的积()。

关键词:独创性、定量分析、数学模型

一、独创性的定量分析

在著作权制度中,“独创性”无疑是一个极为重要而又难以精确判断的概念。独创性是获得著作权保护的必要条件,缺乏独创性会被排除在保护范围之外。顾名思义,独创性包含了“独立创作、源于本人”和含有“一定水准的智力创造高度”两个要件。[1]不过,《著作权法》及其实施条例以及相关司法解释,都没有对“独创性”的判断标准作出明确界定。在独创性的分析中,理论上应当涉及到两个问题,即有没有独创性,以及独创性到底有多少。前一个问题涉及的是定性问题,而后一个问题则涉及的是定量问题。

在日常生活中,我们对定性和定量问题的探讨极为常见。如恋爱中的年轻女孩,往往都会问男友两个问题:“你爱我吗”以及“你会爱我多久”?前一个问题属于对“爱”的定性讨论,理论上有肯定和否定两种回答,但实际上明显只有一种。后一个问题则是定量判断,需要给出一个确切的数值,如“一千年”“一万年”“海枯石烂”之类。——按照目前人类的预期寿命,这点其实也无法做到。

在著作权司法实践中,法院认可独创性有高低之分,并且认为独创性的高度和作品的保护程度密切相关,独创性高的作品,应当受到更强的保护。[2]不过,法院并没有给出判断独创性高低的统一指引,而是根据不同的案情发展出了多种不同的规则。如美国在实践中发展出了“抽象概括法”[3]“减除测试法”[4]以及“抽象-过滤-对比测试法”[5]等适用于不同种类作品的诸多判断规则。

不过,既然表达方式唯一或者有限则不具备独创性,那反过来说,如果表达方式有成千上万种,那就应当具有独创性。为此,一个简单的推论就是,在判断独创性大小的时候,其本质就是计算表达方式的具体数量。以最为常见的文学作品为例,本文认为,如果将其中最为基本的意思表达单元称之为“元素”,则该作品的表达方式数量就取决于作者选择了哪些元素、元素的排列方式以及各个元素具体的表达方式。下文将对此逐一进行阐述。

二、具体元素的筛选

具体元素的筛选属于最容易被公众所忽略的部分。读者所看到的是一部已经完成的作品,往往不会注意到作者在创作过程中对各种元素的取舍。作品好比是一座浮在水面上的冰山,大家看到的只有露出水面的那一小部分,隐藏在水底下的巨大冰体却很难引起大家的注意。

以文学作品中最常见的人物描写为例,其描述对象主要分为外貌、语言、动作和心理4大部分,其中外貌描写又可以分为容貌、神情、服饰、动作、形态等部分。在描写一个具体人物时,作者并不会涉及上述全部内容,而是会选择其中最能代表该人物的那些特性来展开描写。

假定外貌描写中共有20种不同的元素,而作者从中选择了10种。根据数学中的组合数理论,选择第一个元素时有20种选择,第二个元素为19种,依次类推,第10个元素为11种。在10个元素选定后,它们之间还有不同的排列顺序,但在此时先不用考虑,故还需要除以10个元素所有的可能的排列方式。在选出的这10个元素具体的排列数量上,第一位有10种可能,第二位有9种可能,依次类推,最后一位只有1种可能。综上,作者可以采用的元素组合为:

该数值的大小相信会让大部分读者大吃一惊,但计算结果就是如此。如果用数学符号来表示,就是“”,其中C指的是组合数((combinatorial number)),指的是从n个元素中选择出m个元素的所有组合的数量。

在元素的筛选过程中,有的时候会遇到必须被选上的“关系户”,也就是所谓的“必要场景”。必要场景指的是在���写到某个主题的时候必然会提到的内容,如描写文革的作品,往往都会提及上山下乡、忠字舞、红卫兵、大字报等元素。“关系户”存在,会让作者选择元素的余地大为缩水。

在20个元素中选择10个,好比是20户居民参加10套房子的摇号。按照前面的计算方式,可能出现的结果共有184,756种,每户居民中签的概率都是50%。不过,如果其中5套房子被5个关系户内定,那结果就变成了15户“草民”争夺剩下的5个名额。此时,每个草民的中签概率降低到33.33%,可能出现的结果为变为,其值为3003,仅为原来的1.625%。这个结果也容易理解,此时关系户一个都不中,或者只中1~4个的情形都已经被排除,故最后结果的数量必然会显著下降。由于“必要场景”这个“关系户”并不影响表达的数量,故在著作权侵权案件中,会将属于必要场景的内容排除在外。

三、元素的排列顺序

在前文的分析中,我们并未考虑元素排列顺序的问题,但在作品中,元素的排列顺序也属于不可或缺的元素。在前文的例子中考虑排列顺序,那分母中的10的阶乘(用数学符号表示就是“10!”)就不必要扣除。根据数学计算可知,“1×2×3……×10”的结果是362.88万。

这个数字相信又会让很多人大跌眼镜,但数学结算的结果不容置疑。元素数量虽少,但只要排列的顺序够多,那最后的结果完全可以非常庞大。小时候我们玩的七巧板就是这样的一个例子。七巧板只有7块拼版,但由于排列的方式多种多样,故可以组合出成百上千种不同的图形。

在数学中,M个元素进行全排列的结果用“”来表示。排序数量的数学规律也显示,元素数量只要有微小的变化,最后的结果会呈现指数级的放大。如果元素数量只有5个,则全排列的数量为120种;元素增加到10个,则为362.88万;加到20个,结果则高达2.433×1018,也就是243.3亿亿。中国的人口大致有13.86亿,如果将243.3亿亿元人民币平均分配给大家,则每人可以获得17.55亿元。就算是王健林这样的土豪,也足够完成17个小目标。

当然,在文学作品中,元素的排列顺序要受到语法限制,其结果远小于数学理论值。不过在符合语法的情况下,变换元素排列顺序而导致结果大相径庭也很常见。假定有这样一个场景:在楼梯口,某年轻人看到一位老大爷吃力的拎着一个箱子,于是上前帮忙。我们比较下年轻人这两句话的沟通效果:

(1)老大爷,东西我帮你拿。

(2)老东西,大爷我帮你拿。

前一句是助人为乐的社会主义好青年,后一句则变成了毫无教养的小流氓。在这两句话中,交换了“大爷”和“东西”的顺序,沟通效果完全不同。这就是元素排列顺序所带来的“威力”。

又比如,大家对下面这道小学语文题应当都是耳熟能详:

【题目要求】使用适当的连接词,将下列词语组合成一句句子:张姐姐、瘫痪、顽强学习、学会多门外语、学会针灸

【标准答案】张姐姐虽然瘫痪了,但顽强地学习,不仅学会了多门外语,而且还学会了针灸。

脑洞大开的孩子则给出了下面这两个答案:

(1)虽然张姐姐顽强学习,学会了针灸和多门外语,可她还是瘫痪了。

(2)张姐姐学会了外语,还学会了针灸,她顽强地学习,终于瘫痪了!

在变换了各个元素的顺序之后,句子所表达出来的意思截然不同。标准答案宣扬的是一位身残志坚的模范青年,而孩子们则将其恶搞成了学习过度而导致残疾的悲伤故事。

在文学作品中,这种排列顺序上的选择体现为情节结构、逻辑顺序等方面。在琼瑶诉于正案中,法院就明确指出,“文学作品中,情节的前后衔接、逻辑顺序将全部情节紧密贯穿为完整的个性化表达,这种足够具体的人物设置、情节结构、内在逻辑关系的有机结合体可以成为著作权法保护的表达。”[6]

四、元素本身的表达数量

元素本身的表达数量就是大家所熟悉的“思想表达二分法”中的表达,不过表达的数量所存在的内在规律也容易被大家忽视。以少女钟灵在《天龙八部》第一章中出场的描写为例,金庸先生给出的具体描述如下:

那少女约莫十六七岁年纪,一身青衫,笑靥如花,手中握着十来条尺许长小蛇。

在本描写中,大家没有必要去追究一些次要的细节。少女手中抓着十来条小蛇无疑会给人一种蛇发女妖美杜莎的既视感,画面太美不敢想象。我们只要注意到,这里的外貌描写涉及到了年龄、服饰、表情以及动作4个元素。

在这4个元素中,每个元素都存在多种可供选择的表达。在不改变原文主要信息的前提下,前述元素还可以表达为“二八年华”“一袭天青色衣衫”“笑意盈盈”以及“十来条尺许长小蛇在手中不停扭动”。假定每个元素都有20种表达方式,则4个元素的总表达方式就是“20×20×20×20”,共计16万种。事实上,如果是一个训练有素的写手,每个元素写出100中不同的表达方式也不在话下。

由于句子的表达数量为每个元素(Xi)表达数量连续相乘的积,用数学公式表示即为“”。即使每个元素的数量都很小,只要元素的数量足够多,那最后得到的结果也极为庞大。

以“全国专利代理人资格考试”为例,其卷一和卷二各为100道选择题。考虑到解析的内容受到题目的严格限制,故这里也假定每道真题仅存在2种解析。此时,100道真题的解析共存在2100种表达方式,也就是1.268×1030。

目前,全球人口总数为74亿,如果每人每秒钟发1万元人民币,则1.268×1030元人民币需要发5.432亿年。在5.432亿年前,地球处于寒武纪时期,正是三叶虫繁盛的时代,高等生命完全没个影儿。

如果我们有魄力一点,每人每秒钟发1亿元人民币,则需要发5.432万年。中国的历史也就上下五千年,五万年人类社会还处于旧石器时代末期,能够掌握的典型工具也就是梭镖。

另外需要强调的是,在实践中,表达方式的数量远比我们想象的要多,如以专利代理人资格考试2012年相关法第3题为例,其题目如下:

根据民法通则及相关规定,下列哪种情形存在不当得利?

A、某地新建一公园,使得刘某在该公园周边的房屋大幅升值

B、银行工作人员因失误多给了孙某100元钱

C、赵某的朋友自愿替其偿还1万元债务

D、丁某在垃圾箱中捡到1台废弃的电脑

兄弟我给出的解析为:工作人员的失误属于不当得利。

从表面上看,似乎可以存在的解析也就一两种,但仅是在保留原有解析结构的前提下,对其中的各个元素进行适当的改变,可以轻易给出27(3×3×3)种不同的表达,如下表所示。

主语

动作

判断

(1)工作人员,(2)银行工作人员,(3)银行员工

(1)的失误,(2)失误多给孙某钱,(3)失误多给孙某100元钱

(1)属于不当得利,(2)构成不当得利,(3)属于不当得利的范畴

3种

3种

3种

从该范例可以明显看出,表达方式的多样性远比我们想象的要多。如果是原封不动的复制,则很难逃脱侵权之责。当然,如果行为人对部分元素进行改写,则侵权的可能性就会显著下降。

作品的保护范围与其独创性相关,独创性越高的作品,受到的保护越高。在众多涉及到“创意与形式之争”的著作权侵权案件中,可以说“借鉴与剽窃,只在一线间”。[7]不过,如果是属于原封不动复制的“低级抄袭”,那试图通过主张涉案作品不具有独创性来进行抗辩恐怕很难成功。

五、独创性的数学计算模型

综合考虑前文提及的因素,计算表达独创性(Originality,下文简称为O)的数学公式就是:

其中,“”代表M个元素之间可能的全部排列顺序,“”代表不考虑元素排列顺序时,从n个元素中选择m个元素的组合数。“”为连乘符号,代表将所有Xi进行连续相乘的积,即X1×X2×X3×X4×……Xm。考虑到具体案例中,有些元素的顺序是固定的,不能随意变动,M和m的值不一定相同,故本文不将“”和“”合并为排列数(Array number)“”。

从上述公式可以明显看出,元素的数量每增加一个,对排列、组合以及表达这三个要素的数量都会产生影响,且“加速度”越来越大,最终形成类似铀元素裂变般的“链式反应”。

在侵权判断中,考虑的是双方在扣除公有领域的内容后,双方所余下的内容共同之处。如果某人抄袭了一个作者所独创的100处内容,则很容易构成侵权。不过,如果这100个内容来自于100个不同的作者,那情况就会发生实质性变化。作者不同,不能将独创性值相乘,故不容易构成侵权。为了织一件羊绒衫,从100只山羊身上各薅一把羊毛尚可接受,照着一只羊死命薅则是另外一回事。

即使单个元素的独创性较低,但使用数量过多,导致在后作品成为在先作品的替代,无疑会损害在先作者的利益。单个元素的创新虽小,但不积跬步,无以至千里。