论坛全局菜单下方 - TICKMILL 285X70论坛全局菜单下方 - ThinkMarkets285X70论坛全局菜单下方 - 荔枝返现285X70论坛全局菜单下方 -  icmarkets285X70
查看:3510回复:11
trending
注册时间2003-11-03
[转帖]数据挖掘介绍
楼主发表于:2004-05-03 17:38只看该作者倒序浏览
1楼 电梯直达
电梯直达
数据挖掘介绍 作者:赵民德 发表:2003.01.24 10:29:04 来源:中国计算机用户-赛迪网 数据挖掘的缘起   什么叫Data Mining?关于定义,各人的说法不一。基本上我们可以用一个例子讲清楚:先给你一个大的数据集──假设你可以从中读取数据,下面的问题是:从这里你可以得到什么?从某种角度来看,这是百分之百的统计分析工作,只是数据集太多的缘故罢了。但我们并不想忘记这些数据集是做 IT 的人这么多年来逐渐制造出来的,更何况他们对于如何有效而快速地存储、选取和管理数据,确是有一套真功夫。在 IT 的骨架上把统计的精髓放进去,这的确是对现在这个信息时代的大挑战。   时代变了,现在的数据来得既多又快还便宜,多到没有人有时间去看的程度。这就如同我们的医疗体系。早先的医生还要望闻问切,在少量的数据中,设法提取、组合出最好的治疗方案。现在则是一个名医,一上午要在门诊医治一百五十个病人以上。他只能凭某种算法、也就是经验来看病:问一两个问题,听一两个问题,然后开药。这种对数据的不同的处理方式是数据挖掘和传统的数据分析的主要区别。   说实在的,我们已经在某些方面具有相当的信息化程度了。你去任何一家医院看病,哪一个窗口没放着一台PC?医生暗示你可以离开的时候,值班的护士已经在她的 PC 上键入了许多你的资料。于是你直接可以去划价、取药,连下一次的预约也有人安排好了。前天,我去医院借了一张X光片,一位五十多岁的老职员用“一阳指”在键盘上一步一个“脚印”地敲了不知多久,才输入了该有的个人信息,然后大家就都松一口似地让计算机去跑,最后当然是拿到X光片。这时回顾身后,已排了一条长龙。   这种情况,也暗示着目前信息社会的一类尴尬问题:很多事情都还配不上如此快的计算机—老职员的手指速度固然配不上,我们做统计的人和现有的某些统计方法也配不上,甚至于很多统计观念恐怕也都配不上。于是 IT 的人就跳进来做了个项目:既然有了花大钱做出来的数据库,而且这么多年下来数据堆得满坑满谷,好歹要告诉出钱的老板“这有什么用”。于是,DM便应运而生了。    如何看待数据挖掘   数据挖掘是先有了数据才兴起的行业。我不想说“学问”,因为到现在为止,我好像都看不到大学问。数据挖掘能帮我做什么?不同的人有不同的看法,比较乐观的是Berry and Linoff (1997) 的说法:分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)。   这话说得太强,我不是那么地相信。因为这三者都是在既有的数据上做分析,在概念上应该并无本质区别,差别只是手上的数据集的大小和性质,因此,由方法的不同才有定义的不同。   较负面的理解来自Friedman (1997),他说:“Data mining is a commercial enterprise that seeks to mine the miners。(数据挖掘就是商业企业竭力去寻找挖掘者的过程。)”这句话有多少真实的成分,我并不清楚,但是酸味还是有一点的。在雅虎上键入“Data Mining”,立刻便找到一百五十多个网址。如果用Google 搜寻,它在0.34秒内就找到1,260,000项查询结果。这是在方法论都还没有成熟之前便已有大量商品充斥的情形。看起来真是商机无限。在另一方面,我却在文献上读到:“…… while I appreciate the importance of data mining, in practice the profit it brings has turned out to be surprisingly limited in many key businesses.(虽然我认可数据挖掘重要性,事实上,在很多关键的业务中,它所带来的利润已证明出奇有限。” (Kann 2000)   多半的数据库在建造时都另有目的,并不是设计来给大家挖掘的。上帝给我们大海,也许只是想给我们盐。现在盐的利润有限,大家就拼命去提炼铀,结果自然就不会十分理想。   我认为,比较中肯的是 Hand et al. (2000) 的说法:“Data mining is the process of seeking interesting or valuable information in large data bases.(数据挖掘是一种在大型数据库中寻找你感兴趣或是有价值信息的过程。)”    挖掘需要“用心看”   Demming (1943) 曾说过:“搜集数据的目的是为了行动。”这是在数据的搜集并不便宜的时候所说的话。现在要反过来看:已经有了一大堆数据,当初只是为了搜集而搜集──因为反正不贵,而且说不定某一天会有用─现在我们应该问,这些数据可以提供怎样的信息,能让数据的所有者采取何种有效的行动?我的意思是我们需要用心地去看这些数据。“用心看”有两个角度:整体和局部。   从整体看: 模型   从整体的角度来看一个数据集,是靠统计学里面的抽样方法就可以发挥得不错的。抽样的要点是细化──用一组较小的、容易处理的精选的数据来反映整体。在这里我们可以做一大堆传统的建模工作,但这里面最主要的观念是抽样。   例如 SAS 的Enterprise Miner软件中所构建出来的“表格”,就是全部数据的抽样所得。从抽样的观点来看,数据量再多也不是问题──它反而可使抽样理论更加简单。在数据库上抽样,成本低,且没有我们最头痛的non-response(无反应)问题。这一部分,可以说是所有我们想做的理论和方法都十分成熟, 只要找一群还不错的人,将这些已知的事物组合包装就好。在表格上做传统分析,最后的结果当然是一个可以用来描绘所有数据之间的关系的模型。   从局部看: 模式发现   从局部的角度来看数据挖掘,到目前为止,主要的目的是模式发现。这和我们常听到的模式识别颇有不同。用雷达找飞机的工作,算是后者──我们知道飞机是我们要找的对象。但是在数据挖掘中,我们在通常情况下并不知道我们要找的东西是什么。在技术上,这也不能通过抽样的方法来做。模式是数据的局部结构,在这一部分,数据挖掘强调的方法是算法。数据一多,光凭人力是不能完全解决问题的,我们只有靠明确的指令让计算机一个一个帮我们找。那么在这里,我们就完全用不上统计方法吗?也不尽然。在提取训练样本(training sample)的时候,我们是可以把实验设计的想法放进去的。   编者按:  数据挖掘应建立在联机分析处理(On Line Analytical Processing,OLAP)的数据环境基础之上,而数据仓库技术能够满足数据挖掘技术对数据环境的要求。它从OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据并进行处理。   
TK29帖子1楼右侧xm竖版广告90-240
个性签名

止损有没有?有!<br>目标有没有?没有!!

广告
TK30+TK31帖子一樓廣告
TK30+TK31帖子一樓廣告
trending
注册时间2003-11-03
楼主发表于:2004-05-03 17:40只看该作者
2楼
当今数据容量规模已经达到万亿字节(TB)的水平。过量的数据被人们称为信息爆炸,带来的挑战是:一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手;另一方面在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。那么,如何发现这些有用的知识,使之为管理决策和经营战略发展服务?计算机科学给出的最新回答是:数据挖掘(Data Mining)。   一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。支持大规模数据分析的方法和过程,选择或者建立一种适合数据挖掘应用的数据环境是数据挖掘研究的重要课题之一。    建立适合的数据环境   数据挖掘应建立在联机分析处理(On Line Analytical Processing,OLAP)的数据环境基础之上。数据挖掘对大量数据的探索式分析的起点是OLAP。数据挖掘需要对大量数据进行反复查询操作,关心数据存取方式的方便性与可操作性。   联机分析处理和传统的联机事务处理(On Line Transaction Processing, OLTP)是两种性质不同的数据处理方式。OLTP主要用来完成基础业务数据的增、删、改等操作,如民航订票系统、银行储蓄系统等等,对响应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性及效率。而OLAP应用是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。   目前,多数企业内部的数据状况是分散的,业务数据往往被存放在缺乏统一设计和管理的异构环境中,不易综合查询访问,而且还有大量的历史数据处于脱机状态,不能在线集中存储查询。数据挖掘在对这些数据进行分析前,必须对这些数据进行不同程度的整合和清理,这是数据挖掘的首要环节,但一般的OLTP系统的数据环境是不具备这种能力的。   因此,合理而科学的数据环境是确保数据挖掘有效和正确实施的基础和关键。它需要支持OLAP数据系统与OLTP数据系统的分离,需要服务于数据挖掘总体目标的数据再组织,需要有单独的数据分析和数据处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术产品。    数据仓库技术的引入   数据仓库技术能够满足数据挖掘技术对数据环境的要求。实际上,数据仓库技术所要研究和解决的问题就是从OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据,处理后为数据分析和管理决策提供应用服务。   公认的数据仓库概念是W.H.Inmon在《建立数据仓库》一书中提出的:数据仓库就是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。   数据仓库中的数据是面向主题的,它与传统数据库中的面向应用相对应。数据仓库的主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。它能够统一原始数据中的矛盾之处,还能够将原始数据结构从面向应用向面向主题转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的时间属性。   需要指出的是,数据仓库中的数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而原有的事务处理数据库在总体数据环境中承担的是日常基础业务的处理任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库大部分还是用关系数据库管理系统来管理其中的数据。   与关系数据库不同的是,数据仓库至今并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程特性,因而在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。   ◆ 数据的抽取   数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。   ◆ 数据的存储和管理   数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。   ◆数据的展现   在数据展现方面主要的方式有:   查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。    数据挖掘与数据仓库融合发展   数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。   数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。
trending
注册时间2003-11-03
楼主发表于:2004-05-25 16:53只看该作者
6楼
20世纪统计学的回顾与展望 20世纪统计学的回顾与展望 作者:张 南 关键词:统计学;信息科学;金融工程;极值统计学 一、20世纪统计学的发展 按照统计学科体系的基本原理与应用的不同,统计学可分为理论统计学与应用统计学两大类。理论统计学指的是统计学的数学性原理,也就是数理统计学,具有通用方法论的理学性质。应用统计学指的是基于理论统计学的基本原理,应用于各个领域的数据处理方法,统计解析方法及统计推测方法。其特征有二:一是其数理性原理为各研究领域通用;二是具有对应于某特定领域的特有的分析方法。比如经济统计学中的指数分析法,医药统计学中的生存解析法等。 理论统计学的基础理论在20世纪的20-30年代已经基本完成。其中由英国统计学家费舍(R.A.Fisher,1890-1962)所确立的统计推测理论,样本分布理论,试验计划法及F分布理论对奠定20世纪统计学的基础理论作出了很大的贡献。 40-50年代对统计学来说是分布理论的时代。以概率分布的形式成功地将各种随机现象的数量特征、性质加以归纳、描述。 60年代是分布偏差有效(Robust)推定理论盛行的时代。即采用古典的方法论成功地解决了概率分布的假定与实际数据分布偏离的问题。但是,其研究所假定的概率模型侧重于数学形式的完整可能,而对数据所遵从的概率分布的拟合准确性的考虑尚有欠缺。在以后的系统控制论中,分布偏差有效理论起到了很大的作用。 70年代可以认为是规范化线性模型的时代。自德国统计学家高斯(C.F.Gauss,1777一1855)创立误差与正态分布理论及最小二乘法以来,在70年代,从正态分布的假定,发展到将共变量的条件分布线性模型化。其方法论的核心是剔除正态性的假定,实现了包括从二项分布到咖码分布的规范线性化。此理论与概率随机过程理论相结合,促成了对医学数据可进行深入考察的生存解析法的产生。从分布的假定与数据的偏差这种关系来看,规范化线性模型理论与60年代的分布偏差有效理论是从不同的角度对推定统计量进行的研究。 80年代的前期侧重于渐进理论的研究,高次渐进性理论运用高等数学公式推导出了复杂的展开式,对高次渐进的有效性与充分性进行了探讨。以往很多都是固定模型的次元,在样本容量极限的条件下研究其确定的变动,结果失去了许多有用的信息。之后作为改进,在决定理论的结构中用有限的样本进行更为严密的考察。但由于理论设计忽视了分布模型与数据的吻合,出现了即使模型与实际的拟合受到影响也要一味追求模型近似的精确度等问题,使得为此所进行的较严密的计算并没有多大的实际意义。由此可见,如果数据的分布是在模型之外,单纯依靠数学性的推导是不能指望这种理论会有何应用价值的。在这一方面理论统计学有它的局限性,数理统计学所具有的本质弱点也正在于此。80年代后期统计学对计算机的利用引人瞩目,如数据模拟(Bootstrap),回归变量的推定等非参数估计的方法应运而生。与此同期可称为统计学一大成果的,还有通过运用在70年代开发出来的标准信息量,交差检验法,缩小法等,使得平滑化法的拟合有了很大的改进。 90年代对"复杂性"研究较为瞩目。这对90年代的一些技术性方法的研究起到了理论先导的作用。其中,特别是对马尔可夫链蒙特卡尔理论(Markov chain Monte Carlo:MCMC)的研究对建立可实际应用的统计模型开辟了广阔的前景。90年代以来,很多应用问题都存在着分析对象比较复杂与正确识别模型结构的困难。现在根据MCMC理论,通过使用专用统计软件进行MCMC模拟,可解决许多复杂性问题。此外,得益于MCMC理论的运用,使得贝叶斯(Bayes)统计得到了再度复兴,以往被认为不可能实施计算的统计方法变得是很轻而易举了。 另外,按照统计数据整理分析的不同阶段,统计学还区分为记述统计学(descriptive statistics)与推测统计学(inferential statistics)。从统计数据的收集整理这一统计记述过程来看,20世纪中记述统计学的最大功绩首推1953年创立的国际通用的国民收入帐户(A System of National Accounts and Supporting Tables,国民帐户体系及辅助表),及1968年的以国民收入帐户为主,包括了投入产出表,资金循环表,国民资产负债表,国际收支表的新SNA体系,以及1993年的更新概念,扩大兼容性,完善记述功能的改订SNA体系。作为统计学源流的17世纪德国国势学及英国政治算术的统计学思想在20世纪得到了极大的发展。
trending
注册时间2003-11-03
楼主发表于:2004-05-25 16:54只看该作者
4楼
在20世纪,如同经济统计学中产生了罗伦斯(Lorenz)曲线的计测方法,经济的时间序列分析方法,经济预测方法一样,应用于各个领域的应用统计学也有了长足的发展。但是,自90年代以来,随着信息科学的发展,统计学的应用环境发生了很大的变化,统计学受到了信息科学发展的影响,出现了许多依靠以往的统计学的理论所不能解决的新问题。比如,与遗传基因,环境,气象,金融等相关联的庞大数据的处理(将庞大数据压缩收集后取出有用信息的方法);信息社会中有关个人隐私的数据收集与个人隐私保护;计算机互连网的使用使得数据取得方式的改变;统计软件的普及所带来的对数据含意的不求甚解,导致脱离现实的统计模型的滥用等。 值得注意的是这些新出现的问题都是统计学外部环境发生了变化所带来的问题。这些问题并不能通过以往的统计学的理论框架解决,并不能通过单纯地设定数学假定,修改概率模型就可以得到数学性的解决。因此,20世纪以来基本成型的统计学的理论框架受到了新的挑战。 二、统计学与信息科学 统计学是处理数据的科学。教科书中的记述统计侧重数据的收集加工整理,而数理统计侧重数据处理的"科学性"。一般而言"科学"要求有客观性,再观性,普遍性。为表现这种科学性,研究者常喜欢用数学模型。因为数学比较简明,严谨,比较抽象。数理统计就运用数学工具,记述数据产生的过程,描述概率分布,进行推定,作假定检验,形成了一个比较完整的理论体系。 但是如上所述,数理统计学的基本理论框架产生于20世纪的20-30年代。当时所处理的数据也就是一张统计表上的少量数据。其目的在于如何从较少的数据中得到反映现象的数量特征。其后数理统计学急速发展,愈加严谨系统,愈加数学化了。但主要的作用还是处理数据。 计算机的发展使得比较复杂的数据计算变的简便了,成为统计计算的重要工具。当今,微机的普及,英特网的使用,使社会产生了很大的变革,使信息传递的质和量都发生了飞跃的变化。同时,由英特网所联接起来的微机,使得个人也能处理以往仅由国家和企业所控制的信息。计算机的功能已经大大超出了计算,更重要的是可以广泛大量地进行各种数据信息的检索处理。 在这种状况下对统计学的应用而言,一个常见的问题就是可利用数据量的显著增大。在有自动计测的计算机的地方,从工场的流水线到超级市场的收款机,都是直接连续地记录数据,数据的单位有时会超过兆亿,甚至兆兆亿。这与费舍时代的数据处理量相比较,原有统计学教科书的理论框架就不太适用了。比如在固定的模型中对超大样本条件下所进行的假设检验,都会得出被拒绝的结果。 从计算机中出现的大量数据中取得有用的信息被称之为数据挖掘(data mining)。在数据采集挖掘阶段,具有尽可能简捷地记述现象本质这种功能的模型还尚未被开发。更多的则是使用计算机运用各种手段进行大量的数据计算,从而取得有价值的信息。但是按照计算机的信息处理能力,除去计算功能之外,应该是可以将各种信息进行再分类的。这将是一个还有待开发的领域。 数据挖掘可认为是对迄今为止的非常精确化的统计模型的一个启示。作为一种语言,数学语言的缺陷在于过于抽象,很难记述比较复杂的社会现象。对用数学公式可以简捷地记述物理性的规律来说,处理人类社会这种较复杂的社会科学则多使用带有丰富含意的自然语言来记述。现在我们看到的社会经济现象的复杂性的因素越多,越是难以用数学模型近似描述,数学的用途是广泛有效的,但绝不是万能的。 因此,数据挖掘既然也是数据处理,统计学也就应该积极借鉴。借鉴的形式之一就是将以往的统计学数据处理的经验方法与数据采集挖掘相结合;另一种形式就是将计算机作为统计学的新的工具来使用,象在统计学中使用数学一样,要将以往只作为超级算盘使用的计算机,更加注意发挥其作为模式化(modeling)工具的作用。 最近一些统计方法及数据挖掘的手法以算法(algorithm)形式明确得以表现,具备客观性,再现性的特点。但还存在着普遍性的问题,以往的计算机程序并未考虑到这一点。在最近的软件设计工程学中已经考虑到将文字信息与数据处理一体化(object oriented),力图使其具有普遍性的模式。通过这些新方法的研究使用,计算机在统计学中将成为仅次于数学的基本工具。
trending
注册时间2003-11-03
楼主发表于:2004-05-25 16:55只看该作者
5楼
在以计算机为主体的信息产业发展中特别值得统计学注目的方法技术有,图形,画像的操作及人机对话(user interface),专家咨询系统(expert system),英特网的使用等。这些与统计学的研究有着密切的联系,具有未来科学的普遍性。其中,特别是英特网的使用。在以往的统计软件包中,数据解析的程序,执行程序的控制装置(CPU),解析的数据都是在同一计算机上实行。但现在由于英特网的使用,这些都是在不同的计算机上实行,而且有时它们散布在世界各个地方。在这种环境下,统计解析的软件包也要与英特网的使用相适应,要创造出积极利用英特网的统计解析环境。在21世纪的信息社会中,统计学将以新的形式得到更广泛的应用,而作为与信息社会相适应的统计解析环境的研究,将以"数据处理科学"的形式成为统计学的一个新的领域。 三、统计学与金融工程 金融工程属于交叉性学科,包括以下3个领域:(1)投资分析;(2)风险管理;(3)期货交易。其中投资分析与风险管理两个领域直接涉及到统计数据描述及推测统计学,期货交易部分主要是与数学有关的应用概率过程,应用概率微分方程式的研究领域,有时被称为数理金融,不论哪个领域,对各种分析对象都需要有与之相应的理论框架。从这种意义说,金融工程还需要经济学,传统的金融理论,金融制度的知识。 1.投资分析 投资分析的目的在于尽可能地提高投资收益,为此从可选择的投资资产中(股票,债权,包括外汇在内的外国证券),进行资产选择操作,在控制风险的同时追求收益的最大化。因此要用到运筹学中的最优化理论。在股价,汇率,利息等金融资产的变动现象大多是多次元的,统计学的方法应用很重要,其要点是: ①大量经过分组的数据; ②反复试验,寻找数据出现的频率。 但股价,汇率等的变动结构,由于追求收益及经济紧缩的变化,在分析期间一般都是不稳定的。 2.风险管理 风险管理的领域正是基于统计学的质量管理的思想建立起来的。企业或银行的财务结构受汇率,利息,股价的变动其资产价值也在不断变化,这就构成了市场风险。为了根据市场风险考察企业资产的价值变化,将企业的价值变化看作风险要素股价,汇率等变化的函数,描述其概率样本分布,推定其下限5%损失可能的金额。其中,即可用有关股价,汇率变化的模型,也可考虑因素相关的变化。最近,最大亏损值的概率分布研究受到关注,其中也在应用极端价格分布理论(extreme value)。有关银行的不良债权问题经常涉及到的BIS(国际结算银行)规定中,也要求按照上述方法计算企业资产价值变化下限5%的金额,规定企业要保留一定程度的自有资本。从这种意义而言,BIS的规定非常依赖于模型。由于企业资产价值的评估也必须以现价评估,所以不带价格的资产也要依靠模型评估。模型的应用越来越具有现实性,今后会计审计也要求助于统计学的知识。 最近,包括作为价格变动风险的市场风险在内,对信用风险的研究很活跃。其中,不仅是破产风险,由于信用降级变化所引起的债权等的价格变化或信贷利息的变化也成为分析的对象。 上述的投资分析及风险管理的统计性特点可概括为: 第一,将价格,利息等不确定因素数理模型化,这可使用伊藤的概率微分建立微分方程式求解。 第二,上述数理模型是概率随机过程,所以从数学角度作严密论证,且对金融的数理性结构加以数学性的整理(mathematical finance)。这与统计决策论相似。 第三,市场风险与信用风险的预测及管理。预测的结果不仅用来管理市场,而且用于投资的战略选择。为此需要建立数据库,数据取得的时效也变得很重要。这与统计的质量管理有相同点。 3.期货交易 期货交易的领域是理论水平较高并富于挑战性的领域,它包括金融资产组合理论与资产组合的实践(financial engineering)。许多问题常被从数学角度程序化。其领域的数学结构包括连续时间的马琴戈尔(Martinggales)概率过程,概率微分方程式,概率测度的变换公式,马琴戈尔(Martinggales)的表现定理等。其核心概念为无风险即无收益的所谓的无裁定性理论(nofreGlunch)。期货交易理论以1973年发表的布拉克与舒尔斯(Black & Scholes)的论文与莫顿(Merton)的论文为基础发展起来,以1981年的哈理荪与皮莱斯卡(Harrison & pliska)的概率程序理论得以规范,以1994年的斯卡舍米叶与德巴思(Scachermeiyer & Debbaen)的论文完成了其基础理论。在1997年莫顿(Merton)与舒尔斯(Scholes)获得诺贝尔经济学奖。在此领域中也有实用模型的规范化,假定模型的检验,参数推定等统计问题。
trending
注册时间2003-11-03
楼主发表于:2004-05-25 16:56只看该作者
3楼
现在金融工程对统计学提出了许多新的问题。大量的数据解析,数据采集挖掘,风险预测及决策分析会成为统计学的新的领域。统计学者观察数据,建立概率统计模型,推导出统计量,求出统计量的概率分布。这些方法应用到金融资产交易的操作中,则构成了金融工程方法论的基础。 四、极值统计学 统计学者中有研究总体中心分布(middle man)与边缘分布(tail man)这两类研究者。通常,统计学者主要研究母总体分布的中心部分。但极值统计学研究其分布两侧的山脚处(tail),只研究数据分布较少的上位与下位,探讨边缘分布向某点收敛的速度(heavy tail)。所涉及到的典型问题主要有:例如要建设较强固的防坡堤,为此从可利用的过去百年间的潮位观测数据,推测今后1万年间的最高潮位。还有要建造6米高的防坡堤时,需推测发生超过其高度的大潮的概率,根据其结果决定防坡堤的高度等。此类问题就是使用被给定数据的一部分,预测全体或某范围的数据的最大值。在工程学方面还可举出如下的例子。在水文学中预测今后100年最大的降水量;在腐蚀工程学中机器整体有可能发生的最大腐蚀程度;建筑工程学中的今后50年中的最大的风速,最大的地震强度。在保险学方面有预测发生支付最大的保险金额;环境问题中的污染物质的集中程度;从证券,汇率,利息的时间序列的变化进行分析平均收益及风险的金融工程等等。在欧美日有许多出色的学者在从事这方面的研究。这些问题用统计学的语言表述即为:从未知母总体中抽取部分数据推测其母总体分布非常接近1的概率分位点(quantile)。而要推定这个概率分位点必须进行数据的外插计算,这将是较困难的。为了解决这个问题,在极值统计学中设定了未知母总体分布属于某极值分布的吸引区域。 在20世纪30年代由费舍与逛皮特(Tippett,1928年)曾对独立同分布概率变量的最大值(极值统计量)的渐近分布(极值分布)进行过理论研究,发现了在极值分布中有逆威布尔分布(Weibull distribution,逆正态函数分布,常用于拟合机器及系统的寿命分布),康拜尔分布(Gumbel distribution,双重指数分布,遵从于同一分布的n个独立连续概率变量中最大值x的极限公布),及弗来舍分布(Frecher distribution,连续变量在某点收敛的分布)这三种等形式,以及观察到了属于正态分布的极值统计量向极值分布的收敛相当缓慢。其后由von Mises(1936)给出了分布函数属于极值分布吸引区域的充分条件。由此得知统计学教科书中常出现的连续型分布几乎都属于极值分布的吸引区域。比如均匀分布,贝塔分布属于逆威布尔分布的吸引区域;正态分布,威布尔分布,咖码分布,对数正态分布等属于康拜尔分布的吸引区域;而t分布,帕热图分布(Vilfredo Pareto,法国经济学家,提出极限收入分布)等则属于弗来舍分布吸引区域。 50年代极值理论的研究有了很大的进展。通常是选取一年中某时期或某领域的最大值进行研究,将取得的极值数据按照上述三种极值分布模式拟合,推测其参数。但极值数据适合于何种形式的极值分布事先很难确定,因此在1950年以英国的统计学者为主展开了以一种形式表现三种类型极值分布的一般极值分布的数据解析研究。60年代开始了2变量的极值分布研究以及对具有从属性概率过程的极值统计量的渐进分布研究。 但是,从大量数据中仅选用极值会舍弃掉其他数据所具有的有价值的信息。因此,在水文学中出现了不是使用极值而是选取某界限以上的数据分析的方法。此方法称为POT(peaks over threshold)手法。根据指数分布可近似知道某界限值以上的数据分布。对此加以理论证明的是由巴克曼与哈曼(Balkeman=Haan,1974),还有皮堪德(Pickands,1975)所发现的一般帕热图分布。即分布函数之所以属于一般极值分布(逆威布尔分布,康拜尔分布,弗来舍分布)的吸引区域,就在于分布两侧的山脚部分的数值可用一般帕热图分布(贝塔分布,指数分布,帕热图分布)近似取得。以后,根据一般帕热图分布所进行的数据解析就成为极值理论的主流。在70年代末期至80年代中期,一般多变量极值分布的结构也得以明确。另外,由Galambos(1978,1987)与Leadbetter等(1983)的著作对极值理论的概率论方面作了介绍,理论方面的研究引人注目。 但遗憾的是,由于大多数统计学者的注意力集中在对研究总体中央分布的研究,以及少数统计学者往往侧重在对极值统计学的理论研究,所以极值理论在应用方面的研究还是很不够的。目前以欧美的学者为主组成各个研究小组,正在运用极值理论对水文学,环境保护,自然灾害,异常气象,可靠性工程,保险数学,金融工程等有特色的应用领域展开研究。 五、对21世纪统计学的展望 面向21世纪的信息社会,仅有理学性质的理论研究是不能解决实际问题的。应用于经济管理中的统计学,与以往被按照研究对象或研究方法分门别类的经济学,管理学,计算机科学互相渗透,互相结合。特别是随着信息科学的进步,统计应用的范围越来越广。统计数据的计算变的简单了,但根据研究对象的不同,数据处理及数据采集挖掘的方法呈现出多样化,统计分析方法也相对复杂化,专业化。统计学的应用不仅要不断提高理论统计学的基本素质,还要注重掌握经济学的理论,金融交易制度及金融理论,管理科学的理论与计算机的技术方法。统计理论与应用的紧密结合显得比以往任何一个时期都更为迫切,更加重要。 原美国统计学会会长伯克斯(G.E.P.Box)在他的学术报告(JASA,1979,Vol.74)中曾经指出:以往统计学者的分布表现为一边是以研究统计理论为主的统计学者,另一边是以研究统计应用为主的统计学者,即呈现出中间结合部分偏低较薄弱的双峰分布。但理想的分布应是中央部分较高较宽厚的分布,即以统计理论与统计应用相结合为主所构成的单峰分布。此话可谓较精辟地概括了20世纪统计学的现状及问题,值得统计学者的深思。 纵观20世纪统计学的发展,统计数据收集与使用的客观环境发生了很大的变化,特别是通过计算机与英特网的使用,数据的收集存储,信息交换的客观条件有了质的变化,现代社会所表现出的数据在它的容量规模,次元,对时空的依存性,不完全性,不均一性,复杂性及相关性等等,均与以往完全不同。社会经济的多元化,金融交易的多样化,国际市场间资本移动的迅猛,以及电子商务的出现,甚至对我们的日常生活产生影响。在这种变化中,21世纪的统计学理论应怎样更新?统计学的应用应该如何发展?统计理论的基本框架已经形成的时代背景与当今计算机大量普及的现实落差如何调和?这些应该是21世纪统计理论研究与应用的一个重大的课题。
个性签名

止损有没有?有!<br>目标有没有?没有!!

williamke
注册时间2003-02-10
发表于:2004-06-03 13:44只看该作者
7楼
呵呵,今年系统分析员考试相关的题目:-)
doctor
注册时间2004-08-22
发表于:2004-08-30 03:26只看该作者
8楼
如果能考一个系分,银子就多了啊。
alsosky
注册时间2003-12-05
发表于:2004-09-05 06:58只看该作者
10楼
伙伴[em44]
3www
注册时间2004-08-29
快乐投资奖
发表于:2004-11-08 08:27只看该作者
12楼
[em5]
个性签名

No.1 Control yourself, Control=Win Money

本站免责声明:

1、本站所有广告及宣传信息均与韬客无关,如需投资请依法自行决定是否投资、斟酌资金安全及交易亏损风险;

2、韬客是独立的、仅为投资者提供交流的平台,网友发布信息不代表韬客的观点与意思表示,所有因网友发布的信息而造成的任何法律后果、风险与责任,均与韬客无关;

3、金融交易存在极高法律风险,未必适合所有投资者,请不要轻信任何高额投资收益的诱导而贸然投资;投资保证金交易导致的损失可能超过您投入的资金和预期。请您考虑自身的投资经验及风险承担能力,进行合法、理性投资;

4、所有投资者的交易帐户应仅限本人使用,不应交由第三方操作,对于任何接受第三方喊单、操盘、理财等操作的投资和交易,由此导致的任何风险、亏损及责任由投资者个人自行承担;

5、韬客不隶属于任何券商平台,亦不受任何第三方控制,韬客不邀约客户投资任何保证金交易,不接触亦不涉及投资者的任何资金及账户信息,不代理任何交易操盘行为,不向客户推荐任何券商平台,亦不存在其他任何推荐行为。投资者应自行选择券商平台,券商平台的任何行为均与韬客无关。投资者注册及使用韬客即表示其接受和认可上述声明,并自行承担法律风险。

版权所有:韬客外汇论坛 www.talkfx.com 联络我们:[email protected]