关键词不能为空

当前您在: 主页 > 高中公式大全 >

土的比重公式信息熵的表示和计算

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2020-10-03 08:46
tags:信息熵公式

四时田园杂兴其二-大数据技术与应用专业

2020年10月3日发(作者:莫俦)
实验一 信息熵的表示和计算

(实验估计时间:120 分钟)
1.1.1 背景知识
信息熵是美国贝尔实验室数学家仙侬(SHANNON)在1948年 他的通讯数学理
论那篇文章中首先提出的. 仙侬也因此获得了现代信息通讯技术之父的美称.
他对信息通讯的贡献可以说是对世纪进入信息时代奠定了最重要的基础理论.
要简单说信息 熵(ENTROPY)的概念很不容易,不过你只要把它看做是信息的
一种数量化的衡量尺度就八九不离 十了. 就象世界原来并没有时间这个东西,但
是处于测度生命和运动过程的需要,人们发明了时间的概 念.同样,信息原本并没
有测度标准,但是出于衡量信息传递量和速度的需要,仙侬先生发明了对于信息
的一个度量方法,这就是信息熵,它的单位是BIT.
为什么用BIT? 因为在二次大战 结束后,世界通讯领域发展很快,电报,电话,
电传等普及了,而这些以电脉冲为信号载体的设备的最基 本的结构就是只具有两
种状态的开关(继电器). 所以二进制的通讯信号已经是最普及的信息通讯编码
方式,以它作为信息的测度尺寸也是最自然的选择.
以英文为例看如何计算信息熵. 我们都知道英文使用26个字母,如果我们
把字母在所传输信 息中出现的频率看做是随机的,而且具有同样的概率. 那么要
传输26个字母中的任何一个就至少需要 4个多BIT才够(4位最大是16个,5位
最大是32个,26个字母介于两者之间). 当然,每个字母在传输信息中出现的概
率不可能一样,比如 A是116; B是113; ...Z是 1126;(它们的和是1),那么
通过计算可以得出英文的信息熵是4.03(根据参考文章介绍的数 据). 2
n
= X;
其中 X 就是传输信息所需要的字符集的大小减去它的冗余度.
公式: H(信息熵) = -∑ P
i
log
2
(P
i
); P
i
:为每个字母在信息中出现的概率;
计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2
n
= X 的
话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度
后的二进制编码位数.冗余度是通过 统计每个字符出现概率获得的。

小知识
冯志伟先生将仙侬的信息熵的计算用于 非拼音的汉字字符集的信息熵的计
算,这是一项工作量很大的任务.因为我们都知道,汉字的字符集很大 ,常用的有
6-7000个,当然随着字符集的扩大,每个汉字出现的概率是不同的,有些罕用字
的出现概率几乎是零.他们计算出的结果是9.3X. 这个测度的结论说明汉字在
去掉冗余后,最短的信息传输字位需要9.3个BIT.

英文的信息熵是4.03,而计算机最初设计时的ASCII码是8位的,留有足够
的空间. 那末如果当初是为汉字设计计算机的话,就至少需要留有18位,二个字
节多. 这是一个什么成本概念? 在计算机研制的初期,总线宽度,内存大小可都
是可以和黄金比的价格,更不 要提设计的复杂程度的增加和早期集成度能否实现
的问题了. 单是这一点就可以推论出使用汉字的人是不可能发明或创造计算机
的.

现在再回到我们上面题目中的问题,信息熵的概念适用于汉字吗? 仙侬计算
公式中的第一个假 设就是字符在信息中出现的概率是随机的,而汉字在信息中出
现频率是否是随机的呢? 这个问题就决定了汉字最后的计算结果. 因为我们通
过上面的计算公式可以知道,如果每个汉字出现的 频率不是随机的,比如说是均
等的(一个极端情况),那么汉字的信息熵就会出现最大值并随着汉字的字 数的增
加而增加. 因为我们完全可以根据题目不同或作者的不同,而写出使用不同汉字
字数的文章. 汉字的信息出现是随人的表达需求而变的,不是随机的,因为每一
个汉字都它的意义.
26 个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字
母的信息熵是4.03BI T. 然而6000个汉字的平均出现时的信息熵是12.55BIT,
当使用7000个平均出现的汉 字是汉字的信息熵是12.77BIT,至于使用的汉字个
数达到冯先生计算的12366个极限汉字时 的信息熵是13.59,它们和使用概率计
算的结果9.3相差太悬殊(和英文比起来).所以如何统计 每个汉字的出现概率成
了最后决定汉字信息熵的最大因素. 而每个汉字的出现概率又是如此的主观(或
因人而异). 我对9.3的结果持某种怀疑。


1.1.2 实验目的
(1)掌握信息熵的基本概念。
(2)以学生评教数据的分析为例,学会用信息熵的知识处理教育中的实际问题。
1.1.3 工具准备工作
1. 学生评教数据分析思路。
学生评教是教师教学评价的重要组成部分,很 多学校为了使评价结果更科
学、更能表现教师真实的教学水平,根据学校自身情况,选用更适合的测量参 照标
准,如目标参照标准(以某些具体目标作为评定标准);常模参照标准(以某一研究
对象的 集体平均水平作为评定的标准) ,自我参照标准(以研究对象自身在某一
时期或状态的特征作为评定标 准)。然而,无论教师教学评价采用哪种测量标准,
反馈给教师的往往只是一个依据某个测量标准的评定 分数,该分数不能将评价结
果所隐含的更详细、更明确的信息表现出来,比如分数相同的两位教师的教学 水
平差异;教学哪个方面还存在问题,问题的具体原因所在等。
请你自己设计方案,利用信息 熵的单峰性,对称性,确定性等性质,深入分析
学生评教的评价结果,目的是在为教师管理提供更科学、 可靠依据的同时,帮助
教师发现教学中的问题,剖析问题的具体原因,以便教师改进教学,提高教学水< br>平。

2. 准备足够的学生评教原始数据。

1.1.4 实验内容与步骤
1. 整理学生评教原始数据。(至少选择两位教师分别整理)
2. 计算总分和各评价指标的单项总分。
3. 分别计算总分值的概率、各分值出现的概率。
4. 利用概率,分别计算相关信息熵,并与相应分数结合,比较两位
教师的数据,分析得出结论。

分析过程的参考理论知识:
(1) 确定性。熵的大小表示了概率系统的不确定程度。信息熵 越大,说明学
生对教师在某个评价指标上的评价越分散,越不确定;相反,信息熵越小,
说明学 生对教师的评价越一致,信息越确定。
(2) 单峰性与对称性。对于一个被评价教师来说,在每条评 价指标的十个量
度中,如果所有学生均选择了其中一个度量,无论选择的是哪个度量,说
明选择 某一度量的概率为1,而其他量度的概率为0,由熵的定义表达式
可知,此时信息熵H = 0,表明学生对教师在该项指标上的评价是一致
的。而当学生选择十个量度的概率相同时,信息熵(H = log
2
10)为最大
值,此时表明学生在对教师该项指标的评价上,分歧很大 。此种情形,信
息熵取得唯一的极值。另外,评价量度位置的互换并不会影响学生对教
师的评价 结果。信息熵的值仅与学生对教师评价量度的概率有关,由信
息熵的定义表达式不难推知,信息熵具有对 称性。
(3) 可加性。由于0 ≤p
i
≤1,所以每一事件(量度)发生所传达的信息量:
H
i
= - log
2
p
i
≥0, 则信息熵H = - p
i
log
2
p
i
≥0。因此,信
息熵具有可加性。信息熵之和,同 样具有信息熵的各种性质。可以通过
熵值分析向教师及管理者提供某些指导性信息。
(4) 在应用信息熵分析学生评价结果时,必须以简单总分作参照。设参与每
位教师评价的学生为n,学生评教 量表总评价指标数为m,评价体系包
括t个方面,一级评价指标下的二级指标条目分别为c
t< br>(m = c
1
+ c
2
+
…+ c
t
);学生i对二级评价指标j的评分记为P
ij
(1≤i≤n, 1≤j≤
m,);将学生所评价教师记为v 。所谓简单记分,是指学生对教师v的
评价量度的相应简单记分的算术平均分,它包括三个层次: (1)总分简
单记分(记为U) ,即学生对教师v评价总分的算术平均分为
; (2)单方面简单记分(记为T) ,即学生就一级指标t
对同一教师进行评价,将教师v在该一级指标 下每个二级评价指标的算
术平均分为,(此时,0t
)(3)单项指标简单记
分(记为S) ,即全体学生在二级指标j上对教师v的评价等级的相应赋值分的算术平均分为。简单记分可以从直观上看出学生
对某个教师的总体评价情况,在某种程度上可 以反映被评价教师的教学
水平,但简单记分也忽略了很多详细的反馈信息。
各层次的简单记分 及各种信息熵的功能不同,因此应用信息熵于学
生评教结果分析时,也应从总信息熵,单方面信息熵,及 单项指标信息熵
入手对教师评价的结果进行深入分析,从而为教师管理提供更科学的依
据,为教 师提高教学提供更详细的评价反馈信息。学生评教结束后,为教
师及管理者及时反馈评价结果的同时,还 应为教师和管理者提供信息熵
附加分,来表示学生评价的一致度。
5. 完成实验报告,记录实验步骤、数据和分析过程、结论。


1.1.5 实验总结
本次实验完成后,写出你自己的心得体会等总结。
告后面)
(写在实验报

如何培养孩子注意力-物流工程


博士古义-重庆邮电大学录取分数线


which的用法-激光治近视


英语语言文学-一周有七天用英语怎么说


改革开放的变化-武汉工业大学商贸学院


learn的过去式-曹操的短歌行


祝福宝贝成长唯美句子-国的结构


忧心忡忡-出国留学的利弊



本文更新与2020-10-03 08:46,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/409576.html

信息熵的表示和计算的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文