回 帖 发 新 帖 刷新版面

主题:32位的float的数值范围

C语言编译系统是将实数的(bit)数分给小数部分和指数部分。来确定实数的精度和范围。
小数部分来表示精度。而指数部分是用来确定范围的。
float 32(4个字节) 有效位数是6~7位。
请问数值的范围是?

回复列表 (共6个回复)

沙发

假设X为7位精确度的32位浮点数,则X的取值范围为:
1.18*10^-38 < |X| < 3.40*10^38

板凳

怎么算的,能详细的介绍一下,好吗 ?

3 楼

呵呵,不好意思,这个范围我是从C++ Builder 的帮助里抄下来的。至于是怎么算出来的,这需要你知道浮点数的存储格式,基于版面的原因,不能在这里给出有关的资料。不过如果你有兴趣,可以去找一本“微机原理”之类的书来看,要找讲有数据的机内表示方式的那种。如果找不到合适的书,还可以在网上找找HelpPC 这个软件,那里面有相关资料。

4 楼

摘自TC2.0的include文件夹中的两个文件,我想够大家用了.
声明:这些定义只适用于tc2.0,高版本如有不同,自己去查找差别,本人概不负责.
/* values.h

Symbolic names for important constants, including machine
dependencies. A System V compatible header.

Copyright (c) Borland International 1987,1988
All Rights Reserved.
*/
#if __STDC__
#define _Cdecl
#else
#define _Cdecl cdecl
#endif

#ifndef _VALUES_H
#define _VALUES_H

#define BITSPERBYTE 8
#define MAXSHORT 0x7FFF
#define MAXINT 0x7FFF
#define MAXLONG 0x7FFFFFFFL
#define HIBITS 0x8000
#define HIBITI 0x8000
#define HIBITL 0x80000000

#define DMAXEXP 308
#define FMAXEXP 38
#define DMINEXP -307
#define FMINEXP -37

#define MAXDOUBLE 1.797693E+308
#define MAXFLOAT 3.37E+38
#define MINDOUBLE 2.225074E-308
#define MINFLOAT 8.43E-37

#define DSIGNIF 53
#define FSIGNIF 24

#define DMAXPOWTWO 0x3FF
#define FMAXPOWTWO 0x7F
#define _DEXPLEN 11
#define _FEXPLEN 8
#define _EXPBASE 2
#define _IEEE 1
#define _LENBASE 1
#define HIDDENBIT 1
#define LN_MAXDOUBLE 7.0978E+2
#define LN_MINDOUBLE -7.0840E+2

#endif
==================================================================
==================================================================
/* float.h

Defines implementation specific macros for dealing with
floating point.

Copyright (c) Borland International 1987,1988
All Rights Reserved.
*/
#if __STDC__
#define _Cdecl
#else
#define _Cdecl cdecl
#endif

#define FLT_RADIX 2
#define FLT_ROUNDS 1
#define FLT_GUARD 1
#define FLT_NORMALIZE 1

#define DBL_DIG 15
#define FLT_DIG 6
#define LDBL_DIG 19

#define DBL_MANT_DIG 53
#define FLT_MANT_DIG 24
#define LDBL_MANT_DIG 64

#define DBL_EPSILON 2.2204460492503131E-16
#define FLT_EPSILON 1.19209290E-07F
#define LDBL_EPSILON 1.084202172485504E-19

/* smallest positive IEEE normal numbers */
#define DBL_MIN 2.2250738585072014E-308
#define FLT_MIN 1.17549435E-38F
#define LDBL_MIN _tiny_ldble

#define DBL_MAX _huge_dble
#define FLT_MAX _huge_flt
#define LDBL_MAX _huge_ldble

#define DBL_MAX_EXP +1024
#define FLT_MAX_EXP +128
#define LDBL_MAX_EXP +16384

#define DBL_MAX_10_EXP +308
#define FLT_MAX_10_EXP +38
#define LDBL_MAX_10_EXP +4932

#define DBL_MIN_10_EXP -307
#define FLT_MIN_10_EXP -37
#define LDBL_MIN_10_EXP -4931

#define DBL_MIN_EXP -1021
#define FLT_MIN_EXP -125
#define LDBL_MIN_EXP -16381

extern float _Cdecl _huge_flt;
extern double _Cdecl _huge_dble;
extern long double _Cdecl _huge_ldble;
extern long double _Cdecl _tiny_ldble;

unsigned int _Cdecl _clear87(void);
unsigned int _Cdecl _control87(unsigned int new, unsigned int mask);
void      _Cdecl _fpreset(void);
unsigned int _Cdecl _status87(void);

/* 8087/80287 Status Word format   */

#define SW_INVALID 0x0001 /* Invalid operation */
#define SW_DENORMAL 0x0002 /* Denormalized operand */
#define SW_ZERODIVIDE 0x0004 /* Zero divide */
#define SW_OVERFLOW 0x0008 /* Overflow */
#define SW_UNDERFLOW 0x0010 /* Underflow */
#define SW_INEXACT 0x0020 /* Precision (Inexact result) */

/* 8087/80287 Control Word format */

#define MCW_EM 0x003f /* interrupt Exception Masks */
#define     EM_INVALID 0x0001 /*   invalid */
#define     EM_DENORMAL 0x0002 /*   denormal */
#define     EM_ZERODIVIDE 0x0004 /*   zero divide */
#define     EM_OVERFLOW 0x0008 /*   overflow */
#define     EM_UNDERFLOW 0x0010 /*   underflow */
#define     EM_INEXACT 0x0020 /*   inexact (precision) */

#define MCW_IC 0x1000 /* Infinity Control */
#define     IC_AFFINE 0x1000 /*   affine */
#define     IC_PROJECTIVE 0x0000 /*   projective */

#define MCW_RC 0x0c00 /* Rounding Control */
#define     RC_CHOP 0x0c00 /*   chop */
#define     RC_UP 0x0800 /*   up */
#define     RC_DOWN 0x0400 /*   down */
#define     RC_NEAR 0x0000 /*   near */

#define MCW_PC 0x0300 /* Precision Control */
#define     PC_24 0x0000 /*    24 bits */
#define     PC_53 0x0200 /*    53 bits */
#define     PC_64 0x0300 /*    64 bits */

/* 8087/80287 Initial Control Word */
/* use affine infinity, mask underflow and precision exceptions */

#define CW_DEFAULT (RC_NEAR+PC_64+IC_AFFINE+EM_UNDERFLOW+EM_INEXACT)

/*
SIGFPE signal error types (for integer & float exceptions).
*/
#define FPE_INTOVFLOW 126 /* 80x86 Interrupt on overflow */
#define FPE_INTDIV0 127 /* 80x86 Integer divide by zero */

#define FPE_INVALID 129 /* 80x87 invalid operation */
#define FPE_ZERODIVIDE 131 /* 80x87 divide by zero */
#define FPE_OVERFLOW 132 /* 80x87 arithmetic overflow */
#define FPE_UNDERFLOW 133 /* 80x87 arithmetic underflow */
#define FPE_INEXACT 134 /* 80x87 precision loss */
#define FPE_EXPLICITGEN 140 /* When SIGFPE is raise()'d */

/*
SIGSEGV signal error types.
*/
#define SEGV_BOUND 10 /* A BOUND violation (SIGSEGV) */
#define SEGV_EXPLICITGEN 11 /* When SIGSEGV is raise()'d */

/*
SIGILL signal error types.
*/
#define ILL_EXECUTION 20 /* Illegal operation exception */
#define ILL_EXPLICITGEN 21 /* When SIGILL is raise()'d */

5 楼

这是很久以前我在csdn上回复的帖子:
原问题:
<<一个基本问题>>
double
(类型)双精度实型                       (长度)8(字节)
(范围)2.23*10-308 ~ 1.79*10308     (备注)15位有效位
其中的15位有效位是指什么?
[url=http://expert.csdn.net/Expert/topic/1763/1763933.xml?temp=.8410761]http://expert.csdn.net/Expert/topic/1763/1763933.xml?temp=.8410761[/url]
=====================================================================
以下是我对该问题的原本回复:
(这个回复是本论坛所提问题的相关问题,就是说明白了后者,同时也就明白了前者)
---------------------------------------------------------------------
类型名          占内存字节数(B)                   值的范围
double               8                -1.7* 10^308 ~ 1.7* 10^308
long double         10               -3.4* 10^4932 ~ 1.1* 10^4932

浮点数的表示方法:尾数和阶码和尾数部分的符号位(楼主所见符号位位于阶码)。
假设尾数占N位,连同符号位共N+1位,则阶码占8*B -(N+1)位

而决定浮点数有效位的是尾数长度,即N,编译器

为double型分配阶码位长308/3*10=1024=2^10就是10位,
所以尾数长8*8-1-10=53位,log(2^53)=15.95,取整即15;

为long double 型分配阶码位长4932/3*10=2^14就是14位,
所以尾数长10*8-1-14=65位,log(2^65)=19.57,取整即19。

注意这里有两个不同概念,尾数长度和有效位长度。
尾数长度指二进制位数,有效位长度为转换成十进制后的有效数字位数。

另外,上面表达式中的3其实来之于log1024,而2^10=1024,故通过上述公式
能推出阶码长度。
公式如下:针对  10^M
阶码长度=log(M/log1024*10)/log2=(logM-loglog1024+1)/log2
loglog1024=0.47861,
-loglog1024+1=0.52139
log308=2.48855,log4932=3.69302
log2=0.30103
SO,For double,阶码长度=(2.48855+0.52139)/0.30103=9.99880 = 10
For long double,阶码长度=(3.69302+0.52139)/0.30103=14.00000 = 14
因为log1024~=3,所以,解码长度~=log(M/3*10)/log2.
()中即为我上面使用的公式,只不过我省去了取对数这一步。


可见,浮点数的表示范围除了和固定字长有关,还和阶码长度有关,而且,一旦固定了
阶码长度,则有效位数也就确定了。

根据上述方法,同样能求出有效位的最高两位或三位。
----------------------------------------------------------------------------

6 楼

[em2]

我来回复

您尚未登录,请登录后再回复。点此登录或注册