一种原创的新统计图表

中文版:一种原创的新统计图表


我可以设计这样一种新的统计图表方法,对于一组记述统计的全面调查数据,用极坐标去直观地表现一组数据里对应的各个位置、和将这组数据转化成随机平均形态也就是“平均值和中值和最值都一致地随机均匀分布形态”的正态分布进行比较的比较结果,用极坐标的角度0度的三种颜色虚线直线线段(中值、平均值)或者虚线波浪线线段(众数)分别代表众数、中值和平均值,类似地相应的线段长度和极坐标(90度乘以68%)度角和(90度乘以95%)度角,分别代表正态分布下(平均值加减1倍标准差)和(平均值加减2倍标准差)的偏移状态下的偏移程度和偏移后的数据的数字大小,中值和平均值可以比较数字大小,用直线虚线线段表现,众数不能比较数字大小,这时候用波浪线虚线表现,这些理论虚拟的虚拟代表值的虚线、作为代表”正态分布形态”的基准线,而这些基准线也可以称之为“角度轴”。


那么,对于一组记述统计的母本数据做这些正态分布形态理论虚拟演绎描述后,对实测数据所得的平均值/众数/中值进行计算,按照同样方法,其自身数值代表记录到的数据的量的大小比如不同名义尺度类型的个数的最值、比率尺度类型的数值的平均值计算等等,对应着正态分布变形状态下平均值/众数/中值三种代表值、分别用实线线段表示,对应着相对于对正态分布的0度极坐标射线而偏移的角度、以及中值和平均值的情况下去实线线段对0度虚线线段产生偏移的偏移程度、以及偏移后自身的矢量线段的数值大小,对应着极坐标中的角度和矢量大小与方向的定位被标记在极坐标里,如果是众数,在处理分类尺度的情况下,实测值波浪线实线长度固定与正态分布时的波浪线虚线长度等长,代表各自在无数量意义方面相互对等的关系;而对于其他可以用数字去表征关系的尺度,依旧按照“实测值的波浪线实线所对应的直线线段长度和理论值的波浪线虚线所对应的直线线段长度之比、相当于众数实测值的数字与理论值众数的数字的比例”这种方法去表征。这些实测数据的实际代表值的实线、可以称为实测线、实测线又可以称之为径向轴。


与此同时、三种代表值(集中趋势量数)的虚线、实线分别用加法混色三原色红色(平均值)、绿色(中值)、深蓝色(众数)去表征,这样,三种代表值的三个极坐标坐标系并列在一个图表里、或者合并一个同心圆环,就可以直观地比较实际样本中的代表数据和具体某个样本的观测数据、相对于如同理想气体那样的理想化近似假定中随机均匀分布的正态分布而言自身的位置了。


以下是表格化说明:



   | 要素         | 线型            | 颜色   | 意义                     |

   |--------------|-----------------|--------|--------------------------|

   | 理论值       | 虚线            | 三种颜色      | 正态分布的参考基准       |

   | 实际平均值   | 实线直线        | 红色   | 可量化比较的集中趋势     |

   | 实际中位数   | 实线直线        | 绿色   | 抗离群值的集中趋势       |

   | 实际众数     | 实线波浪线      | 深蓝色 | 非量化对等的离散程度     |


(补充1: 可以使用“平均值用粗实线(2px),中值用细实线(1px),众数用波浪线(1.5px)的方法,作为对色彩标记方案的替代


补充2: 计算公式:θ=Z • 90°/(±2s)或者θ=Z • 90°/(±3s),Z=(X-X’)/s,其中θ为偏转角度,Z为标准分数,X为实测值,X’为平均值(可为代数平均、几何平均、调和平均等各种平均值),s为标准差,当公式为θ=Z • 90°/(±2s)的时候,置信区间为95%,当公式为θ=Z • 90°/(±3s)的时候,置信区间为99.7%)



English Version:An Original Method for Statistical Chart


I propose a new method for statistical charting, in which a complete dataset from descriptive statistics can be represented using polar coordinates. This method visualizes the position of each statistical measure within the dataset and compares it against an idealized form of distribution—a normally distributed shape where the meanmedian, and mode are all equal and uniformly spread.


In this visualization, three different colored dashed lines radiating at 0 degrees in polar coordinates represent the theoretical baseline values: straight dashed lines for the mean and median, and a wavy dashed line for the mode. Similarly, the length of each dashed line and its corresponding angle on the polar coordinate system—specifically at angles of 90° × 68% and 90° × 95%—represent the numerical deviation and the shifted values under a normal distribution where the mean ± 1 standard deviation and mean ± 2 standard deviations apply.


The median and mean, being comparable in value, are represented by straight dashed lines, while the mode, which is not directly comparable in magnitude, is shown using a wavy dashed line. These dashed lines, representing idealized theoretical values under the normal distribution, serve as the reference axes, which may also be called angle axes.


Then, based on the same method, actual values such as the meanmode, and median can be calculated from the observed data in a given descriptive statistical population. Each of these values—whether it is the mode of a nominal-scale variable or the mean of a ratio-scale variable—represents a numerical quantity recorded from the dataset. These observed values are represented by solid lines in the diagram, corresponding to the same structural framework as the theoretical model. Each solid line is placed at an angular deviation from the 0° axis (which represents the normal distribution baseline), and in the case of the mean and median, the magnitude and direction of their vector shifts—i.e., their displacement from the theoretical dashed lines—are visually mapped in the polar coordinate system as a combination of angle and radial length. In the case of the mode of nominal scales, which cannot be compared numerically in the same way as the mean or median, the solid wavy line is used. Its length is fixed to be equal to that of the wavy dashed line representing the mode under the normal distribution. This indicates a form of equivalence not in numerical magnitude, but in symbolic or categorical significance. For other scales where relationships can be expressed numerically, the representation continues to follow the ratio between the straight-line length corresponding to the solid wavy line of the observed mode and the straight-line length corresponding to the dashed wavy line of the theoretical mode—that is, the ratio between the numerical value of the observed mode and that of the theoretical mode. These solid lines representing actual observed values are referred to as observation lines, and they can also be described as radial axes within the polar coordinate system.


At the same time, the three representative values (measures of central tendency) are visually distinguished by using additive primary colors for their lines: red for the meangreen for the median, and deep blue for the mode. Both dashed lines (representing theoretical reference values) and solid lines (representing observed values) follow this color coding. These three sets of polar coordinate systems—one for each representative value—can be arranged side by side in a single chart or merged into a concentric circular layout. This enables a clear visual comparison between the representative values of the actual sample and those of a specific observed data set, in relation to the idealized, normally distributed form assumed as a reference, much like the role of an ideal gas in physics.


Tabular Summary:


Element Line Style Color Meaning

Theoretical Value Dashed Line Reference baseline of the normal distribution

Actual Mean Solid Straight Line Red Quantifiable central tendency

Actual Median Solid Straight Line Green Central tendency robust to outliers

Actual Mode Solid Wavy Line Deep Blue Non-quantitative, equivalent level of dispersion


Element

Line Style

Color

Meaning 

Theoretical Value

Dashed Line

Three Color

Reference baseline of the normal distribution

Actual Mean

Solid Straight Line

Red

Quantifiable central tendency

Actual Median

Solid Straight Line

Green

Central tendency robustj to outliers

Actual Mode

Solid Wavy Line

Deep Blue 

Non-quantitative, equivalent level of dispersion


Supplement 1:

An alternative to the color-coding scheme is to use different line styles and thicknesses:

Mean represented by a thick solid line (2px)

Median represented by a thin solid line (1px)

Mode represented by a wavy line (1.5px)


Supplement 2:

Formula for angular displacement:

θ = Z • 90° / (±2s) or θ = Z • 90° / (±3s)

where:

θ = angular displacement

Z = standard score = (X - X′) / s

X = observed value

X′ = mean (which may be the arithmetic mean, geometric mean, harmonic mean, etc.)

s = standard deviation


When using the formula θ = Z • 90° / (±2s), the confidence interval is 95%;

When using θ = Z • 90° / (±3s), the confidence interval is 99.7%.




日本語版:一種のオリジナル新しい統計図表


私はこのような新しい統計図表の方法を設計することができます。ある記述統計に基づく全数調査データの一群に対して、極座標を用いてその各位置を直観的に表現し、そのデータ群を「平均値・中央値・最小最大値が一致するランダムな均質分布」、すなわち理想的な正規分布に変換した場合の形と比較する結果を示す方法です。


極座標における角度0度の位置に、三つの色分けされた破線(中央値・平均値)および破線の波線(最頻値)をそれぞれ配置し、それぞれが最小値、中央値、平均値を表すようにします。同様に、線分の長さおよび極座標の角度、すなわち(90度 × 68%)と(90度 × 95%)の位置は、正規分布における「平均値 ± 1標準偏差」および「平均値 ± 2標準偏差」に対応する偏差の程度および偏差後の数値の大きさを表現します。中央値と平均値は数値比較が可能なため、直線の実線で表します。一方、最小最大値は数値比較ができないため、波線の破線で示します。これらの理論的な仮想代表値を表す破線は、理想的な正規分布の形態を示す基準線であり、「角度軸」として定義されます。


このような正規分布形態に基づく理論的な仮想演繹を記述統計の母集団データに対して行った後、実際に観測されたデータから得られた平均値・最小最大値・中央値を同様の方法で計算します。例えば、名義尺度のカテゴリー数に基づく最小最大値、比率尺度における数値の平均値など、それぞれの実測値の数値は、データにおける量的な大きさを表しています。そして、それらは正規分布が変形した状態における平均値・最頻値・中央値の代表値として、実線で示されます,これらの実線は、正規分布の基準である0度の極座標の放射線からどれだけ偏移しているか(角度)を表すと同時に、特に平均値と中央値については、基準となる虚線からの偏移の程度と、その偏移後のベクトルの大きさを示し,これらの情報は、極座標の中で角度およびベクトルの大きさと方向として明示的に記録されます,最頻値ならば波線の実線で表示し、名義尺度の場合なら実測値の波線の実線の長さは、正規分布における対応する波線の虚線の長さと等しく設定され、両者が数量的な意味を持たない点での対等な関係性を表します,一方,数字で関係を表せる他の尺度なら,「実測値の波線実線に当たる直線の長さと理論値の波線虚線に対応する直線の長さの比率は,つまり実測された最頻値の数字と理論的な最頻値の数字との比率に一致する」方法で処置する。これらの実測データに基づく実際の代表値の実線は、「実測線」と呼ぶことができ、この実測線はまた「径方向軸(けいほうこうじく)」とも称することができます。


その同時に、三つの代表値(集中傾向量)の虚線と実線には、それぞれ加法混色の三原色が用いられます。すなわち、平均値には赤色、中位数には緑色、最頻値には濃い青色を割り当てて表現します。これにより、三つの代表値に基づく三つの極座標系を一つの図表に並置するか、あるいは一つの同心円環へ合併することで、実際のサンプルデータの代表値と、個別観測値が、理想気体のような理想化された一様ランダム分布、すなわち正規分布における位置関係を、直観的に比較することが可能となります。


以下が図表化で整理すること:


要素

線の種類

意味

理論値

破線(虚線)

3

正規分布の参照基準

実際の平均値

実線(直線)

定量的に比較可能な集中傾向

実際の中央値

実線(直線)

外れ値に強い集中傾向

実際の最頻値

実線(波線)

濃い青

定量化できない対等な散布の程度


(補足1:

色による識別の代替として、平均値を太実線(2px)、中央値を細実線(1px)、最頻値を波線(1.5px)で表現する方法を使用することができる。


補足2:

計算式:

θ = Z × 90° /(±2s)または θ = Z × 90° /(±3s)

ただし、Z =(X − X’)/ s

ここで、θ は偏移角、Z は標準スコア、X は実測値、X’ は平均値(算術平均、幾何平均、調和平均など各種可)、s は標準偏差、θ = Z × 90° /(±2s)の場合,信頼区間は95%,θ = Z × 90° /(±3s)の場合,信頼区間は99.7%)

评论