音视频基本概念

上一篇 / 下一篇  2009-12-21 18:44:44 / 个人分类:视频会议

一.音频基本概念

RGB和YUV

RGB指的是红绿蓝,应用还是很广泛的,比如显示器显示,BMP文件格式中的像素值等;而YUV主要指亮度和两个色差信号,被称为luminance和chrominance他们的转化关系可以自己去查一下,我们视频里面基本上都是用YUV格式。

YUV格式

YUV文件格式又分很多种,如果算上存储格式,就更多了,比如YUV444、YUV422、YUV411、YUV420等等,视频压缩用到的是420格式,这是因为人眼对亮度更敏感些,对色度相对要差些。另外要注意几个英文单词的意思,比如:packet、planar、interlace、progressive等。

帧率

每秒钟图像的刷新速度。PAL制式的电视,帧率是25帧每秒,NTSC制式的电视帧率是29.97帧每秒。我们常用的电脑也有刷新率,一般来说,电脑的刷新率要在75赫兹以上,人眼才不会觉得闪。

 

码率

它的单位是bit per second,一般所有描述带宽的概念,单位都是bit,描述存储容量的单位一般都是大B,也就是BYTE(字节)。

 

分辨率

图像的分辨率指的是它的像素数,一般用得最多的是CIF,也就是352*2884cif自然就是指704*576,而D1的分辨率严格意义上是720*576,大小来说和4cif差不多了。当然现在还有很多高清的分辨率,这些我不是太了解,大家感兴趣可以查一下。另外,国外很多时候,对cif的高度取240,这是因为他们的帧率比我们高(29.97hz),自然,高度要小一些了。

 

实时与非实时

主要用来形容编码器,它含有两个意思,一个是要保证帧率,也就是每秒25帧,另一个是“live”的意思,意味着直播,所谓的“实况转播”的“实”。

 

延时

也是形容编码器的一个重要指标,一般来说,200ms300ms人的感觉不会很明显,到了500毫秒的话,还是可以很明显感觉到的。

 

音视频同步

作为视频会议的应用,一般要求做到所谓的“唇同步”。基本的保证音视频同步的手段就是时间戳(time stamp)。唐桥的系统是语音优先,没有做音视频同步机制。

 

二.音频基本概念

 

采样率

音频的采样率其实类似视频的帧率,意思是每秒钟采样的次数。G.711的采样率是8k(人的语音大概就在这个频率范围以内),而mp3支持的典型采样率是 44.1kHz(超过人耳响应频率的2倍多一点——奈奎斯特定理)。很明显,mp3压缩的原始声音要比g.711好多了。

 

采样精度

就是每个采样进行模数转换时的量化系数。G.711是8bit采样精度,而mp3典型的是16bit。

 

回声消除

视频会议应用中的音频最大问题。回声产生的原因很复杂,一般认为,在互联网中的语音传输,延时来源有三个:压缩延迟、分组传输延迟和处理延迟。语音压缩延迟是产生回声的主要延迟,例如在G.723.1标准中,压缩一帧(30ms)的最大延迟是37.5ms。分组传输延迟也是一个很重要的来源,测试表明,端到端的最大传输延迟可达250ms以上。处理延迟是指语音包的封装时延及其缓冲时延等。

 

 

 

 

 

 

 

 

 


TAG:

 

评分:0

我来说两句

Open Toolbar