音頻的基本知識
聲音是波的一種,頻率和振幅是描述波的重要屬性,頻率的大小與我們通常所說的音高對應,而振幅影響聲音的大小。頻率的單位是赫茲,赫茲是電、磁、聲波和機械振動周期循環時頻率的單位,即每秒的周期次數(周期/秒)。對於聲音,人類的聽覺范圍為20Hz~20000Hz,低於這個范圍叫做次聲波,高於這個范圍的叫做超聲波。
數碼錄音最關鍵一步就是要把模擬信號轉換為數碼信號,就電腦而言是把模擬聲音信號錄制成為音頻文件。
描述音頻文件主要有兩個指標,一個是采樣頻率,或稱采樣率、采率,另一個是采樣精度也就是比特率。
采樣,指把時間域或空間域的連續量轉化成離散量的過程。每秒鐘的采樣樣本數叫做采樣頻率。采樣頻率越高,數字化後聲波就越接近於原來的波形,即聲音的保真度越高,但量化後聲音信息量的存儲量也越大,而人的耳朵已經很難分辨。根據采樣定理,只有當采樣頻率高於聲音信號最高頻率的兩倍時,才能把離散模擬信號表示的聲音信號唯一地還原成原來的聲音。我們最常用的采樣頻率是44.1kHz,它的意思是每秒取樣44100次。
比特率是指每秒傳送的比特(bit)數,單位為 bps(Bit Per Second)。比特率越高,傳送數據速度越快。聲音中的比特率是指將模擬聲音信號轉換成數字聲音信號後,單位時間內的二進制數據量。比特率其實就是表示振幅,比特率越大,能夠表示聲音的響度越清晰。
iOS音頻的基礎
接著我們要整體了解下iOS為我們提供處理音頻的基礎技術,核心音頻(Core Audio)。
Core Audio 是iOS和 MAC 的關於數字音頻處理的基礎,它提供應用程序用來處理音頻的一組軟件框架,所有關於IOS音頻開發的接口都是由Core Audio來提供或者經過它提供的接口來進行封裝的,按照官方的說法是集播放,音頻處理錄制為一體的專業技術,通過它我們的程序可以同時錄制,播放一個或者多個音頻流,自動適應耳機,藍牙耳機等硬件,響應各種電話中斷,靜音,震動等,甚至提供3D效果的音樂播放。
Core Audio有5個框架:1.Core Audio.framework,2.AudioToolbox.framework,3.AudioUnit.framework ,4.AVFoundation.framework,5.OpenAL.framework。
Core Audio.framework並不提供服務,僅提供其他框架可以使用的頭文件和數據類型。這其中AVFoundation 框架 (AVFoundation.framework)提供一組播放、記錄和管理聲音和視頻內容的Objective-C類,因此下面我就簡單介紹一下他就可以了。
AVFoundation的錄音和播放
音頻的錄制與播放主要和三個類有關AVAudioSession,AVAudioRecorder,AVAudioPlayer。
AVAudioSession
AVAudioSession類由AVFoundation框架引入,每個iOS應用都有一個音頻會話,這個會話可以被AVAudioSession類的sharedInstance類方法訪問,如下:
AVAudioSession *audioSession = [AVAudioSession sharedInstance];
在獲得一個AVAudioSession類的實例後,你就能通過調用音頻會話對象的setCategory:error:實例方法,來從IOS應用可用的不同類別中作出選擇。
AVAudioRecorder
在使用AVAudioRecorder進行音頻錄制的時候,需要設置一些參數,下面就是參數的說明,並且寫下了音頻錄制的代碼:
//音頻開始錄制 - (void)startRecordWithFilePath:(NSString *)path{ [[AVAudioSession sharedInstance] setCategory: AVAudioSessionCategoryPlayAndRecord error:nil]; [[AVAudioSession sharedInstance] setActive:YES error:nil]; /** * AVFormatIDKey 音樂格式,這裡采用PCM格式 AVSampleRateKey 采樣率 AVNumberOfChannelsKey 音樂通道數 AVLinearPCMBitDepthKey,采樣位數 默認 16 AVLinearPCMIsFloatKey,采樣信號是整數還是浮點數 AVLinearPCMIsBigEndianKey,大端還是小端 是內存的組織方式 AVEncoderAudioQualityKey,音頻編碼質量 */ NSDictionary *recordSetting = @{ AVFormatIDKey : @(kAudioFormatLinearPCM), AVSampleRateKey : @(8000.f), AVNumberOfChannelsKey : @(1), AVLinearPCMBitDepthKey : @(16), AVLinearPCMIsNonInterleaved : @NO, AVLinearPCMIsFloatKey : @NO, AVLinearPCMIsBigEndianKey : @NO }; //初始化錄音 self.recorder = [[AVAudioRecorder alloc]initWithURL:[NSURL URLWithString:path] settings:recordSetting error:nil]; _recorder.delegate = self; _recorder.meteringEnabled = YES; [_recorder prepareToRecord]; [_recorder record]; } //音頻停止錄制 - (void)stopRecord { [self.recorder stop]; self.recorder = nil; }
AVAudioPlayer
AVAudioPlayer類是音頻播放的類,一個AVAudioPlayer只能播放一個音頻,如果你想混音你可以創建多個AVAudioPlayer實例,每個相當於混音板上的一個軌道,下面就是音頻播放的方法。
//音頻開始播放 - (void)startPlayAudioFile:(NSString *)fileName{ //初始化播放器 player = [[AVAudioPlayer alloc]init]; player = [player initWithContentsOfURL:[NSURL URLWithString:fileName] error:nil]; self.player.delegate = self; [player play]; } //音頻停止播放 - (void)stopPlay{ if (self.player) { [self.player stop]; self.player.delegate = nil; self.player = nil; } }
轉碼
上面我們用iOS錄制了一個音頻文件,並且錄制成了wav格式,然而現在的情況確實安卓不支持wav格式,並且蘋果的格式安卓全不支持,看好是全不,不是全部,反過來安卓的格式,蘋果基本也不支持。
這裡可以讓服務器去轉碼,不過服務器的壓力會增加,這裡我們可以讓客戶端進行轉碼。amr格式的音頻文件是安卓系統中默認的錄音文件,也算是安卓支持的很方便的音頻文件,這裡就把iOS錄制的wav文件轉成amr,我們采用的是libopencore框架。
關於libopencore,Jeans有對它進行了一個比較好的Demo,大家可以參考他的Demo,iOS音頻格式AMR和WAV互轉(支持64位)。
在他的AmrWavConverter代碼Demo裡面有掩飾這兩個轉碼工作。
//轉換amr到wav + (int)ConvertAmrToWav:(NSString *)aAmrPath wavSavePath:(NSString *)aSavePath{ if (! DecodeAMRFileToWAVEFile([aAmrPath cStringUsingEncoding:NSASCIIStringEncoding], [aSavePath cStringUsingEncoding:NSASCIIStringEncoding])) return 0; return 1; } //轉換wav到amr + (int)ConvertWavToAmr:(NSString *)aWavPath amrSavePath:(NSString *)aSavePath{ if (! EncodeWAVEFileToAMRFile([aWavPath cStringUsingEncoding:NSASCIIStringEncoding], [aSavePath cStringUsingEncoding:NSASCIIStringEncoding], 1, 16)) return 0; return 1; }
關於這篇文章,我也寫了一個Demo,PLAudio,轉載請附原文地址http://www.coderyi.com/archives/722。