作者:孫東風 2009-12-01(轉載請注明出處)
在筆者的上一篇文章《玩轉iPhone網絡通訊之BSD Socket篇》中,筆者試圖在iPhone平台上利用BSD Socket搭建了一個同時兼容TCP/IP和HTTP協議進行通訊的框架,而在接下來的幾篇文章裡,筆者將進一步完善這個網絡通訊的引擎並利用這個引擎寫一個簡易的wap浏覽器。
在iPhone的safari浏覽器上並不支持WML的解析,盡管筆者也認為WML這種抱殘守舊的技術被淘汰是遲早的事,但WML作為XML結構的一個“變種”進行學習還是不錯的。
最近浏覽器技術很熱,熱得筆者都摸不著頭腦,前段時間金山的雷軍同志也投資UCWeb,盡管筆者並不覺得浏覽器技術有什麼高深的技術含量抑或可進行投資的價值,其實浏覽器充其量是個客戶端,但是既然人家大牛看好,那筆者研究研究也不無益處,或許看完本文讀者也可以拿著自己的產品去找雷軍同志投資一把了:)
閒話少話,言歸正傳。
上面說了,WML是XML結構的一個“變種”或者說特例,既然是特例那麼就可以把它當成XML來進行解析。那麼做一個浏覽器的任務流程就清晰了,如下:
² 封裝BSD Socket進行HTTP請求。
² 將請求到的WML頁面解析成XML數據結構。
² 渲染需要在界面上顯示的WML標簽(英文名tag)。
² 將渲染後的WML標簽顯示在界面上(UIView)。
其中第一條在筆者的前一篇文中《玩轉iPhone網絡通訊之BSD Socket篇》已經進行了初步的編寫,當然筆者還會在下面的文章中進一步完善。
這篇文章中著重講解WML的解析,因為WML是XML數據的特例,解析WML也就意味這解析XML。
說到解析XML,iPhone為程序員提供了很多工具比如NSXMLParser,這個類的接口定義如下:
@interface NSXMLParser : NSObject {
@private
void * _parser;
id _delegate;
id _reserved1;
id _reserved2;
id _reserved3;
}
- (id)initWithContentsOfURL:(NSURL *)url; // initializes the parser with the specified URL.
- (id)initWithData:(NSData *)data; // create the parser from data
// delegate management. The delegate is not retained.
- (id)delegate;
- (void)setDelegate:(id)delegate;
- (void)setShouldProcessNamespaces:(BOOL)shouldProcessNamespaces;
- (void)setShouldReportNamespacePrefixes:(BOOL)shouldReportNamespacePrefixes;
- (void)setShouldResolveExternalEntities:(BOOL)shouldResolveExternalEntities;
- (BOOL)shouldProcessNamespaces;
- (BOOL)shouldReportNamespacePrefixes;
- (BOOL)shouldResolveExternalEntities;
- (BOOL)parse; // called to start the event-driven parse. Returns YES in the event of a successful parse, and NO in case of error.
- (void)abortParsing; // called by the delegate to stop the parse. The delegate will get an error message sent to it.
- (NSError *)parserError; // can be called after a parse is over to determine parser state.
@end
從接口的定義中大致可以知道,這個類解析XML是采用SAX模式(Simple API for XML),而SAX是基於事件驅動的,其基本工作流程是分析XML文件流數據,每當發現一個新的元素時,就會產生一個對應的事件,並調用相應的用戶處理函數。在iPhone上蘋果公司采用了delegate模式,每發現一個新的元素時,就會調用相應的委托接口進行XML標簽的處理。
利用SAX模式解析XML占用內存少、速度快,但用戶需要把解析到的XML標簽自己組合成一個樹狀結構,從而使程序處理比較復雜。
而對WML浏覽器來說,盡管其tag並不是特別多,但是如果想完整的支持WML的tag也是一件比較枯燥的事情。所以,筆者這裡采用DOM(Document Object Model)模式來解析XML文件。DOM模式在分析XML文件時,一次性的將整個XML文件流進行分析,並在內存中形成對應的樹結構,同時,向用戶提供一系列的接口來訪問和編輯該樹結構。這種方式占用內存大,速度往往慢於SAX模式,但可以給程序員提供一個面向對象的訪問接口,較為方便。
XML語言的全稱是可擴展標識語言(eXtensible Markup Language),具體含義顧名思義就知道了。所謂“可擴展”,那是因為HTML等語言的不可擴展,在XML裡的標簽都是可以自定義的,比如WML利用XML語言自定義了一套tag,於是就有了無線wap規范。
XML的可擴展性是指在相應的規范和標准上的擴展。首先格式要符合XML的基本要求,比如第一行要有聲明,標簽的嵌套層次必須前後一致等等,符合這些要求的文件,就算是一個合格的XML文件,稱為Well-formatted。其次,XML文檔因其內容的不同還必須在語義上符合相應的標准,這些標准由相應的“DTD文件”或者“Schema文件”來了定義,符合了這些定義要求的XML文件,稱作Valid。
筆者在本文中采用了開源的TinyXML解析器,這個解析器不會用相應的DTD文件對XML文件進行校驗,但它的體積很小,只包含兩個*.h文件和四個*.cpp文件。
TinyXML是個開源的項目,更多詳細的信息可以參考http://www.grinninglizard.com/tinyxml/index.html。
下載文件包後,把相應的文件導入到項目工程中,如下圖:
圖1
其中tinyxml.h文件包含了全部的聲明,在項目中只需要包含這個文件即可。
Tinyxml.h中定義了很多結構,如下
class TiXmlNode : public TiXmlBase
{
friend class TiXmlDocument;
friend class TiXmlElement;
…
}
這些類對應XML中的樹狀結構,拿下面的XML文檔為例:
<?xml version="1.0" encoding="utf-8" ?>
<!-example-->
<food>
<name>bread</name>
<price unit=”$”>1.5</price>
<description>made in China</description>
</ food >
其中整個XML文檔用類TiXmlDocument表示,<food>、<name>、<price>、<description>等各自對應一個類TiXmlElement,XML文檔的第一行對應類TiXmlDeclaration,第二行對應類TiXmlComment,文本“example”對應類TiXmlText,unit則是元素price的一個TiXmlAttribute屬性。
把TinyXML包導入到項目後,新建一個XMLParserEx.h文件和一個XMLParserEx.cpp文件來封裝XML的處理,頭文件定義如下:
#ifndef _CC_XMLPARSEREX_H_
#define _CC_XMLPARSEREX_H_
#include <stdio.h>
#include "tinyxml.h"
#define INVALID_ID -1
class XMLParserEx
{
public:
static XMLParserEx* GetInstance();
static void Destroy();
void RemoveAll();
void parsexml(const char* buffer);