XML 简介及用法详解

  • XML 简介及用法详解已关闭评论
  • 28 次浏览
  • A+
所属分类:Web前端
摘要

XML 是一种用于存储和传输数据的与软件和硬件无关的工具。XML代表eXtensible Markup Language(可扩展标记语言)。XML是一种与HTML非常相似的标记语言。XML被设计用于存储和传输数据。XML被设计成具有自我描述性。XML不执行任何操作,也许有点难理解,但XML不执行任何操作。


XML 是一种用于存储和传输数据的与软件和硬件无关的工具。

什么是XML?

XML代表eXtensible Markup Language(可扩展标记语言)。XML是一种与HTML非常相似的标记语言。XML被设计用于存储和传输数据。XML被设计成具有自我描述性。XML不执行任何操作,也许有点难理解,但XML不执行任何操作。

XML示例

这是一张存储为XML的给Tove的Jani的便签:

<note>   <to>Tove</to>   <from>Jani</from>   <heading>Reminder</heading>   <body>Don't forget me this weekend!</body> </note> 

上面的XML相当自我描述:

  • 它包含了发件人信息
  • 它包含了收件人信息
  • 它有一个标题
  • 它有一个消息正文

但是,上面的XML仍然不执行任何操作。XML只是用标记包装的信息。

必须有人编写一段软件来发送、接收、存储或显示它:

Note To: Tove  From: Jani  Reminder Don't forget me this weekend! 

XML和HTML的区别

XML和HTML是出于不同目的而设计的:

  • XML被设计用于携带数据 - 专注于数据是什么
  • HTML被设计用于显示数据 - 专注于数据的呈现方式

XML标签不像HTML标签那样是预定义的。XML语言没有预定义的标签。上面示例中的标签(如<to><from>)在任何XML标准中都未定义。这些标签是XML文档的作者“创造”的。

HTML使用预定义标签,如<p><h1><table>等。使用XML,作者必须定义标签和文档结构。

XML是可扩展的

大多数XML应用程序即使添加(或删除)新数据也能正常工作。

想象一个应用程序,设计用于显示note.xml的原始版本(<to> <from> <heading> <body>)。然后想象一个具有添加的<date><hour>元素以及删除<heading>的新版本的note.xml

XML构造的方式使得旧版本的应用程序仍然可以工作:

<note>   <date>2015-09-01</date>   <hour>08:30</hour>   <to>Tove</to>   <from>Jani</from>   <body>Don't forget me this weekend!</body> </note> 

旧版本

Note To: Tove  From: Jani  Reminder Don't forget me this weekend! 

新版本

Note To: Tove  From: Jani  Date: 2015-09-01 08:30  Don't forget me this weekend! 

XML简化事务

  • XML简化数据共享
  • XML简化数据传输
  • XML简化平台更改
  • XML简化数据可用性

许多计算机系统包含以不兼容格式存储的数据。在不兼容的系统(或升级的系统)之间交换数据对于Web开发人员来说是一项耗时的任务。必须转换大量数据,并且通常会丢失不兼容的数据。

XML以纯文本格式存储数据。这提供了一种与软件和硬件无关的存储、传输和共享数据的方式。

XML还使得扩展或升级到新的操作系统、新的应用程序或新的浏览器变得更容易,而不会丢失数据。

使用XML,数据可以供各种“阅读机器”使用,如人类、计算机、语音机器、新闻源等。

XML的用途

XML在Web开发的许多方面都得到了应用。

XML分离数据与演示

XML通常用于将数据与演示分离。XML不包含有关如何显示的任何信息。相同的XML数据可以在许多不同的演示情境中使用。因此,使用XML,数据和演示之间存在完全的分离。

XML通常与HTML搭配使用

在许多HTML应用程序中,XML用于存储或传输数据,而HTML用于格式化和显示相同的数据。

XML分离数据与HTML

在HTML中显示数据时,当数据发生变化时不应该修改HTML文件。使用XML,数据可以存储在单独的XML文件中。通过几行JavaScript代码,您可以读取一个XML文件并更新任何HTML页面的数据内容。

Books.xml示例:

<?xml version="1.0" encoding="UTF-8"?> <bookstore>    <book category="cooking">     <title lang="en">Everyday Italian</title>     <author>Giada De Laurentiis</author>     <year>2005</year>     <price>30.00</price>   </book>    <book category="children">     <title lang="en">Harry Potter</title>     <author>J K. Rowling</author>     <year>2005</year>     <price>29.99</price>   </book>    <book category="web">     <title lang="en">XQuery Kick Start</title>     <author>James McGovern</author>     <author>Per Bothner</author>     <author>Kurt Cagle</author>     <author>James Linn</author>     <author>Vaidyanathan Nagarajan</author>     <year>2003</year>     <price>49.99</price>   </book>    <book category="web" cover="paperback">     <title lang="en">Learning XML</title>     <author>Erik T. Ray</author>     <year>2003</year>     <price>39.95</price>   </book>  </bookstore> 

事务数据

存在成千上万种XML格式,用于描述不同行业的日常数据交易:

  • 股票和股份
  • 金融交易
  • 医疗数据
  • 数学数据
  • 科学测量
  • 新闻信息
  • 天气服务

示例 XML

XMLNews是用于交换新闻和其他信息的规范。使用标准使得新闻制作者和新闻消费者更容易在不同的硬件、软件和编程语言之间产生、接收和存档任何类型的新闻信息。

一个示例XMLNews文档:

<?xml version="1.0" encoding="UTF-8"?> <nitf>   <head>     <title>Colombia Earthquake</title>   </head>   <body>     <headline>       <hl1>143 Dead in Colombia Earthquake</hl1>     </headline>     <byline>       <bytag>By Jared Kotler, Associated Press Writer</bytag>     </byline>     <dateline>       <location>Bogota, Colombia</location>       <date>Monday January 25 1999 7:28 ET</date>     </dateline>   </body> </nitf> 

示例 XML 天气服务

来自美国国家海洋和大气管理局(NOAA)的XML国家气象服务:

<?xml version="1.0" encoding="UTF-8"?> <current_observation>  <credit>NOAA's National Weather Service</credit> <credit_URL>http://weather.gov/</credit_URL>  <image>   <url>http://weather.gov/images/xml_logo.gif</url>   <title>NOAA's National Weather Service</title>   <link>http://weather.gov</link> </image>  <location>New York/John F. Kennedy Intl Airport, NY</location> <station_id>KJFK</station_id> <latitude>40.66</latitude> <longitude>-73.78</longitude> <observation_time_rfc822>Mon, 11 Feb 2008 06:51:00 -0500 EST </observation_time_rfc822>  <weather>A Few Clouds</weather> <temp_f>11</temp_f> <temp_c>-12</temp_c> <relative_humidity>36</relative_humidity> <wind_dir>West</wind_dir> <wind_degrees>280</wind_degrees> <wind_mph>18.4</wind_mph> <wind_gust_mph>29</wind_gust_mph> <pressure_mb>1023.6</pressure_mb> <pressure_in>30.23</pressure_in> <dewpoint_f>-11</dewpoint_f> <dewpoint_c>-24</dewpoint_c> <windchill_f>-7</windchill_f> <windchill_c>-22</windchill_c> <visibility_mi>10.00</visibility_mi>  <icon_url_base>http://weather.gov/weather/images/fcicons/</icon_url_base> <icon_url_name>nfew.jpg</icon_url_name> <disclaimer_url>http://weather.gov/disclaimer.html</disclaimer_url> <copyright_url>http://weather.gov/disclaimer.html</copyright_url>  </current_observation> 

XML树

XML文档形成了一棵树状结构,从“根”开始分支到“叶子”。

XML树结构

XML 简介及用法详解

DOM节点树

一个XML文档可以被看作是一棵树,这被称为DOM(Document Object Model)节点树。DOM节点树以根节点为起点,分支到各个子节点,形成一个层级结构。

一个XML文档的示例

上图表示了XML中的图书:

<?xml version="1.0" encoding="UTF-8"?> <bookstore>   <book category="cooking">     <title lang="en">Everyday Italian</title>     <author>Giada De Laurentiis</author>     <year>2005</year>     <price>30.00</price>   </book>   <book category="children">     <title lang="en">Harry Potter</title>     <author>J K. Rowling</author>     <year>2005</year>     <price>29.99</price>   </book>   <book category="web">     <title lang="en">Learning XML</title>     <author>Erik T. Ray</author>     <year>2003</year>     <price>39.95</price>   </book> </bookstore> 

XML树结构

XML文档被形成为元素树。

XML树始于根元素,从根元素分支到子元素。

所有元素都可以有子元素(子元素):

<root>   <child>     <subchild>.....</subchild>   </child> </root> 

术语父元素、子元素和兄弟元素用于描述元素之间的关系。

  • 父元素有子元素。
  • 子元素有父元素。
  • 兄弟元素是在同一级别上的子元素(兄弟姐妹)。

所有元素都可以有文本内容(例如:Harry Potter)和属性(例如:category="cooking")。

自描述语法

XML使用了一种非常自描述的语法。

一个前导定义了XML版本和字符编码:

<?xml version="1.0" encoding="UTF-8"?> 

下一行是文档的根元素:

<bookstore> 

下一行开始了一个<book>元素:

<book category="cooking"> 

<book>元素有4个子元素:<title><author><year><price>

<title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price> 

下一行结束了<book>元素:

</book> 

从这个例子中,您可以假设XML文档包含了有关书店中书籍的信息。

XML语法规则

XML的语法规则非常简单和逻辑。这些规则易于学习和使用。

XML文档必须有一个根元素

XML文档必须包含一个作为所有其他元素的父元素的根元素:

<root>   <child>     <subchild>.....</subchild>   </child> </root> 

在这个例子中,<note> 是根元素:

<?xml version="1.0" encoding="UTF-8"?> <note>   <to>Tove</to>   <from>Jani</from>   <heading>Reminder</heading>   <body>Don't forget me this weekend!</body> </note> 

XML前导部分

这一行被称为XML前导部分:

<?xml version="1.0" encoding="UTF-8"?> 

XML前导部分是可选的。如果存在,它必须在文档中首先出现。

所有XML元素必须有一个结束标签

在XML中,省略结束标签是非法的。所有元素必须有一个结束标签:

<p>This is a paragraph.</p> <br /> 

XML标签区分大小写

XML标签是区分大小写的。标签<Letter>与标签<letter>是不同的。

开放和关闭标签必须使用相同的大小写

<message>This is correct</message> 

“开放和关闭标签”通常被称为“开始和结束标签”。

XML元素必须嵌套正确

在XML中,所有元素必须在彼此之内正确嵌套:

<b><i>This text is bold and italic</i></b> 

XML属性值必须始终用引号括起来

XML元素可以具有类似HTML中的名称/值对的属性。在XML中,属性值必须始终用引号括起来:

<note date="12/11/2007">   <to>Tove</to>   <from>Jani</from> </note> 

实体引用

在XML中,一些字符具有特殊的含义。为了避免解释错误,需要使用实体引用:

<message>salary &lt; 1000</message> 

XML中的注释

在XML中编写注释的语法与HTML类似:

<!-- This is a comment --> 

在XML中保留空白

XML不截断多个空白,保留所有空白字符。

XML将新行存储为LF

XML将新行存储为LF(Line Feed)。

格式良好的XML

符合上述语法规则的XML文档被称为“格式良好”的XML文档。

XML元素

一个XML文档包含XML元素。

什么是XML元素?

一个XML元素是从(包括)元素的开始标签到(包括)元素的结束标签的所有内容。

<price>29.99</price> 

一个元素可以包含:

  • 文本
  • 属性
  • 其他元素
  • 或以上的混合
<bookstore>   <book category="children">     <title>Harry Potter</title>     <author>J K. Rowling</author>     <year>2005</year>     <price>29.99</price>   </book>   <book category="web">     <title>Learning XML</title>     <author>Erik T. Ray</author>     <year>2003</year>     <price>39.95</price>   </book> </bookstore> 

在上面的例子中:

  • <title><author><year><price> 具有文本内容,因为它们包含文本(如29.99)。
  • <bookstore><book> 具有元素内容,因为它们包含元素。
  • <book> 具有一个属性(category="children")。

空XML元素

没有内容的元素被称为空元素。

在XML中,可以这样表示一个空元素:

<element></element> 

也可以使用所谓的自闭合标签:

<element /> 

这两种形式在XML软件(阅读器、解析器、浏览器)中产生相同的结果。

空元素可以有属性。

XML命名规则

XML元素必须遵循以下命名规则:

  • 元素名称区分大小写
  • 元素名称必须以字母或下划线开头
  • 元素名称不能以字母xml(或XML、Xml等)开头
  • 元素名称可以包含字母、数字、连字符、下划线和句点
  • 元素名称不能包含空格

除了xml,任何名称都可以使用,没有保留的单词(除了xml)。

最佳命名实践

  • 创建描述性的名称,比如:<person><firstname><lastname>
  • 创建简短和简单的名称,比如:<book_title> 而不是 <the_title_of_the_book>

命名约定

一些常用的XML元素命名约定:

  • 小写:<firstname>(所有字母都小写)
  • 大写:<FIRSTNAME>(所有字母都大写)
  • 蛇形命名:<first_name>(下划线分隔单词,常用于SQL数据库)
  • 帕斯卡命名:<FirstName>(每个单词的首字母大写,C程序员常用)
  • 骆驼命名:<firstName>(每个单词的首字母大写,除了第一个,JavaScript中常用)

提示! 选择您的命名风格,并始终保持一致!

XML元素是可扩展的

XML元素可以扩展以携带更多的信息。

看下面的XML示例:

<note>   <to>Tove</to>   <from>Jani</from>   <body>Don't forget me this weekend!</body> </note> 

假设我们创建了一个应用程序,从XML文档中提取<to><from><body>元素以生成以下输出:

MESSAGE To: Tove From: Jani  Don't forget me this weekend! 

想象一下,XML文档的作者向其添加了一些额外的信息:

<note>   <date>2008-01-10</date>   <to>Tove</to>   <from>Jani</from>   <heading>Reminder</heading>   <body>Don't forget me this weekend!</body> </note> 

应用程序是否应该崩溃或中断?

不应该。应用程序应该仍然能够在XML文档中找到<to><from><body>元素,并生成相同的输出。

这是XML的优点之一。它可以在不破坏应用程序的情况下进行扩展。

XML属性

XML元素可以有属性,就像HTML一样。

XML属性必须用引号括起来

属性值必须始终用引号括起来。可以使用单引号或双引号。

对于一个人的性别,<person>元素可以这样写:

<person gender="female"> 

或者像这样:

<person gender='female'> 

如果属性值本身包含双引号,可以使用单引号,就像在这个例子中:

<gangster name='George "Shotgun" Ziegler'> 

或者可以使用字符实体:

<gangster name="George &quot;Shotgun&quot; Ziegler"> 

XML元素 vs 属性

在XML中,没有规定何时使用属性或何时使用元素的规则。

我最喜欢的方式

以下三个XML文档包含完全相同的信息:

在第一个例子中使用了一个date属性:

<note date="2008-01-10">   <to>Tove</to>   <from>Jani</from> </note> 

在第二个例子中使用了一个<date>元素:

<note>   <date>2008-01-10</date>   <to>Tove</to>   <from>Jani</from> </note> 

在第三个例子中使用了一个扩展的<date>元素:(这是我最喜欢的)

<note>   <date>     <year>2008</year>     <month>01</month>     <day>10</day>   </date>   <to>Tove</to>   <from>Jani</from> </note> 

避免使用XML属性?

在使用属性时要考虑的一些事项有:

  • 属性不能包含多个值(元素可以)
  • 属性不能包含树结构(元素可以)
  • 属性不容易扩展(以适应将来的更改)

不要陷入这种情况:

<note day="10" month="01" year="2008" to="Tove" from="Jani" heading="Reminder" body="Don't forget me this weekend!"> </note> 

用于元数据的XML属性

有时会为元素分配ID引用。这些ID可以用来识别XML元素,方式与HTML中的id属性类似。以下是此示例:

<messages>   <note id="501">     <to>Tove</to>     <from>Jani</from>     <heading>Reminder</heading>     <body>Don't forget me this weekend!</body>   </note>   <note id="502">     <to>Jani</to>     <from>Tove</from>     <heading>Re: Reminder</heading>     <body>I will not</body>   </note> </messages> 

上述id属性用于标识不同的注释。它不是注释本身的一部分。

我想在这里说的是,元数据(关于数据的数据)应该存储为属性,而数据本身应该存储为元素。

XML命名空间

XML命名空间提供了一种避免元素名称冲突的方法。

名称冲突

在XML中,元素名称由开发人员定义。这通常导致在尝试混合来自不同XML应用程序的XML文档时发生冲突。

这个XML包含HTML表信息:

<table>   <tr>     <td>Apples</td>     <td>Bananas</td>   </tr> </table> 

这个XML包含有关桌子(家具的一部分)的信息:

<table>   <name>African Coffee Table</name>   <width>80</width>   <length>120</length> </table> 

如果将这些XML片段相加,将会出现名称冲突。两者都包含一个<table>元素,但这些元素具有不同的内容和含义。

用户或XML应用程序将不知道如何处理这些差异。

使用前缀解决名称冲突

在XML中,可以通过使用名称前缀轻松避免名称冲突。

这个XML包含有关HTML表和家具的信息:

<h:table>   <h:tr>     <h:td>Apples</h:td>     <h:td>Bananas</h:td>   </h:tr> </h:table>  <f:table>   <f:name>African Coffee Table</f:name>   <f:width>80</f:width>   <f:length>120</f:length> </f:table> 

在上面的例子中,不会发生冲突,因为这两个<table>元素具有不同的名称。

XML命名空间 - xmlns属性

在XML中使用前缀时,必须为前缀定义一个命名空间。可以通过元素的开始标记中的xmlns属性来定义命名空间。

命名空间声明具有以下语法:xmlns:prefix="URI"。

<root>    <h:tr>     <h:td>Apples</h:td>     <h:td>Bananas</h:td>   </h:tr> </h:table>    <f:name>African Coffee Table</f:name>   <f:width>80</f:width>   <f:length>120</f:length> </f:table>  </root> 

在上面的例子中:

  • 第一个<table>元素中的xmlns属性为h:前缀提供了一个合格的命名空间。
  • 第二个<table>元素中的xmlns属性为f:前缀提供了一个合格的命名空间。

当为元素定义命名空间时,所有具有相同前缀的子元素都与相同的命名空间相关联。

命名空间也可以在XML根元素中声明:

 <h:table>   <h:tr>     <h:td>Apples</h:td>     <h:td>Bananas</h:td>   </h:tr> </h:table>  <f:table>   <f:name>African Coffee Table</f:name>   <f:width>80</f:width>   <f:length>120</f:length> </f:table>  </root> 

注意: 解析器不使用命名空间URI查找信息。使用URI的目的是为命名空间提供一个唯一的名称。然而,公司通常将命名空间用作指向包含命名空间信息的网页的指针。

统一资源标识符(URI)

统一资源标识符(URI)是一个字符串,用于标识互联网资源。最常见的URI是统一资源定位符(URL),用于标识互联网域地址。另一种不太常见的URI类型是统一资源名称(URN)。

默认命名空间

为元素定义默认命名空间可以避免在所有子元素中使用前缀。它具有以下语法:xmlns="namespaceURI"。

这个XML包含HTML表信息:

  <tr>     <td>Apples</td>     <td>Bananas</td>   </tr> </table> 

这个XML包含有关家具的信息:

  <name>African Coffee Table</name>   <width>80</width>   <length>120</length> </table> 

实际使用中的命名空间

XSLT是一种可用于将XML文档转换为其他格式的语言。

下面的XML文档是用于将XML转换为HTML的文档。

命名空间"http://www.w3.org/1999/XSL/Transform"标识HTML文档中的XSLT元素:

<?xml version="1.0" encoding="UTF-8"?>  <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">  <xsl:template match="/"> <html> <body>   <h2>My CD Collection</h2>   <table border="1">     <tr>       <th style="text-align:left">Title</th>       <th style="text-align:left">Artist</th>     </tr>     <xsl:for-each select="catalog/cd">     <tr>       <td><xsl:value-of select="title"/></td>       <td><xsl:value-of select="artist"/></td>     </tr>     </xsl:for-each>   </table> </body> </html> </xsl:template>  </xsl:stylesheet> 

最后

为了方便其他设备和平台的小伙伴观看往期文章:

微信