<HTML><HEAD>
<META content="MSHTML 6.00.6000.16587" name=GENERATOR></HEAD>
<BODY>
<DIV>Sean,<BR>There is also some possibly relevant work relating to finding sources of&nbsp; difficulty for a particular parser, for example<BR><STRONG>Gertjan van Noord. Error Mining for Wide-Coverage Grammar Engineering. In: ACL 2004, Barcelona&nbsp; </STRONG>The latter (roughly) finds n-grams most often associated with a failure to obtain a complete parse, and might be adapted to predict in advance the well-behavedness of a corpus with respect to a particular parser and grammar.<BR><BR>In a similar vein,&nbsp;I've&nbsp; recently&nbsp;experimented with predicting parser error--not just failure to parse--using some stable features, that is, ones that will not&nbsp;change as the parser is improved. &nbsp;The experiments did not use noisy data.&nbsp; As might be expected, the most important features were found to be sentence length (in terms of number of tokens),&nbsp;<FONT face="Times New Roman" size=3> the normalized (per-token) parse speed,&nbsp; the number of basic chunks identified,&nbsp;and the preference score associated with the best parse (because the parser is preference-based).</FONT></DIV>
<DIV>&nbsp;</DIV>
<DIV><FONT face="Times New Roman" size=3>Paula</DIV>
<DIV></FONT><FONT face="Times New Roman" size=3>
<P align=left>- The </FONT><B><FONT face="Times New Roman" size=3>number of chunks </B></FONT><FONT face="Times New Roman" size=3>(ChunkCt) should be</P>
<P align=left></FONT>&gt; From: Sean Igo &lt;sgigo@xmission.com&gt;<BR>&gt; To: &lt;CORPORA@UIB.NO&gt;<BR>&gt; Date: 2/1/2008 5:02:02 PM<BR>&gt; Subject: [Corpora-List] Metrics for corpus "parseability"<BR>&gt;<BR>&gt; Good day,<BR>&gt;<BR>&gt; I'm working on a project in which we are attempting to characterize a <BR>&gt; few different corpora according to how "well-behaved" they are. That is, <BR>&gt; we want to show that some are more amenable in particular to parsing and <BR>&gt; part-of-speech tagging than others. Some of the corpora consist of <BR>&gt; complete, grammatical sentences and others are telegraphic, fragmentary <BR>&gt; text including a large number of abbreviations and misspellings.<BR>&gt;<BR>&gt; One approach I've tried is to tag and parse each of the corpora with the <BR>&gt; Stanford tagger and parser, generating ranked lists of the unique tokens <BR>&gt; and tags and looking for certain errors / warnings / phrase structures <BR>&gt; in the parser output. For instance, I'm counting how many sentences the <BR>&gt; parser had to retry, how many it failed to find any parse for, how many <BR>&gt; it ran out of memory while processing, and how many FRAG (sentence <BR>&gt; fragment) phrases are found in the parser output.<BR>&gt;<BR>&gt; Are there standard or widely accepted metrics for describing the <BR>&gt; well-behavedness of corpora?<BR>&gt;<BR>&gt; Many thanks,<BR>&gt; Sean Igo<BR>&gt;<BR>&gt; _______________________________________________<BR>&gt; Corpora mailing list<BR>&gt; Corpora@uib.no<BR>&gt; http://mailman.uib.no/listinfo/corpora<BR></P></DIV></BODY></HTML>