Hi Christoph,<div><br></div><div>Thanks for the encouraging words! :)</div><div><br></div><div>Yes, after English, creating language models for Spanish will be a great idea so that we can cover a greater section of users. In fact I have decided the following four languages during the summers, English, Spanish, German and Hindi.</div>
<div><br></div><div>Although I know that users for Hindi are very few, but still I would like to implement it because that would ease me to test the framework in my locality.</div><div><br></div><div>Regards<br><br><div class="gmail_quote">
On Tue, Apr 6, 2010 at 6:29 AM, Christoph Derndorfer <span dir="ltr">&lt;<a href="mailto:christoph.derndorfer@gmail.com">christoph.derndorfer@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="gmail_quote"><div><div></div><div class="h5">On Sun, Apr 4, 2010 at 9:49 AM, chirag jain <span dir="ltr">&lt;<a href="mailto:chiragjain1989@gmail.com" target="_blank">chiragjain1989@gmail.com</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi, <div><br></div><div><br><br><div class="gmail_quote"><div>On Sat, Apr 3, 2010 at 7:37 AM, Benjamin M. Schwartz <span dir="ltr">&lt;<a href="mailto:bmschwar@fas.harvard.edu" target="_blank">bmschwar@fas.harvard.edu</a>&gt;</span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I think your proposal is very interesting.  It contains a number of<br>
different ideas.  One major division is between Voice Commands and Speech<br>
Recognition.  Each of these contains many other possibilities. My biggest<br>
suggestion is to specify further which possibilities you want to work on.<br>
 I recommend you schedule the _easiest_ thing first, before moving on to<br>
the hard things.  Most GSoC students are too ambitious and never produce<br>
anything useful.<br>
<br></blockquote></div><div>Thanks Benjamin for a quick reply and providing me with some very useful suggestions. </div><div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



Some specific ideas:<br>
<br>
Voice Commands:<br>
 - integrate with a text-command system like Gnome Do [1], so that the<br>
commands are accessible through the keyboard as well as microphone.  Also<br>
look at Perlbox [2].  (Note that neither Gnome Do or Perlbox can be used<br>
directly.)<br>
 - integrate with GnomeVoiceControl [3], which already uses PocketSphinx<br>
and should be highly compatible with Sugar.   This could allow voice<br>
control of unmodified Activities.<br>
<br></blockquote></div><div>I have already gone through Gnome Voice control which I think is the best option for integrating into sugar. The reason being it uses Pocket Sphinx which is light weight and thus should be compatible with devices like XO-1.0. The run time memory requirements of Pocket Sphinx are upto 20 MB. </div>


<div>During next few days, I will be testing the functionality of Pocket Sphinx in sugar and familiarizing myself more with Gnome voice control. </div><div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">



Speech Recognition:<br>
 - supply text to any unmodified activity<br>
 - control input language easily for multilingual users<br>
<br>
[1] <a href="http://do.davebsd.com/index.shtml" target="_blank">http://do.davebsd.com/index.shtml</a><br>
[2] <a href="http://perlbox.sourceforge.net/" target="_blank">http://perlbox.sourceforge.net/</a><br>
[3] <a href="http://live.gnome.org/GnomeVoiceControl" target="_blank">http://live.gnome.org/GnomeVoiceControl</a><br>
<br>
</blockquote></div></div><div>I have broken the proposal into following parts that should be done in sequence:</div><div><br></div>a) My first priority this summer is to enable &quot;Sugar Voice Control&quot;. This includes:</div>


<div><br></div><div>1. Testing Pocket Sphinx on Sugar</div><div>2. Studying more about Gnome Voice Control.</div><div>3. Sugarizing the Gnome Voice Control.</div><div>4. A command line interface that will start speech recognition in the background and will start taking &quot;Speech Commands&quot;.</div>


<div> </div><div>b) After the successful implementation of Sugar Voice control, we can then look into providing speech recognized text to unmodified sugar activities. Thus activities like Write can be made to get the required inputs either from Keyboard or through microphone. This includes:</div>


<div><br></div><div>1.  P<span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px">roviding a Speech recognition button in the sugar frame (for example on Top Right hand side) which when clicked will automatically start recognizing speech in the background. Clicking the same button again will stop the recognition process. </span></div>


<div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px"><br></span></div><div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px">2.  A key board shortcut like Alt+S for starting speech recognition</span></div>


<div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px"><br></span></div><div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px">3. Speech recognition control panel for controlling the various parameters.</span></div>


<div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px"><br></span></div><div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px">c) The last part can be creating an API for providing easy Speech Recognition access to activity developers. </span></div>


<div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px"><br></span></div><div><span style="font-family:Arial, sans-serif;font-size:13px;line-height:19px">My aim is to atleast achieve part a) this summer and if time permits I would also like to implement part b). Part c) can be taken care off later.</span></div>

</blockquote><div><br></div></div></div><div>Hi,</div><div><br></div><div>I just looked at your updated proposal and it&#39;s looking very good indeed.</div><div><br></div><div>I also think that <span style="font-family:arial, sans-serif;font-size:13px;border-collapse:collapse">Benjamin&#39;s comments are spot-on and so<span style="border-collapse:separate;font-family:arial;font-size:small"> achieving (a) in combination with supporting not only English but also Spanish (arguably the most important language when you look at current OLPC / Sugar deployments) would certainly be a big success and a great foundation for follow-up projects.</span></span></div>

</div><br><div>Cheers,</div><div>Christoph<br clear="all"><br>-- <br>Christoph Derndorfer<br>co-editor, olpcnews<br>url: <a href="http://www.olpcnews.com" target="_blank">www.olpcnews.com</a><br>e-mail: <a href="mailto:christoph@olpcnews.com" target="_blank">christoph@olpcnews.com</a><br>


</div>
</blockquote></div><br><br clear="all"><br>-- <br>Chirag Jain<br><br>Undergraduate Student <br>Netaji Subash Institute of Technology<br>New Delhi<br>
</div>