Hi, <div><br></div><div><br><br><div class="gmail_quote">On Sat, Apr 3, 2010 at 7:37 AM, Benjamin M. Schwartz <span dir="ltr">&lt;<a href="mailto:bmschwar@fas.harvard.edu">bmschwar@fas.harvard.edu</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">I think your proposal is very interesting.  It contains a number of<br>
different ideas.  One major division is between Voice Commands and Speech<br>
Recognition.  Each of these contains many other possibilities. My biggest<br>
suggestion is to specify further which possibilities you want to work on.<br>
 I recommend you schedule the _easiest_ thing first, before moving on to<br>
the hard things.  Most GSoC students are too ambitious and never produce<br>
anything useful.<br>
<br></blockquote><div>Thanks Benjamin for a quick reply and providing me with some very useful suggestions. </div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

Some specific ideas:<br>
<br>
Voice Commands:<br>
 - integrate with a text-command system like Gnome Do [1], so that the<br>
commands are accessible through the keyboard as well as microphone.  Also<br>
look at Perlbox [2].  (Note that neither Gnome Do or Perlbox can be used<br>
directly.)<br>
 - integrate with GnomeVoiceControl [3], which already uses PocketSphinx<br>
and should be highly compatible with Sugar.   This could allow voice<br>
control of unmodified Activities.<br>
<br></blockquote><div>I have already gone through Gnome Voice control which I think is the best option for integrating into sugar. The reason being it uses Pocket Sphinx which is light weight and thus should be compatible with devices like XO-1.0. The run time memory requirements of Pocket Sphinx are upto 20 MB. </div>
<div>During next few days, I will be testing the functionality of Pocket Sphinx in sugar and familiarizing myself more with Gnome voice control. </div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

Speech Recognition:<br>
 - supply text to any unmodified activity<br>
 - control input language easily for multilingual users<br>
<br>
[1] <a href="http://do.davebsd.com/index.shtml" target="_blank">http://do.davebsd.com/index.shtml</a><br>
[2] <a href="http://perlbox.sourceforge.net/" target="_blank">http://perlbox.sourceforge.net/</a><br>
[3] <a href="http://live.gnome.org/GnomeVoiceControl" target="_blank">http://live.gnome.org/GnomeVoiceControl</a><br>
<br>
</blockquote></div><div>I have broken the proposal into following parts that should be done in sequence:</div><div><br></div>a) My first priority this summer is to enable &quot;Sugar Voice Control&quot;. This includes:</div>
<div><br></div><div>1. Testing Pocket Sphinx on Sugar</div><div>2. Studying more about Gnome Voice Control.</div><div>3. Sugarizing the Gnome Voice Control.</div><div>4. A command line interface that will start speech recognition in the background and will start taking &quot;Speech Commands&quot;.</div>
<div> </div><div>b) After the successful implementation of Sugar Voice control, we can then look into providing speech recognized text to unmodified sugar activities. Thus activities like Write can be made to get the required inputs either from Keyboard or through microphone. This includes:</div>
<div><br></div><div>1.  P<span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; ">roviding a Speech recognition button in the sugar frame (for example on Top Right hand side) which when clicked will automatically start recognizing speech in the background. Clicking the same button again will stop the recognition process. </span></div>
<div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; "><br></span></div><div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; ">2.  A key board shortcut like Alt+S for starting speech recognition</span></div>
<div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; "><br></span></div><div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; ">3. Speech recognition control panel for controlling the various parameters.</span></div>
<div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; "><br></span></div><div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; ">c) The last part can be creating an API for providing easy Speech Recognition access to activity developers. </span></div>
<div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; "><br></span></div><div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; ">My aim is to atleast achieve part a) this summer and if time permits I would also like to implement part b). Part c) can be taken care off later. </span></div>
<div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; "><br></span></div><div><span class="Apple-style-span" style="font-family: Arial, sans-serif; font-size: 13px; line-height: 19px; ">Regards <br>
</span>-- <br>Chirag Jain<br><br>Undergraduate Student <br>Netaji Subash Institute of Technology<br>New Delhi<br>
</div>